Autonomes Fahren von A bis Z – ohne Karten
Eine neue Generation autonomer Fahrzeuge verzichtet auf HD-Karten und handprogrammierten Regeln und setzt stattdessen auf ein einzelnes neuronales Netzwerk, das lernt, wie Menschen fahren – indem es die Straße beobachtet.
Der alte Weg: Fahren per Komitee
Seit mehr als einem Jahrzehnt ist der modulare Pipeline-Ansatz der vorherrschende Ansatz für selbstfahrende Autos. Ingenieure zerlegen die Fahraufgabe in eine Kette spezialisierter Module – Wahrnehmung, Verfolgung, Vorhersage, Planung und Steuerung – jedes mit seinem eigenen Code, seinen eigenen Eingaben und seinen eigenen Ausgaben. Ein Lidar-Sensor speist eine 3D-Karte; die Karte speist einen Bewegungsplaner; der Planer speist einen Controller, der das Lenkrad dreht.
Diese Architektur ist logisch, transparent und einfach zu debuggen. Wenn etwas schief geht, können Ingenieure den Fehler auf ein bestimmtes Modul zurückführen. Aber sie hat einen grundlegenden Fehler: Informationen gehen bei jeder Übergabe verloren. Kleine Fehler in einem Modul verstärken sich durch die Kette. Und da jede Komponente unabhängig voneinander abgestimmt wird, ist das System nur so gut wie sein schwächstes Glied.
Schlimmer noch, traditionelle Systeme sind auf hochauflösende Karten angewiesen – zentimetergenaue 3D-Modelle jeder Straße, Fahrbahnmarkierung und jedes Bordsteins. Das Erstellen und Pflegen dieser Karten ist teuer und langsam, weshalb die meisten Robotaxi-Dienste immer noch in einer Handvoll eingegrenzter Städte operieren.
Der neue Weg: Ein Netzwerk, Sensor zur Lenkung
Das durchgängige autonome Fahren ersetzt die gesamte modulare Kette durch ein einziges großes neuronales Netzwerk. Rohes Kameramaterial geht hinein; ein Fahrplan kommt heraus. Das Netzwerk lernt Wahrnehmung, Vorhersage und Planung gleichzeitig und optimiert jede Schicht auf ein Ziel hin: sicheres Fahren.
Das Konzept ist nicht neu – Forscher demonstrierten grundlegende Versionen in den 1980er Jahren –, aber die jüngsten Fortschritte in den Bereichen Deep Learning, Transformer-Architekturen und massive Rechencluster haben es praktikabel gemacht. Laut einer umfassenden Studie, die auf arXiv veröffentlicht wurde, hat die Community für autonomes Fahren ein rasantes Wachstum bei End-to-End-Frameworks erlebt, die rohe Sensoreingaben verwenden, um direkt Fahrzeugbewegungspläne zu generieren.
Die wichtigste Erkenntnis ist, dass gemeinsame Optimierung isolierte Abstimmung schlägt. Wenn Wahrnehmung und Planung das gleiche Gradientensignal teilen, lernt das Netzwerk, auf das zu achten, was für das Fahren wirklich wichtig ist – nicht nur auf das, was ein menschlicher Ingenieur beschlossen hat zu kennzeichnen.
Wer baut das?
Drei Unternehmen führen den End-to-End-Vorstoß an. Tesla ersetzte in seiner Full Self-Driving-Software etwa 300.000 Zeilen handprogrammierten C++-Code durch ein einzelnes neuronales Netzwerk, beginnend mit Version 12 im Jahr 2024 und in erheblichem Umfang mit FSD v13, das Parken, Fahren und Rückwärtsfahren in einem einheitlichen Modell integriert. Das System nimmt Videos von acht Kameras auf und gibt direkt Lenk-, Beschleunigungs- und Bremsbefehle aus.
Das in London ansässige Unternehmen Wayve hat die kartenlose Philosophie am weitesten getrieben. Die von Microsoft und SoftBank unterstützte Plattform von Wayve hat autonomes Fahren in über 90 Städten demonstriert, ohne vorherige HD-Kartierung – und passt sich in Wochen statt in Jahren an neue Regionen an. Das israelische Startup Imagry verfolgt eine ähnliche Vision und bezeichnet seinen Ansatz als „standortunabhängiges“ Fahren.
Vorteile und Risiken
Die Vorteile sind überzeugend. End-to-End-Systeme sind deutlich besser skalierbar, da sie keine teuren HD-Karten für jede neue Straße benötigen. Sie bewältigen Randfälle eleganter, da das Netzwerk während des Trainings Millionen von realen Fahrszenarien gesehen hat. Und sie sind rechentechnisch effizienter – ein Modell anstelle von einem Dutzend.
Aber die Risiken sind real. End-to-End-Netzwerke sind Black Boxes. Wenn das Auto einen Fehler macht, können Ingenieure den Fehler nicht einfach auf einen bestimmten Entscheidungspunkt zurückführen, was die Zertifizierung und Regulierung erschwert. Diese Systeme erfordern auch enorme Trainingsdatensätze – Tesla greift auf Milliarden von Kilometern an Flottendaten zurück, eine Ressource, die nur wenige Wettbewerber erreichen können. Wie Forscher der UC Berkeley festgestellt haben, bleibt die Überbrückung der Interpretationslücke zwischen modularen und End-to-End-Systemen eine offene Herausforderung.
Was kommt als Nächstes
Viele Teams erforschen jetzt Hybridarchitekturen, die End-to-End-Lernen mit modularen Sicherheitsprüfungen kombinieren – neuronale Netze für die Planung verwenden, aber regelbasierte Leitplanken für Notbremsungen und Kollisionsvermeidung beibehalten. Laut Forschungsergebnissen, die in der Fachzeitschrift Sensors veröffentlicht wurden, zielen diese Hybride darauf ab, die Anpassungsfähigkeit von Deep Learning zu erfassen, ohne die Transparenz zu opfern, die Aufsichtsbehörden fordern.
Die Verlagerung von handprogrammierten Pipelines hin zu erlernter Fahrintelligenz spiegelt einen breiteren Trend in der KI wider: das Ersetzen von von Menschen entwickelten Funktionen durch Modelle, die ihre eigenen Darstellungen entdecken. Ob sich End-to-End-Systeme als sicher genug erweisen können, um das Vertrauen der Öffentlichkeit – und die behördliche Genehmigung – zu gewinnen, wird darüber entscheiden, ob die nächste Generation selbstfahrender Autos die räumliche Begrenzung endlich hinter sich lässt.
Bleib auf dem Laufenden!
Folge uns auf Facebook für die neuesten Nachrichten und Artikel.
Folge uns auf Facebook