Jak działa autonomiczna jazda typu end-to-end – bez potrzeby map
Nowa generacja autonomicznych pojazdów porzuca mapy HD i ręcznie kodowane reguły na rzecz pojedynczej sieci neuronowej, która uczy się jeździć tak, jak robią to ludzie – obserwując drogę.
Stare podejście: Jazda przez komitet
Przez ponad dekadę dominującym podejściem do samochodów autonomicznych był modularny potok. Inżynierowie dzielą zadanie jazdy na łańcuch wyspecjalizowanych modułów – percepcji, śledzenia, przewidywania, planowania i kontroli – każdy z własnym kodem, własnymi danymi wejściowymi i własnymi danymi wyjściowymi. Czujnik lidar zasila mapę 3D; mapa zasila planistę ruchu; planista zasila kontroler, który skręca kołem.
Ta architektura jest logiczna, przejrzysta i łatwa do debugowania. Kiedy coś idzie nie tak, inżynierowie mogą prześledzić awarię do konkretnego modułu. Ale ma ona zasadniczą wadę: informacje są tracone przy każdym przekazaniu. Małe błędy w jednym module kumulują się w całym łańcuchu. A ponieważ każdy komponent jest dostrajany niezależnie, system jest tak dobry, jak jego najsłabsze ogniwo.
Co gorsza, tradycyjne systemy zależą od map wysokiej rozdzielczości – centymetrowo precyzyjnych modeli 3D każdej drogi, oznakowania pasa ruchu i krawężnika. Budowa i utrzymanie tych map jest kosztowne i powolne, dlatego większość usług robotaxi nadal działa w zaledwie kilku ogrodzonych miastach.
Nowe podejście: Jedna sieć, od czujnika do kierownicy
Autonomiczna jazda typu end-to-end zastępuje cały modularny łańcuch pojedynczą dużą siecią neuronową. Surowe nagranie z kamery wchodzi; plan jazdy wychodzi. Sieć uczy się percepcji, przewidywania i planowania jednocześnie, optymalizując każdą warstwę w kierunku jednego celu: bezpiecznej jazdy.
Koncepcja nie jest nowa – naukowcy demonstrowali podstawowe wersje w latach 80. – ale ostatnie postępy w głębokim uczeniu się, architekturach transformatorowych i ogromnych klastrach obliczeniowych uczyniły ją praktyczną. Według kompleksowego przeglądu opublikowanego na arXiv, społeczność zajmująca się autonomiczną jazdą odnotowała szybki wzrost liczby ram end-to-end, które wykorzystują surowe dane wejściowe z czujników do bezpośredniego generowania planów ruchu pojazdu.
Kluczowym spostrzeżeniem jest to, że wspólna optymalizacja pokonuje izolowane dostrajanie. Kiedy percepcja i planowanie dzielą ten sam sygnał gradientu, sieć uczy się zwracać uwagę na to, co naprawdę ma znaczenie dla jazdy – a nie tylko na to, co człowiek-inżynier zdecydował się oznaczyć.
Kto to buduje?
Trzy firmy przewodzą ofensywie end-to-end. Tesla zastąpiła około 300 000 linii ręcznie kodowanego C++ pojedynczą siecią neuronową w swoim oprogramowaniu Full Self-Driving, zaczynając od wersji 12 w 2024 roku i rozszerzając się dramatycznie wraz z FSD v13, która integruje parkowanie, jazdę i cofanie w jeden ujednolicony model. System pobiera wideo z ośmiu kamer i bezpośrednio wyprowadza polecenia sterowania, przyspieszenia i hamowania.
Londyńska firma Wayve posunęła się najdalej w filozofii bez map. Wspierana przez Microsoft i SoftBank, platforma Wayve zademonstrowała autonomiczną jazdę w ponad 90 miastach bez wcześniejszego mapowania HD – dostosowując się do nowych obszarów geograficznych w ciągu tygodni, a nie lat. Izraelski startup Imagry realizuje podobną wizję, nazywając swoje podejście jazdą „niezależną od lokalizacji”.
Zalety i ryzyka
Korzyści są przekonujące. Systemy end-to-end są znacznie bardziej skalowalne, ponieważ nie wymagają kosztownych map HD dla każdej nowej drogi. Radzą sobie z przypadkami brzegowymi z większą gracją, ponieważ sieć widziała miliony rzeczywistych scenariuszy jazdy podczas treningu. I są bardziej wydajne obliczeniowo – jeden model zamiast tuzina.
Ale ryzyko jest realne. Sieci end-to-end są czarnymi skrzynkami. Kiedy samochód popełnia błąd, inżynierowie nie mogą łatwo prześledzić błędu do konkretnego punktu decyzyjnego, co utrudnia certyfikację i regulację. Systemy te wymagają również ogromnych zbiorów danych treningowych – Tesla korzysta z miliardów mil danych flotowych, zasobu, któremu niewielu konkurentów może dorównać. Jak zauważyli naukowcy z UC Berkeley zauważyli, wypełnienie luki interpretacyjnej między systemami modułowymi i end-to-end pozostaje otwartym wyzwaniem.
Co dalej
Wiele zespołów bada obecnie architektury hybrydowe, które łączą uczenie się end-to-end z modułowymi kontrolami bezpieczeństwa – wykorzystując sieci neuronowe do planowania, ale zachowując oparte na regułach bariery ochronne do hamowania awaryjnego i unikania kolizji. Według badań opublikowanych w czasopiśmie Sensors, te hybrydy mają na celu uchwycenie zdolności adaptacyjnych głębokiego uczenia się bez poświęcania przejrzystości, której wymagają organy regulacyjne.
Przejście od ręcznie kodowanych potoków do wyuczonej inteligencji jazdy odzwierciedla szerszy trend w sztucznej inteligencji: zastępowanie cech zaprojektowanych przez człowieka modelami, które odkrywają własne reprezentacje. To, czy systemy end-to-end okażą się wystarczająco bezpieczne, aby zdobyć zaufanie publiczne – i zgodę organów regulacyjnych – zadecyduje o tym, czy następna generacja samochodów autonomicznych w końcu opuści ogrodzenie.