Jak funguje autonomní řízení typu end-to-end – bez nutnosti map
Nová generace autonomních vozidel se zbavuje HD map a ručně psaných pravidel ve prospěch jediné neuronové sítě, která se učí řídit tak, jak to dělají lidé – pozorováním silnice.
Starý způsob: Řízení výborem
Více než deset let byl dominantním přístupem k samořídícím autům modulární systém. Inženýři rozdělují úkol řízení do řetězce specializovaných modulů – vnímání, sledování, predikce, plánování a řízení – každý s vlastním kódem, vlastními vstupy a vlastními výstupy. Lidar senzor dodává 3D mapu; mapa dodává plánovači pohybu; plánovač dodává ovladači, který otáčí volantem.
Tato architektura je logická, transparentní a snadno se ladí. Když se něco pokazí, inženýři mohou vysledovat selhání ke konkrétnímu modulu. Má to ale zásadní nedostatek: informace se ztrácejí při každém předání. Malé chyby v jednom modulu se v řetězci násobí. A protože je každá komponenta laděna nezávisle, systém je jen tak dobrý, jak dobrý je jeho nejslabší článek.
A co je horší, tradiční systémy závisí na mapách s vysokým rozlišením – centimetrově přesných 3D modelech každé silnice, značení jízdních pruhů a obrubníku. Vytváření a údržba těchto map je nákladná a pomalá, a proto většina služeb robotaxi stále funguje jen v několika málo geograficky omezených městech.
Nový způsob: Jedna síť, od senzoru k řízení
Autonomní řízení typu end-to-end nahrazuje celý modulární řetězec jedinou velkou neuronovou sítí. Vstupem jsou surová data z kamery; výstupem je plán jízdy. Síť se učí vnímání, predikci a plánování současně a optimalizuje každou vrstvu směrem k jednomu cíli: bezpečné jízdě.
Koncept není nový – výzkumníci demonstrovali základní verze v 80. letech – ale nedávný pokrok v hlubokém učení, transformátorových architekturách a masivních výpočetních clusterech jej učinil praktickým. Podle komplexního průzkumu publikovaného na arXiv, autonomní řídicí komunita zaznamenala rychlý růst end-to-end rámců, které používají surový senzorový vstup k přímému generování plánů pohybu vozidla.
Klíčovým poznatkem je, že společná optimalizace překonává izolované ladění. Když vnímání a plánování sdílejí stejný gradientní signál, síť se učí věnovat pozornost tomu, co je pro řízení skutečně důležité – nejen tomu, co se lidský inženýr rozhodl označit.
Kdo to staví?
Tři společnosti vedou snahu o end-to-end. Tesla nahradila zhruba 300 000 řádků ručně psaného C++ jedinou neuronovou sítí ve svém softwaru Full Self-Driving, počínaje verzí 12 v roce 2024 a dramaticky se rozšiřující s FSD v13, která integruje parkování, řízení a couvání do jednoho sjednoceného modelu. Systém přijímá video z osmi kamer a přímo vydává příkazy pro řízení, zrychlení a brzdění.
Londýnská společnost Wayve zašla s filozofií bez map nejdále. Platforma Wayve, podporovaná společnostmi Microsoft a SoftBank, předvedla autonomní řízení ve více než 90 městech bez jakéhokoli předchozího HD mapování – adaptuje se na nové geografické oblasti v řádu týdnů, nikoli let. Izraelský startup Imagry sleduje podobnou vizi a nazývá svůj přístup „na poloze nezávislé“ řízení.
Výhody a rizika
Výhody jsou přesvědčivé. Systémy typu end-to-end jsou dramaticky škálovatelnější, protože nevyžadují drahé HD mapy pro každou novou silnici. Zvládají okrajové případy elegantněji, protože síť viděla během tréninku miliony scénářů z reálného světa. A jsou výpočetně efektivnější – jeden model namísto tuctu.
Rizika jsou ale reálná. Sítě typu end-to-end jsou černé skříňky. Když auto udělá chybu, inženýři nemohou snadno vysledovat chybu ke konkrétnímu rozhodovacímu bodu, což ztěžuje certifikaci a regulaci. Tyto systémy také vyžadují obrovské tréninkové datové sady – Tesla čerpá z miliard mil dat z vozového parku, což je zdroj, kterému se jen málo konkurentů může vyrovnat. Jak poznamenali výzkumníci z UC Berkeley v jedné studii, překlenutí mezery v interpretovatelnosti mezi modulárními a end-to-end systémy zůstává otevřenou výzvou.
Co bude dál
Mnoho týmů nyní zkoumá hybridní architektury, které kombinují end-to-end učení s modulárními bezpečnostními kontrolami – používají neuronové sítě pro plánování, ale zachovávají pravidly založená ochranná opatření pro nouzové brzdění a zabránění kolizi. Podle výzkumu publikovaného v časopise Sensors, cílem těchto hybridů je zachytit adaptabilitu hlubokého učení bez obětování transparentnosti, kterou vyžadují regulátoři.
Posun od ručně psaných systémů k naučené inteligenci řízení odráží širší trend v AI: nahrazování lidmi navržených funkcí modely, které objevují vlastní reprezentace. Zda se systémy typu end-to-end prokážou jako dostatečně bezpečné, aby si získaly důvěru veřejnosti – a souhlas regulačních orgánů – rozhodne o tom, zda příští generace samořídících aut konečně opustí geografické omezení.