Tecnología

Cómo funciona la conducción autónoma integral: sin necesidad de mapas

Una nueva generación de vehículos autónomos abandona los mapas en alta definición y las reglas programadas manualmente en favor de una única red neuronal que aprende a conducir como lo hacen los humanos: observando la carretera.

R
Redakcia
5 min de lectura
Compartir
Cómo funciona la conducción autónoma integral: sin necesidad de mapas

El método antiguo: Conducción por consenso

Durante más de una década, el enfoque dominante para los coches autónomos ha sido el del pipeline modular. Los ingenieros dividen la tarea de conducción en una cadena de módulos especializados (percepción, seguimiento, predicción, planificación y control), cada uno con su propio código, sus propias entradas y sus propias salidas. Un sensor lidar alimenta un mapa 3D; el mapa alimenta un planificador de movimiento; el planificador alimenta un controlador que gira el volante.

Esta arquitectura es lógica, transparente y fácil de depurar. Cuando algo va mal, los ingenieros pueden rastrear el fallo hasta un módulo específico. Pero tiene un defecto fundamental: se pierde información en cada traspaso. Los pequeños errores en un módulo se acumulan a lo largo de la cadena. Y como cada componente se ajusta de forma independiente, el sistema es tan bueno como su eslabón más débil.

Peor aún, los sistemas tradicionales dependen de mapas de alta definición: modelos 3D con precisión centimétrica de cada carretera, marca de carril y bordillo. Construir y mantener esos mapas es caro y lento, razón por la cual la mayoría de los servicios de robotaxi todavía operan en un puñado de ciudades geocercadas.

El nuevo método: Una red, del sensor a la dirección

La conducción autónoma integral reemplaza toda la cadena modular con una única gran red neuronal. Entra metraje de cámara sin procesar; sale un plan de conducción. La red aprende la percepción, la predicción y la planificación simultáneamente, optimizando cada capa hacia un objetivo: conducir de forma segura.

El concepto no es nuevo (los investigadores demostraron versiones básicas en la década de 1980), pero los recientes avances en el aprendizaje profundo, las arquitecturas de transformadores y los clústeres de computación masiva lo han hecho práctico. Según una exhaustiva encuesta publicada en arXiv, la comunidad de conducción autónoma ha experimentado un rápido crecimiento en los marcos integrales que utilizan la entrada de sensores sin procesar para generar planes de movimiento del vehículo directamente.

La clave es que la optimización conjunta supera el ajuste aislado. Cuando la percepción y la planificación comparten la misma señal de gradiente, la red aprende a prestar atención a lo que realmente importa para la conducción, no solo a lo que un ingeniero humano decidió etiquetar.

¿Quién está construyendo esto?

Tres empresas lideran el impulso integral. Tesla reemplazó aproximadamente 300.000 líneas de C++ programadas manualmente con una sola red neuronal en su software Full Self-Driving, comenzando con la versión 12 en 2024 y expandiéndose drásticamente con FSD v13, que integra el estacionamiento, la conducción y la marcha atrás en un modelo unificado. El sistema toma video de ocho cámaras y genera directamente comandos de dirección, aceleración y frenado.

Wayve, con sede en Londres, ha llevado la filosofía sin mapas al extremo. Respaldada por Microsoft y SoftBank, la plataforma de Wayve ha demostrado la conducción autónoma en más de 90 ciudades sin ningún mapeo HD previo, adaptándose a nuevas geografías en semanas en lugar de años. La startup israelí Imagry persigue una visión similar, llamando a su enfoque conducción "independiente de la ubicación".

Ventajas y riesgos

Los beneficios son convincentes. Los sistemas integrales son drásticamente más escalables porque no requieren mapas HD costosos para cada nueva carretera. Manejan los casos extremos con más elegancia porque la red ha visto millones de escenarios de conducción del mundo real durante el entrenamiento. Y son computacionalmente más eficientes: un modelo en lugar de una docena.

Pero los riesgos son reales. Las redes integrales son cajas negras. Cuando el coche comete un error, los ingenieros no pueden rastrear fácilmente el error hasta un punto de decisión específico, lo que dificulta la certificación y la regulación. Estos sistemas también requieren enormes conjuntos de datos de entrenamiento: Tesla se basa en miles de millones de kilómetros de datos de flota, un recurso que pocos competidores pueden igualar. Como han señalado investigadores de la UC Berkeley, cerrar la brecha de interpretabilidad entre los sistemas modulares e integrales sigue siendo un desafío abierto.

Qué sigue

Muchos equipos están explorando ahora arquitecturas híbridas que combinan el aprendizaje integral con controles de seguridad modulares, utilizando redes neuronales para la planificación pero conservando protecciones basadas en reglas para el frenado de emergencia y la prevención de colisiones. Según una investigación publicada en la revista Sensors, estos híbridos pretenden capturar la adaptabilidad del aprendizaje profundo sin sacrificar la transparencia que exigen los reguladores.

El cambio de pipelines programados manualmente a inteligencia de conducción aprendida refleja una tendencia más amplia en la IA: reemplazar las características diseñadas por humanos con modelos que descubren sus propias representaciones. Si los sistemas integrales pueden demostrar ser lo suficientemente seguros como para ganarse la confianza del público (y la aprobación regulatoria) determinará si la próxima generación de coches autónomos finalmente deja atrás la geocerca.

Este artículo también está disponible en otros idiomas:

Artículos relacionados