Modelos del Mundo: la apuesta multimillonaria de la IA por la realidad física
En 2026, la industria de la IA está dando un giro desde los modelos de lenguaje hacia los 'modelos del mundo' — sistemas que comprenden y simulan la realidad tridimensional — con miles de millones de dólares fluyendo hacia World Labs de Fei-Fei Li, AMI Labs de Yann LeCun y Google DeepMind.
Más allá del texto: un nuevo paradigma toma forma
Durante años, la inteligencia artificial logró sus avances más espectaculares a través del lenguaje: vastos modelos entrenados con texto, capaces de escribir ensayos, responder preguntas y generar código. Pero un coro creciente de investigadores argumenta que estos modelos de lenguaje, por impresionantes que sean, son fundamentalmente ciegos al mundo físico. En 2026, miles de millones de dólares están fluyendo hacia una alternativa: los modelos del mundo, sistemas de IA diseñados para comprender y simular la realidad tridimensional.
La apuesta multimillonaria de Fei-Fei Li
La señal más llamativa llegó el 18 de febrero, cuando World Labs recaudó 1.000 millones de dólares en una nueva ronda de financiación, valorando la startup en aproximadamente 5.000 millones de dólares. Fundada por la pionera de la IA Fei-Fei Li — la profesora de Stanford que creó ImageNet y ayudó a catalizar la era del aprendizaje profundo — World Labs está construyendo lo que llama "inteligencia espacial": IA que puede percibir, razonar y generar entornos tridimensionales coherentes.
Entre los inversores se encuentran Nvidia, AMD, Andreessen Horowitz y Autodesk, que por sí sola aportó 200 millones de dólares. Las dos empresas planean integrar la tecnología de World Labs directamente en herramientas profesionales de diseño 3D, comenzando por el entretenimiento. El producto estrella de la empresa, Marble, permite a los usuarios generar mundos 3D enteros a partir de imágenes, vídeos o indicaciones de texto.
La apuesta contraria de LeCun
Apenas unas semanas antes, Yann LeCun — uno de los "padrinos" del aprendizaje profundo y científico jefe durante mucho tiempo en el laboratorio de IA de Meta — anunció que dejaba la empresa después de 12 años para fundar AMI Labs, recaudando 500 millones de euros con una valoración de 3.000 millones de euros. Con sede en París y oficinas en Montreal, Nueva York y Singapur, la startup se basa en la convicción de LeCun, mantenida durante mucho tiempo, de que los grandes modelos de lenguaje son un callejón sin salida en el camino hacia la inteligencia general.
"Escalar los LLM no nos permitirá alcanzar la AGI",ha argumentado LeCun repetidamente. AMI Labs desarrollará modelos del mundo utilizando JEPA (Joint Embedding Predictive Architecture), un marco que LeCun impulsó en Meta y que entrena a la IA no para predecir la siguiente palabra, sino para comprender la dinámica causal de los entornos físicos.
Los mundos interactivos de DeepMind
Google DeepMind entró en la carrera de forma decisiva en agosto de 2025 con Genie 3, el primer modelo del mundo capaz de generar entornos interactivos en tiempo real. Dada una indicación de texto, Genie 3 produce escenas 3D dinámicas y navegables a 24 fotogramas por segundo y una resolución de 720p, manteniendo la coherencia durante varios minutos — un salto dramático con respecto al límite de 10 a 20 segundos de su predecesor. La revista TIME lo nombró uno de los mejores inventos de 2025. Desde entonces, Google lo ha abierto a los suscriptores de AI Ultra a través de una aplicación web prototipo llamada Project Genie.
El jefe de DeepMind, Demis Hassabis, se ha hecho eco de la crítica de LeCun: los modelos de lenguaje, a pesar de su sólido rendimiento de referencia, carecen de los modelos del mundo internos necesarios para capturar la causalidad y la dinámica física — los fundamentos de la inteligencia genuina.
Por qué los modelos de lenguaje no son suficientes
El argumento central contra los LLM es arquitectónico. Estos modelos aprenden patrones estadísticos en el texto; pueden describir un objeto que cae sin comprender la gravedad. Los modelos del mundo, por el contrario, aprenden a predecir cómo cambian los entornos con el tiempo en respuesta a las acciones, construyendo una representación interna de la causalidad física que el lenguaje por sí solo no puede proporcionar.
Esta distinción tiene profundas consecuencias prácticas. Los robots guiados por modelos del mundo pueden planificar y ejecutar tareas físicas; la IA espacial puede ayudar a arquitectos, cineastas y científicos de formas que la generación de texto no puede. La pregunta para 2026 ya no es si los modelos del mundo importan — es qué enfoque, qué arquitectura y qué empresa definirán la próxima era de la IA.