Science

Modèles du monde : le pari à un milliard de dollars de l'IA sur la réalité physique

En 2026, l'industrie de l'IA se détourne des modèles de langage pour se concentrer sur les "modèles du monde" – des systèmes qui comprennent et simulent la réalité tridimensionnelle – avec des milliards de dollars investis dans World Labs de Fei-Fei Li, AMI Labs de Yann LeCun et Google DeepMind.

R
Redakcia
Share
Modèles du monde : le pari à un milliard de dollars de l'IA sur la réalité physique

Au-delà du texte : un nouveau paradigme se dessine

Pendant des années, l'intelligence artificielle a réalisé ses avancées les plus spectaculaires grâce au langage – de vastes modèles entraînés sur du texte, capables d'écrire des essais, de répondre à des questions et de générer du code. Mais un chœur croissant de chercheurs soutient que ces modèles de langage, aussi impressionnants soient-ils, sont fondamentalement aveugles au monde physique. En 2026, des milliards de dollars affluent vers une alternative : les modèles du monde, des systèmes d'IA conçus pour comprendre et simuler la réalité tridimensionnelle.

Le pari à un milliard de dollars de Fei-Fei Li

Le signal le plus frappant est venu le 18 février, lorsque World Labs a levé 1 milliard de dollars lors d'un nouveau tour de financement, valorisant la startup à environ 5 milliards de dollars. Fondée par Fei-Fei Li, pionnière de l'IA – la professeure de Stanford qui a créé ImageNet et contribué à catalyser l'ère de l'apprentissage profond – World Labs construit ce qu'elle appelle "l'intelligence spatiale" : une IA capable de percevoir, de raisonner et de générer des environnements tridimensionnels cohérents.

Parmi les investisseurs figurent Nvidia, AMD, Andreessen Horowitz et Autodesk, qui a contribué à elle seule 200 millions de dollars. Les deux entreprises prévoient d'intégrer la technologie de World Labs directement dans les outils de conception 3D professionnels, en commençant par le divertissement. Le produit phare de l'entreprise, Marble, permet aux utilisateurs de générer des mondes 3D entiers à partir d'images, de vidéos ou d'invites textuelles.

Le pari à contre-courant de LeCun

Quelques semaines auparavant, Yann LeCun – l'un des "pères fondateurs" de l'apprentissage profond et chef scientifique de longue date du laboratoire d'IA de Meta – a annoncé qu'il quittait l'entreprise après 12 ans pour fonder AMI Labs, levant 500 millions d'euros pour une valorisation de 3 milliards d'euros. Basée à Paris avec des bureaux à Montréal, New York et Singapour, la startup est construite autour de la conviction de longue date de LeCun selon laquelle les grands modèles de langage sont une impasse sur la voie de l'intelligence générale.

"La mise à l'échelle des LLM ne nous permettra pas d'atteindre l'AGI",
a soutenu LeCun à plusieurs reprises. AMI Labs développera des modèles du monde en utilisant JEPA (Joint Embedding Predictive Architecture), un cadre que LeCun a mis au point chez Meta et qui entraîne l'IA non pas à prédire le mot suivant, mais à comprendre la dynamique causale des environnements physiques.

Les mondes interactifs de DeepMind

Google DeepMind est entré dans la course de manière décisive en août 2025 avec Genie 3, le premier modèle du monde capable de générer des environnements interactifs en temps réel. À partir d'une invite textuelle, Genie 3 produit des scènes 3D dynamiques et navigables à 24 images par seconde et en résolution 720p, en maintenant la cohérence pendant plusieurs minutes – un bond en avant spectaculaire par rapport à la limite de 10 à 20 secondes de son prédécesseur. Le magazine TIME l'a désignée comme l'une des meilleures inventions de 2025. Google l'a depuis ouvert aux abonnés AI Ultra via une application web prototype appelée Project Genie.

Demis Hassabis, le directeur de DeepMind, a fait écho à la critique de LeCun : les modèles de langage, malgré de solides performances de référence, manquent des modèles du monde internes nécessaires pour saisir la causalité et la dynamique physique – les fondements de l'intelligence véritable.

Pourquoi les modèles de langage ne suffisent pas

L'argument principal contre les LLM est architectural. Ces modèles apprennent les schémas statistiques dans le texte ; ils peuvent décrire un objet qui tombe sans comprendre la gravité. Les modèles du monde, en revanche, apprennent à prédire comment les environnements évoluent au fil du temps en réponse aux actions, en construisant une représentation interne de la causalité physique que le langage seul ne peut pas fournir.

Cette distinction a des conséquences pratiques profondes. Les robots guidés par des modèles du monde peuvent planifier et exécuter des tâches physiques ; l'IA spatiale peut aider les architectes, les cinéastes et les scientifiques d'une manière que la génération de texte ne peut pas. La question pour 2026 n'est plus de savoir si les modèles du monde sont importants – c'est quelle approche, quelle architecture et quelle entreprise définiront la prochaine ère de l'IA.

Cet article est également disponible dans d'autres langues :

Articles connexes