Nauka

Modele świata: miliardowy zakład sztucznej inteligencji na rzeczywistość fizyczną

W 2026 r. branża sztucznej inteligencji przechodzi od modeli językowych do „modeli świata” — systemów, które rozumieją i symulują trójwymiarową rzeczywistość — a miliardy dolarów trafiają do World Labs Fei-Fei Li, AMI Labs Yanna LeCuna i Google DeepMind.

R
Redakcia
Share
Modele świata: miliardowy zakład sztucznej inteligencji na rzeczywistość fizyczną

Poza tekstem: kształtuje się nowy paradygmat

Przez lata sztuczna inteligencja osiągała najbardziej spektakularne postępy w zakresie języka — ogromnych modeli szkolonych na tekście, zdolnych do pisania esejów, odpowiadania na pytania i generowania kodu. Jednak coraz więcej badaczy twierdzi, że te modele językowe, choć imponujące, są zasadniczo ślepe na świat fizyczny. W 2026 r. miliardy dolarów płyną w kierunku alternatywnego rozwiązania: modeli świata, systemów sztucznej inteligencji zaprojektowanych do rozumienia i symulowania trójwymiarowej rzeczywistości.

Miliardowy zakład Fei-Fei Li

Najbardziej uderzającym sygnałem była informacja z 18 lutego, kiedy to World Labs pozyskało 1 miliard dolarów w nowej rundzie finansowania, wyceniając startup na około 5 miliardów dolarów. Założona przez pionierkę sztucznej inteligencji Fei-Fei Li — profesor Uniwersytetu Stanforda, która stworzyła ImageNet i pomogła zapoczątkować erę głębokiego uczenia się — firma World Labs buduje coś, co nazywa „inteligencją przestrzenną”: sztuczną inteligencję, która potrafi postrzegać, rozumować i generować spójne trójwymiarowe środowiska.

Wśród inwestorów znajdują się Nvidia, AMD, Andreessen Horowitz i Autodesk, który sam wniósł 200 milionów dolarów. Obie firmy planują zintegrować technologię World Labs bezpośrednio z profesjonalnymi narzędziami do projektowania 3D, zaczynając od rozrywki. Flagowy produkt firmy, Marble, pozwala użytkownikom generować całe światy 3D na podstawie obrazów, filmów lub podpowiedzi tekstowych.

Kontrowersyjny zakład LeCuna

Zaledwie kilka tygodni wcześniej Yann LeCun — jeden z „ojców chrzestnych” głębokiego uczenia się i wieloletni główny naukowiec w laboratorium sztucznej inteligencji Meta — ogłosił, że po 12 latach opuszcza firmę, aby założyć AMI Labs, pozyskując 500 milionów euro przy wycenie na 3 miliardy euro. Startup z siedzibą w Paryżu i biurami w Montrealu, Nowym Jorku i Singapurze opiera się na długoletnim przekonaniu LeCuna, że duże modele językowe są ślepą uliczką na drodze do ogólnej inteligencji.

„Skalowanie modeli LLM nie pozwoli nam osiągnąć AGI”
– wielokrotnie argumentował LeCun. AMI Labs będzie opracowywać modele świata przy użyciu JEPA (Joint Embedding Predictive Architecture), frameworka zapoczątkowanego przez LeCuna w Meta, który uczy sztuczną inteligencję nie przewidywania następnego słowa, ale rozumienia dynamiki przyczynowo-skutkowej środowisk fizycznych.

Interaktywne światy DeepMind

Google DeepMind zdecydowanie wkroczyło do wyścigu w sierpniu 2025 r. z Genie 3, pierwszym modelem świata zdolnym do generowania interaktywnych środowisk w czasie rzeczywistym. Na podstawie podpowiedzi tekstowej Genie 3 tworzy dynamiczne, nawigowalne sceny 3D z prędkością 24 klatek na sekundę i rozdzielczością 720p, zachowując spójność przez kilka minut — co stanowi ogromny skok w stosunku do ograniczenia poprzednika, które wynosiło od 10 do 20 sekund. Magazyn TIME uznał go za jeden z najlepszych wynalazków 2025 roku. Od tego czasu Google udostępnił go subskrybentom AI Ultra za pośrednictwem prototypowej aplikacji internetowej o nazwie Project Genie.

Szef DeepMind, Demis Hassabis, podzielił krytykę LeCuna: modele językowe, pomimo wysokiej wydajności w testach porównawczych, nie posiadają wewnętrznych modeli świata niezbędnych do uchwycenia przyczynowości i dynamiki fizycznej — podstaw prawdziwej inteligencji.

Dlaczego modele językowe nie wystarczają

Głównym argumentem przeciwko modelom LLM jest ich architektura. Modele te uczą się statystycznych wzorców w tekście; potrafią opisać spadający obiekt bez zrozumienia grawitacji. Natomiast modele świata uczą się przewidywać, jak środowisko zmienia się w czasie w odpowiedzi na działania, budując wewnętrzną reprezentację fizycznej przyczynowości, której sam język nie jest w stanie zapewnić.

To rozróżnienie ma głębokie konsekwencje praktyczne. Roboty kierowane modelami świata mogą planować i wykonywać zadania fizyczne; przestrzenna sztuczna inteligencja może pomagać architektom, filmowcom i naukowcom w sposób, w jaki nie jest to możliwe w przypadku generowania tekstu. Pytanie na rok 2026 nie dotyczy już tego, czy modele świata mają znaczenie — chodzi o to, które podejście, która architektura i która firma zdefiniują następną erę sztucznej inteligencji.

Ten artykuł jest dostępny także w innych językach:

Powiązane artykuły