Világmodellek: az AI milliárd dolláros tétje a fizikai valóságra

A szövegen túl: új paradigma alakul ki

Évekig a mesterséges intelligencia a nyelv területén ért el a legdrámaibb fejlődést – hatalmas, szövegeken alapuló modellek, amelyek képesek esszéket írni, kérdésekre válaszolni és kódot generálni. De egyre több kutató állítja, hogy ezek a nyelvi modellek, bármennyire lenyűgözőek is, alapvetően vakok a fizikai világra nézve. 2026-ban milliárd dollárok áramlanak egy alternatívába: a világmodellekbe, azaz olyan AI-rendszerekbe, amelyek a háromdimenziós valóság megértésére és szimulálására lettek tervezve.

Fei-Fei Li milliárd dolláros fogadása

A legszembetűnőbb jel február 18-án érkezett, amikor a World Labs 1 milliárd dollárt gyűjtött egy új finanszírozási körben, ami a startup értékeit körülbelül 5 milliárd dollárra becsülte. A mesterséges intelligencia úttörője, Fei-Fei Li – a Stanford professzora, aki létrehozta az ImageNetet és elősegítette a mélytanulás korszakának eljövetelét – által alapított World Labs azt építi, amit „térbeli intelligenciának” nevez: olyan mesterséges intelligenciát, amely képes érzékelni, érvelni és koherens háromdimenziós környezetet generálni.

A befektetők között van az Nvidia, az AMD, az Andreessen Horowitz és az Autodesk, amely egyedül 200 millió dollárral járult hozzá. A két vállalat azt tervezi, hogy a World Labs technológiáját közvetlenül integrálja a professzionális 3D-s tervezőeszközökbe, kezdve a szórakoztatóiparral. A vállalat zászlóshajó terméke, a Marble lehetővé teszi a felhasználók számára, hogy képek, videók vagy szöveges utasítások alapján teljes 3D-s világokat hozzanak létre.

LeCun ellentmondásos kockázata

Alig néhány héttel korábban Yann LeCun – a mélytanulás egyik „keresztapja” és a Meta AI laboratóriumának hosszú ideje vezető tudósa – bejelentette, hogy 12 év után elhagyja a vállalatot, hogy megalapítsa az AMI Labs-t, amely 500 millió eurót gyűjtött 3 milliárd eurós értékeléssel. A párizsi székhelyű, montreali, new yorki és szingapúri irodákkal rendelkező startup LeCun régóta meglévő meggyőződésén alapul, miszerint a nagy nyelvi modellek zsákutcát jelentenek az általános intelligencia felé vezető úton.

„Az LLM-ek méretezésével nem érhetjük el az AGI-t”

– érvelt LeCun többször is. Az AMI Labs a JEPA (Joint Embedding Predictive Architecture) segítségével fog világmodelleket fejleszteni, egy olyan keretrendszert, amelyet LeCun a Meta-nál fejlesztett ki, és amely az AI-t nem a következő szó megjóslására, hanem a fizikai környezet ok-okozati dinamikájának megértésére tanítja.

A DeepMind interaktív világai

A Google DeepMind 2025 augusztusában határozottan belépett a versenybe a Genie 3-mal, az első világmodellel, amely képes interaktív környezetet generálni valós időben. Egy szöveges prompt alapján a Genie 3 dinamikus, navigálható 3D-s jeleneteket hoz létre 24 képkocka/másodperc sebességgel és 720p felbontással, és több percig fenntartja a konzisztenciát – ez drámai ugrás elődjének 10-20 másodperces korlátaihoz képest. A TIME magazin 2025 egyik legjobb találmányának nevezte. A Google azóta egy Project Genie nevű prototípus webalkalmazáson keresztül elérhetővé tette az AI Ultra előfizetők számára.

A DeepMind vezetője, Demis Hassabis egyetértett LeCun kritikájával: a nyelvi modellek, annak ellenére, hogy erős referenciaértékű teljesítményt nyújtanak, nem rendelkeznek az ok-okozati összefüggések és a fizikai dinamika megragadásához szükséges belső világmodellekkel – amelyek a valódi intelligencia alapjai.

Miért nem elégségesek a nyelvi modellek?

Az LLM-ek ellen felhozott legfőbb érv az architektúrájukkal kapcsolatos. Ezek a modellek statisztikai mintákat tanulnak a szövegekből; le tudják írni egy zuhanó tárgyat anélkül, hogy megértenék a gravitációt. A világmodellek ezzel szemben megtanulják előre jelezni, hogyan változik a környezet az idő múlásával a cselekvések hatására, és felépítenek egy belső fizikai ok-okozati ábrázolást, amelyet a nyelv önmagában nem tud biztosítani.

Ennek a különbségnek mélyreható gyakorlati következményei vannak. A világmodellek által irányított robotok fizikai feladatokat tudnak tervezni és végrehajtani; a térbeli mesterséges intelligencia olyan módon tud segíteni az építészeknek, filmkészítőknek és tudósoknak, ahogyan a szöveggenerálás nem. A 2026-ra vonatkozó kérdés már nem az, hogy a világmodellek fontosak-e, hanem az, hogy melyik megközelítés, melyik architektúra és melyik vállalat fogja meghatározni a mesterséges intelligencia következő korszakát.

Világmodellek: az AI milliárd dolláros tétje a fizikai valóságra

A szövegen túl: új paradigma alakul ki

Fei-Fei Li milliárd dolláros fogadása

LeCun ellentmondásos kockázata

A DeepMind interaktív világai

Miért nem elégségesek a nyelvi modellek?

Kapcsolódó cikkek

Hogyan Működik a Polipok Intelligenciája – Egy Megosztott Elme

Hogyan térképezi fel a NASA SPHEREx űrtávcsöve az egész eget 102 színben

Mi az a pozitrónium – az antianyagból álló atom?

Hogyan Működik a Polipok Intelligenciája – Egy Megosztott Elme

Hogyan működik az Air Force One – a repülő Fehér Ház

Hogyan működik a háborús jogkörökről szóló határozat – és miért hagyják figyelmen kívül az elnökök

Hogyan Működik a Triple Crown – A Lóversenyzés Legnehezebb Díja

Hogyan térképezi fel a NASA SPHEREx űrtávcsöve az egész eget 102 színben

Ne maradjon le az új cikkekről!