Wissenschaft

World Models: Die Milliarden-Wette der KI auf die physische Realität

Im Jahr 2026 vollzieht die KI-Industrie einen Schwenk von Sprachmodellen hin zu 'World Models' – Systemen, die die dreidimensionale Realität verstehen und simulieren können. Milliarden Dollar fließen in Fei-Fei Lis World Labs, Yann LeCuns AMI Labs und Google DeepMind.

R
Redakcia
Share
World Models: Die Milliarden-Wette der KI auf die physische Realität

Jenseits von Text: Ein neues Paradigma nimmt Gestalt an

Jahrelang erzielte die künstliche Intelligenz ihre dramatischsten Fortschritte durch Sprache – riesige Modelle, die mit Text trainiert wurden und in der Lage sind, Aufsätze zu schreiben, Fragen zu beantworten und Code zu generieren. Doch eine wachsende Zahl von Forschern argumentiert, dass diese Sprachmodelle, so beeindruckend sie auch sein mögen, blind für die physische Welt sind. Im Jahr 2026 fließen Milliarden von Dollar in eine Alternative: World Models, KI-Systeme, die entwickelt wurden, um die dreidimensionale Realität zu verstehen und zu simulieren.

Fei-Fei Lis Milliarden-Dollar-Wette

Das deutlichste Signal kam am 18. Februar, als World Labs in einer neuen Finanzierungsrunde 1 Milliarde Dollar einsammelte, was das Startup mit rund 5 Milliarden Dollar bewertet. World Labs wurde von der KI-Pionierin Fei-Fei Li gegründet – der Stanford-Professorin, die ImageNet entwickelte und die Ära des Deep Learning mit auslöste – und baut eine sogenannte "räumliche Intelligenz" auf: KI, die kohärente dreidimensionale Umgebungen wahrnehmen, darüber nachdenken und generieren kann.

Zu den Unterstützern gehören Nvidia, AMD, Andreessen Horowitz und Autodesk, die allein 200 Millionen Dollar beisteuerten. Die beiden Unternehmen planen, die Technologie von World Labs direkt in professionelle 3D-Design-Tools zu integrieren, beginnend mit dem Unterhaltungsbereich. Das Flaggschiffprodukt des Unternehmens, Marble, ermöglicht es Benutzern, ganze 3D-Welten aus Bildern, Videos oder Texteingaben zu generieren.

LeCuns konträre Wette

Nur wenige Wochen zuvor gab Yann LeCun – einer der "Godfathers" des Deep Learning und langjähriger Chef-Wissenschaftler im KI-Labor von Meta – bekannt, dass er das Unternehmen nach 12 Jahren verlassen wird, um AMI Labs zu gründen und 500 Millionen Euro bei einer Bewertung von 3 Milliarden Euro einzusammeln. Das Startup mit Hauptsitz in Paris und Niederlassungen in Montreal, New York und Singapur basiert auf LeCuns langjähriger Überzeugung, dass große Sprachmodelle eine Sackgasse auf dem Weg zur allgemeinen Intelligenz sind.

"Das Skalieren von LLMs wird es uns nicht ermöglichen, AGI zu erreichen",
argumentiert LeCun wiederholt. AMI Labs wird World Models mit JEPA (Joint Embedding Predictive Architecture) entwickeln, einem Framework, das LeCun bei Meta entwickelt hat und das KI nicht darauf trainiert, das nächste Wort vorherzusagen, sondern die kausalen Dynamiken physischer Umgebungen zu verstehen.

DeepMinds interaktive Welten

Google DeepMind stieg im August 2025 mit Genie 3, dem ersten World Model, das in der Lage ist, interaktive Umgebungen in Echtzeit zu generieren, entscheidend in das Rennen ein. Ausgehend von einer Texteingabe erzeugt Genie 3 dynamische, navigierbare 3D-Szenen mit 24 Bildern pro Sekunde und einer Auflösung von 720p, wobei die Konsistenz über mehrere Minuten erhalten bleibt – ein dramatischer Sprung über die Grenze seines Vorgängers von 10 bis 20 Sekunden hinaus. Das TIME Magazine nannte es eine der besten Erfindungen des Jahres 2025. Google hat es seitdem KI-Ultra-Abonnenten über eine Prototyp-Web-App namens Project Genie zugänglich gemacht.

DeepMind-Chef Demis Hassabis hat LeCuns Kritik bekräftigt: Sprachmodelle verfügen trotz starker Benchmark-Leistung nicht über die internen World Models, die erforderlich sind, um Kausalität und physikalische Dynamiken zu erfassen – die Grundlagen echter Intelligenz.

Warum Sprachmodelle nicht ausreichen

Das Hauptargument gegen LLMs ist architektonischer Natur. Diese Modelle lernen statistische Muster in Texten; sie können einen fallenden Gegenstand beschreiben, ohne die Schwerkraft zu verstehen. World Models lernen dagegen, wie sich Umgebungen im Laufe der Zeit als Reaktion auf Aktionen verändern, und bauen eine interne Darstellung der physikalischen Kausalität auf, die die Sprache allein nicht leisten kann.

Diese Unterscheidung hat tiefgreifende praktische Konsequenzen. Roboter, die von World Models gesteuert werden, können physische Aufgaben planen und ausführen; räumliche KI kann Architekten, Filmemachern und Wissenschaftlern auf eine Weise helfen, die die Textgenerierung nicht kann. Die Frage für 2026 ist nicht mehr, ob World Models wichtig sind – sondern welcher Ansatz, welche Architektur und welches Unternehmen die nächste Ära der KI definieren wird.

Dieser Artikel ist auch in anderen Sprachen verfügbar:

Bleib auf dem Laufenden!

Folge uns auf Facebook für die neuesten Nachrichten und Artikel.

Folge uns auf Facebook

Verwandte Artikel