Wie KI-Inferenz-Chips funktionieren – und warum sie boomen

Training vs. Inferenz: Zwei grundverschiedene Aufgaben

Jede Interaktion mit einem KI-Assistenten, jedes auf einem Smartphone markierte Foto, jede Betrugswarnung einer Bank beinhaltet einen Schritt, der als Inferenz bezeichnet wird – der Moment, in dem ein trainiertes neuronales Netzwerk neue Daten verarbeitet und eine Antwort liefert. Das Training eines großen KI-Modells ist ein einmaliger, monatelanger Aufwand, der massive parallele Berechnungen erfordert. Die Inferenz hingegen läuft kontinuierlich und bedient rund um die Uhr jede Anfrage von jedem Benutzer.

Diese Unterscheidung ist wichtig, da die beiden Aufgaben sehr unterschiedliche Anforderungen an die Hardware stellen. Das Training maximiert den Rohdurchsatz und unterstützt eine enorme Parallelität über Tausende von Chips hinweg. Die Inferenz optimiert für Latenz (wie schnell jede Antwort eintrifft), Effizienz (Energie pro Anfrage) und Kosten pro Antwort. Ein Modell benötigt möglicherweise ein paar hundert Chips für das Training, aber sein Inferenz-Cluster kann zehnmal größer sein – der Inferenz-Einsatz von ChatGPT soll seine Trainingseinrichtung in den Schatten stellen.

Was einen Inferenz-Chip anders macht

Das Herzstück jedes KI-Chips ist die Fähigkeit, die Matrixmultiplikation zu beschleunigen – die zentrale mathematische Operation in neuronalen Netzen. Allzweck-GPUs, die ursprünglich für die Grafikdarstellung entwickelt wurden, bewältigen dies gut, da sie sich durch parallele Mathematik auszeichnen. Sie bringen jedoch Overhead mit sich: flexible Befehlssätze, Speichercontroller und Funktionen, die Inferenz-Workloads nie nutzen.

Inferenz-optimierte Chips streifen diesen Overhead ab. Viele sind ASICs (anwendungsspezifische integrierte Schaltungen) – kundenspezifisches Silizium, das für einen begrenzten Satz von Operationen fest verdrahtet ist. Die Tensor Processing Units von Google beispielsweise enthalten große Systolic-Array-Multiplizierer (128×128-Gitter), die Tensoroperationen mit extremer Effizienz pipelinen. Amazons Inferentia und Googles neueste TPU 8i verfolgen die gleiche Philosophie: Weniger Dinge tun, aber diese schneller und kostengünstiger.

Der Kompromiss ist die Flexibilität. Eine GPU ist wie ein Schweizer Taschenmesser – sie bewältigt vielfältige Workloads. Ein ASIC ist ein Skalpell – hervorragend in seiner einen Aufgabe, aber nicht in der Lage, sich leicht anzupassen. Für die Inferenz im großen Maßstab zahlt sich diese Spezialisierung aus: Die TPU-Architektur von Google hat eine 30–80-fach bessere Performance-pro-Watt als Allzweckprozessoren bei gut strukturierten Tensoroperationen gezeigt.

Warum sich der Markt zur Inferenz verschiebt

Inferenz-Workloads machen heute etwa zwei Drittel der gesamten KI-Rechenleistung aus, gegenüber etwa einem Drittel vor nur drei Jahren, so die Technologieprognosen von Deloitte. Der Grund ist einfache Mathematik: Das Training findet einmal statt, aber die Inferenz skaliert mit jedem Benutzer, jeder Anfrage, jedem agentischen KI-Workflow, der mehrstufige Aufgaben plant und ausführt.

Die finanziellen Auswirkungen sind enorm. Der Markt für KI-Inferenz-Chips wird voraussichtlich mit einer jährlichen Wachstumsrate von 32 % wachsen und bis 2033 potenziell 142 Milliarden US-Dollar erreichen. Die Auslieferungen von kundenspezifischen ASICs von Cloud-Anbietern wachsen laut Branchenanalysten fast dreimal schneller als die Auslieferungen von GPUs.

Das Wettbewerbsumfeld

Nvidia dominiert KI-Beschleuniger insgesamt mit einem Marktanteil von rund 80 % nach Umsatz, aber sein Einfluss ist bei der Inferenz schwächer, wo er schätzungsweise 60–75 % hält. Diese Lücke hat einen harten Wettbewerb angezogen:

Google hat kürzlich seine achte Generation von TPUs vorgestellt, die in zwei dedizierte Chips aufgeteilt sind – einen für das Training (TPU 8t, gebaut mit Broadcom) und einen für die Inferenz (TPU 8i, entworfen mit MediaTek), und behauptet eine 80 % bessere Performance-pro-Dollar gegenüber seiner vorherigen Generation.
Amazon baut Inferentia- und Trainium-Chips für seine AWS-Cloud, um die Inferenzkosten für seine eigenen Kunden niedrig zu halten.
AMD's Instinct MI300X mit 192 GB integriertem High-Bandwidth-Speicher hat Inferenz-Einsätze bei Microsoft, Meta und Oracle gewonnen.
Kundenspezifisches Silizium von Hyperscalern wird voraussichtlich 15–25 % des Marktes erobern, wobei die Auslieferungen jährlich um über 44 % wachsen.

Was als Nächstes kommt

Der Aufstieg der agentischen KI – autonome Systeme, die mehrere Denkschritte miteinander verketten – verstärkt die Nachfrage weiter. Jeder Agentenaufruf löst mehrere Inferenzdurchläufe aus, wodurch sich der Rechenbedarf vervielfacht. Analysten von Morgan Stanley prognostizieren, dass agentische Workloads allein dem Markt für Rechenzentrumschips bis 2030 einen Wert von 32–60 Milliarden US-Dollar hinzufügen könnten.

Da sich KI von einer trainingsdominierten Ära zu einer inferenzdominierten Ära entwickelt, werden die Chips, die die KI-Modelle der Welt ausführen, zu einer ebenso strategisch wichtigen Ressource wie die Modelle selbst. Die stille, repetitive Arbeit, Milliarden von Anfragen zu beantworten, ist heute die größte Hardware-Herausforderung in der Technologie.

Wie KI-Inferenz-Chips funktionieren – und warum sie boomen

Training vs. Inferenz: Zwei grundverschiedene Aufgaben

Was einen Inferenz-Chip anders macht

Warum sich der Markt zur Inferenz verschiebt

Das Wettbewerbsumfeld

Was als Nächstes kommt

Verwandte Artikel

Wie WCAG funktioniert – Die Regeln für barrierefreies Webdesign

Wie TCAS funktioniert – Die letzte Verteidigungslinie der Luftfahrt

Wie Japans Artikel 9 funktioniert – und warum er erodiert

Wie WCAG funktioniert – Die Regeln für barrierefreies Webdesign

Wie Meteorschauer entstehen – Kosmischer Schutt mit 70 km/s

Wie KI-Inferenz-Chips funktionieren – und warum sie boomen

Wie das Muon g-2-Experiment funktioniert – und warum es wichtig ist

Wie der Tag der Erde funktioniert – und warum er die Welt veränderte

Verpassen Sie keine neuen Artikel!