So funktioniert High Bandwidth Memory – der Chip, ohne den KI nicht leben kann

Warum KI eine andere Art von Speicher benötigt

Jedes Mal, wenn ein großes Sprachmodell einen Satz generiert oder ein Bilddiffusionsmodell ein Bild rendert, müssen Milliarden von Parametern zwischen einem Prozessor und seinem Speicher hin- und hergeschoben werden. Herkömmlicher Speicher kann da nicht mithalten. Der Engpass ist nicht die Rechenleistung – es ist die Speicherbandbreite, die Geschwindigkeit, mit der Daten zum und vom Chip gelangen. High Bandwidth Memory, oder HBM, wurde speziell entwickelt, um diesen Engpass zu beseitigen, und hat sich zur begehrtesten Komponente im KI-Hardware-Stack entwickelt.

Dies stapeln wie ein Wolkenkratzer

Traditionelles DRAM verteilt Speicherchips nebeneinander auf einer Leiterplatte, verbunden durch lange Leiterbahnen, die die Geschwindigkeit begrenzen und Energie verschwenden. HBM verfolgt einen radikal anderen Ansatz: Es stapelt mehrere DRAM-Dies vertikal, wie Stockwerke in einem Wolkenkratzer, und verbindet sie zu einem einzigen kompakten Gehäuse.

Ein moderner HBM-Stack kann acht oder sogar zwölf DRAM-Schichten enthalten. Jede Schicht ist mit den darüber und darunter liegenden Schichten durch Tausende von Through-Silicon Vias (TSVs) verbunden – mikroskopisch kleine, mit Kupfer gefüllte Löcher, die direkt durch das Silizium gebohrt werden. Diese TSVs transportieren Daten vertikal statt horizontal, wodurch die Signalwege drastisch verkürzt und der Stromverbrauch erheblich gesenkt wird.

Der gesamte Stack sitzt auf einem Silizium-Interposer, einem dünnen Wafer, der als Hochgeschwindigkeits-Highway fungiert und den Speicher direkt nebenan mit der GPU oder dem Beschleuniger verbindet. Da der Datenpfad Millimeter statt Zentimeter lang ist, erreicht HBM eine Bandbreite, die mit herkömmlichen Designs physikalisch unmöglich wäre.

Zahlen, die zählen

Jeder HBM-Stack enthält mehrere unabhängige Kanäle, die parallel arbeiten. Die aktuelle Generation, HBM3E, liefert etwa 1,2 Terabyte pro Sekunde Bandbreite pro Stack mit bis zu 36 GB Kapazität. Die nächste Generation, HBM4, verdoppelt die Schnittstellenbreite von 1.024 Bit auf 2.048 Bit und treibt die Bandbreite auf über 2 TB/s pro Stack – genug, um die größten KI-Modelle sowohl während des Trainings als auch der Inferenz zu versorgen.

Zum Vergleich: Ein einzelner HBM4-Stack bewegt Daten etwa 16-mal schneller als das schnellste DDR5-Modul und verbraucht dabei deutlich weniger Energie pro übertragenem Bit. Die Blackwell-GPUs von NVIDIA kombinieren mehrere HBM3E-Stacks für eine kombinierte Bandbreite von über 8 TB/s pro Chip.

Warum die Herstellung so schwierig ist

Der Bau von HBM gehört zu den schwierigsten Aufgaben in der Halbleiterfertigung. Jedes TSV muss geätzt, ausgekleidet und mit Kupfer in Submikrometer-Präzision über jede Schicht hinweg gefüllt werden. Wenn die Stacks höher werden, werden die Ausrichtungstoleranzen enger und die Ausbeute sinkt. Ein einzelner defekter Via in einem zwölfschichtigen Stack kann die gesamte Einheit unbrauchbar machen.

Nur drei Unternehmen der Welt produzieren HBM in Serie: SK Hynix, Samsung und Micron. SK Hynix dominiert derzeit mit rund 57 Prozent der weltweiten HBM-Lieferungen, gefolgt von Samsung mit rund 35 Prozent und Micron mit rund 11 Prozent, so Counterpoint Research. Alle drei haben ihre gesamte Produktionskapazität bis zum Ende des Jahres ausverkauft.

Die Memory Wall und die Zukunft der KI

Ingenieure nennen die wachsende Kluft zwischen Prozessorgeschwindigkeit und Speichergeschwindigkeit die „Memory Wall“ (Speicherwand). Wenn KI-Modelle von Milliarden auf Billionen von Parametern skaliert werden, wird die Wand höher. HBM ist das wichtigste Werkzeug der Industrie, um sie zu überwinden.

Die Bank of America schätzt, dass der HBM-Markt im Jahr 2026 54,6 Milliarden US-Dollar erreichen wird, ein Anstieg von 58 Prozent gegenüber dem Vorjahr, wobei die Prognosen bis 2028 auf 100 Milliarden US-Dollar hindeuten. Die Entwicklung der Technologie spiegelt das explosive Wachstum der KI wider: Jede neue Generation von Beschleunigern erfordert mehr Stacks, mehr Schichten und mehr Bandbreite.

HBM wird nicht für immer die einzige Lösung bleiben – Forscher untersuchen Alternativen wie Compute-in-Memory und optische Verbindungen – aber für absehbare Zeit bleiben diese winzigen Türme aus gestapeltem Silizium der Engpass, der bestimmt, wie schnell künstliche Intelligenz denken kann.

So funktioniert High Bandwidth Memory – der Chip, ohne den KI nicht leben kann

Warum KI eine andere Art von Speicher benötigt

Dies stapeln wie ein Wolkenkratzer

Zahlen, die zählen

Warum die Herstellung so schwierig ist

Die Memory Wall und die Zukunft der KI

Verwandte Artikel

Wie der US-amerikanische Secret Service funktioniert – und warum es ihn gibt

Wie Roboter lernen, Menschen in Sportarten zu schlagen

Wie Sim-to-Real-Transfer funktioniert – Robotern in virtuellen Welten das Lernen beibringen

Wie Wissenschaftler die Größe prähistorischer Riesenschlangen bestimmen

Wie die US-Notenbank die Zinsen festlegt – Der Offenmarktausschuss (FOMC) erklärt

Wie das Kriegsrecht funktioniert – und warum Demokratien es fürchten

Wie Irans Oberster Führer gewählt wird – und warum das wichtig ist

Wie die Zwei-Stunden-Marathon-Grenze funktioniert

Verpassen Sie keine neuen Artikel!