Jak działa pamięć HBM (High Bandwidth Memory) – układ, bez którego sztuczna inteligencja nie może się obejść

Dlaczego sztuczna inteligencja potrzebuje innego rodzaju pamięci

Za każdym razem, gdy duży model językowy generuje zdanie lub model dyfuzji obrazu renderuje obraz, miliardy parametrów muszą być przesyłane między procesorem a jego pamięcią. Konwencjonalna pamięć nie nadąża. Wąskim gardłem nie jest moc obliczeniowa – jest nim przepustowość pamięci, czyli szybkość, z jaką dane przesyłane są do i z układu. Pamięć HBM (High Bandwidth Memory) została zaprojektowana specjalnie, aby przełamać to wąskie gardło i stała się najbardziej poszukiwanym komponentem w stosie sprzętu AI.

Układanie kości jak drapacz chmur

Tradycyjna pamięć DRAM rozmieszcza kości pamięci obok siebie na płytce drukowanej, połączone długimi ścieżkami, które ograniczają prędkość i marnują energię. HBM przyjmuje radykalnie inne podejście: układa wiele kości DRAM pionowo, jak piętra w drapaczu chmur, i łączy je w jeden kompaktowy pakiet.

Nowoczesny stos HBM może zawierać osiem, a nawet dwanaście warstw DRAM. Każda warstwa jest połączona z warstwami powyżej i poniżej za pomocą tysięcy przelotek krzemowych (TSV) – mikroskopijnych otworów wypełnionych miedzią, wywierconych prosto przez krzem. Te TSV przenoszą dane pionowo zamiast poziomo, skracając odległość, jaką muszą pokonać sygnały i radykalnie zmniejszając zużycie energii.

Cały stos znajduje się na interposerze krzemowym, cienkim waflu, który działa jak szybka autostrada łącząca pamięć z GPU lub akceleratorem tuż obok. Ponieważ ścieżka danych ma długość milimetrów, a nie centymetrów, HBM osiąga przepustowość, która byłaby fizycznie niemożliwa przy konwencjonalnych konstrukcjach.

Liczby, które mają znaczenie

Każdy stos HBM zawiera wiele niezależnych kanałów działających równolegle. Obecna generacja robocza, HBM3E, zapewnia przepustowość około 1,2 terabajta na sekundę na stos przy pojemności do 36 GB. Następna generacja, HBM4, podwaja szerokość interfejsu z 1024 bitów do 2048 bitów i zwiększa przepustowość do ponad 2 TB/s na stos – wystarczająco, aby zasilić największe modele AI zarówno podczas treningu, jak i wnioskowania.

Dla kontekstu, pojedynczy stos HBM4 przesyła dane około 16 razy szybciej niż najszybszy moduł DDR5, zużywając jednocześnie znacznie mniej energii na przesłany bit. Układy GPU Blackwell firmy NVIDIA łączą wiele stosów HBM3E, uzyskując łączną przepustowość przekraczającą 8 TB/s na układ.

Dlaczego produkcja jest tak trudna

Budowa HBM jest jednym z najtrudniejszych zadań w produkcji półprzewodników. Każda TSV musi być wytrawiona, wyłożona i wypełniona miedzią z submikrometrową precyzją w każdej warstwie. Wraz ze wzrostem wysokości stosów, tolerancje wyrównania stają się bardziej rygorystyczne, a wydajność spada. Pojedyncza wadliwa przelotka w dwunastowarstwowym stosie może uczynić całą jednostkę bezużyteczną.

Tylko trzy firmy na świecie masowo produkują HBM: SK Hynix, Samsung i Micron. Według Counterpoint Research, SK Hynix dominuje obecnie z około 57 procentami globalnych dostaw HBM, a następnie Samsung z około 35 procentami i Micron z około 11 procentami. Wszystkie trzy firmy wyprzedały całą swoją zdolność produkcyjną do końca roku.

Ściana pamięci i przyszłość AI

Inżynierowie nazywają rosnącą lukę między prędkością procesora a prędkością pamięci „ścianą pamięci”. Wraz ze skalowaniem modeli AI od miliardów do bilionów parametrów, ściana staje się wyższa. HBM jest podstawowym narzędziem branży do jej pokonywania.

Bank of America szacuje, że rynek HBM osiągnie 54,6 miliarda dolarów w 2026 roku, co stanowi wzrost o 58 procent w stosunku do roku poprzedniego, a prognozy wskazują na 100 miliardów dolarów do 2028 roku. Trajektoria technologii odzwierciedla gwałtowny rozwój samej sztucznej inteligencji: każda nowa generacja akceleratorów wymaga więcej stosów, więcej warstw i większej przepustowości.

HBM nie pozostanie jedynym rozwiązaniem na zawsze – naukowcy badają alternatywy, takie jak obliczenia w pamięci i połączenia optyczne – ale w dającej się przewidzieć przyszłości te maleńkie wieże ułożonego krzemu pozostają wąskim gardłem, które determinuje, jak szybko może myśleć sztuczna inteligencja.

Jak działa pamięć HBM (High Bandwidth Memory) – układ, bez którego sztuczna inteligencja nie może się obejść

Dlaczego sztuczna inteligencja potrzebuje innego rodzaju pamięci

Układanie kości jak drapacz chmur

Liczby, które mają znaczenie

Dlaczego produkcja jest tak trudna

Ściana pamięci i przyszłość AI

Powiązane artykuły

Jak działa Artykuł 702 FISA – i dlaczego dzieli Kongres

Jak działa Secret Service i dlaczego istnieje

Roboty uczą się, jak pokonywać ludzi w sporcie

Jak działa sarkofag w Czarnobylu – i co kryje w środku

Jak działa Artykuł 702 FISA – i dlaczego dzieli Kongres

Jak tkanki miękkie przetrwały w skamieniałościach dinozaurów

Jak rośliny wydają dźwięki – ultradźwiękowe trzaski, których nie słyszysz

Jak działa plazma – czwarty stan skupienia materii

Nie przegap nowych artykułów!