Így működik a High Bandwidth Memory – a chip, ami nélkül a mesterséges intelligencia nem létezhet
A High Bandwidth Memory (HBM) függőlegesen egymásra helyezi a DRAM chipeket, és több ezer szilíciumon keresztüli átvezetéssel (TSV) köti össze őket, biztosítva azt a hatalmas adatátviteli sebességet, amelyet a modern MI-gyorsítók igényelnek.
Miért van szüksége a mesterséges intelligenciának egy másfajta memóriára?
Valahányszor egy nagyméretű nyelvi modell mondatot generál, vagy egy képi diffúziós modell képet renderel, paraméterek milliárdjait kell mozgatni a processzor és a memória között. A hagyományos memória nem tudja tartani a lépést. A szűk keresztmetszet nem a számítási teljesítmény – hanem a memóriasávszélesség, azaz az az arány, amellyel az adatok a chiphez áramlanak és onnan távoznak. A High Bandwidth Memory, vagyis a HBM kifejezetten azért lett kifejlesztve, hogy áttörje ezt a szűk keresztmetszetet, és a mesterséges intelligencia hardvereszközeinek legkeresettebb komponensévé vált.
Chipek egymásra rakása, mint egy felhőkarcoló
A hagyományos DRAM az áramköri lapon egymás mellé helyezi a memóriachipeket, amelyeket hosszú vezetékek kötnek össze, ami korlátozza a sebességet és energiát pazarol. A HBM gyökeresen eltérő megközelítést alkalmaz: több DRAM chipet függőlegesen egymásra helyez, mint egy felhőkarcoló emeleteit, és egyetlen kompakt csomagba köti őket.
Egy modern HBM stack nyolc vagy akár tizenkét DRAM réteget is tartalmazhat. Minden réteg a felette és alatta lévőkhöz több ezer szilíciumon keresztüli átvezetéssel (TSV) – mikroszkopikus, rézzel töltött lyukakkal – van összekötve, amelyeket egyenesen a szilíciumon keresztül fúrnak. Ezek a TSV-k függőlegesen, nem pedig vízszintesen továbbítják az adatokat, ami drasztikusan csökkenti a jelek által megtett távolságot és jelentősen csökkenti az energiafogyasztást.
A teljes stack egy szilícium interposeren ül, egy vékony szeleten, amely nagy sebességű autópályaként működik, összekötve a memóriát a közvetlenül mellette lévő GPU-val vagy gyorsítóval. Mivel az adatút milliméterekben, nem pedig centiméterekben mérhető, a HBM olyan sávszélességet ér el, amely hagyományos kialakításokkal fizikailag lehetetlen lenne.
Számok, amelyek számítanak
Minden HBM stack több független, párhuzamosan működő csatornát tartalmaz. A jelenlegi legelterjedtebb generáció, a HBM3E, körülbelül 1,2 terabájt/másodperc sávszélességet biztosít stackenként, akár 36 GB kapacitással. A következő generáció, a HBM4, megduplázza az interfész szélességét 1024 bitről 2048 bitre, és a sávszélességet 2 TB/s fölé tolja stackenként – ami elegendő a legnagyobb MI-modellek kiszolgálásához mind a betanítás, mind a következtetés során.
Összehasonlításképpen, egyetlen HBM4 stack körülbelül 16-szor gyorsabban mozgatja az adatokat, mint a leggyorsabb DDR5 modul, miközben lényegesen kevesebb energiát fogyaszt bitenként.
Az NVIDIA Blackwell GPU-i több HBM3E stacket párosítanak, így a kombinált sávszélesség meghaladja a 8 TB/s-ot chipenként.
Miért olyan nehéz a gyártás?
A HBM építése a félvezetőgyártás egyik legnehezebb feladata. Minden TSV-t maratni, bélelni és rézzel kell feltölteni szubmikrométeres pontossággal minden rétegben. Ahogy a stackek magasabbak lesznek, az illesztési tűrések szigorodnak, és a hozam csökken. Egyetlen hibás átvezetés egy tizenkét rétegű stackben használhatatlanná teheti az egész egységet.
A világon csak három vállalat gyárt tömegesen HBM-et: az SK Hynix, a Samsung és a Micron. A Counterpoint Research szerint az SK Hynix jelenleg uralja a piacot a globális HBM-szállítmányok körülbelül 57 százalékával, amelyet a Samsung követ körülbelül 35 százalékkal, a Micron pedig körülbelül 11 százalékkal. Mindhárman eladták teljes termelési kapacitásukat az év végéig.
A memóriafal és a mesterséges intelligencia jövője
A mérnökök a processzor sebessége és a memória sebessége közötti növekvő szakadékot „memóriafalnak” nevezik. Ahogy a mesterséges intelligencia modellek milliárdokról trilliókra skálázódnak, a fal egyre magasabb lesz. A HBM az iparág elsődleges eszköze a leküzdésére.
A Bank of America becslése szerint a HBM piac 2026-ban eléri az 54,6 milliárd dollárt, ami 58 százalékos ugrás az előző évhez képest, és a prognózisok 2028-ra 100 milliárd dollárra mutatnak. A technológia pályája tükrözi a mesterséges intelligencia robbanásszerű növekedését: minden új generációs gyorsító több stacket, több réteget és nagyobb sávszélességet igényel.
A HBM nem marad az egyetlen megoldás örökké – a kutatók alternatívákat vizsgálnak, mint például a compute-in-memory és az optikai összeköttetések –, de a belátható jövőben ezek a halmozott szilícium apró tornyai maradnak a szűk keresztmetszet, amely meghatározza, hogy a mesterséges intelligencia milyen gyorsan tud gondolkodni.