Így működik a High Bandwidth Memory – a chip, ami nélkül a mesterséges intelligencia nem létezhet

Miért van szüksége a mesterséges intelligenciának egy másfajta memóriára?

Valahányszor egy nagyméretű nyelvi modell mondatot generál, vagy egy képi diffúziós modell képet renderel, paraméterek milliárdjait kell mozgatni a processzor és a memória között. A hagyományos memória nem tudja tartani a lépést. A szűk keresztmetszet nem a számítási teljesítmény – hanem a memóriasávszélesség, azaz az az arány, amellyel az adatok a chiphez áramlanak és onnan távoznak. A High Bandwidth Memory, vagyis a HBM kifejezetten azért lett kifejlesztve, hogy áttörje ezt a szűk keresztmetszetet, és a mesterséges intelligencia hardvereszközeinek legkeresettebb komponensévé vált.

Chipek egymásra rakása, mint egy felhőkarcoló

A hagyományos DRAM az áramköri lapon egymás mellé helyezi a memóriachipeket, amelyeket hosszú vezetékek kötnek össze, ami korlátozza a sebességet és energiát pazarol. A HBM gyökeresen eltérő megközelítést alkalmaz: több DRAM chipet függőlegesen egymásra helyez, mint egy felhőkarcoló emeleteit, és egyetlen kompakt csomagba köti őket.

Egy modern HBM stack nyolc vagy akár tizenkét DRAM réteget is tartalmazhat. Minden réteg a felette és alatta lévőkhöz több ezer szilíciumon keresztüli átvezetéssel (TSV) – mikroszkopikus, rézzel töltött lyukakkal – van összekötve, amelyeket egyenesen a szilíciumon keresztül fúrnak. Ezek a TSV-k függőlegesen, nem pedig vízszintesen továbbítják az adatokat, ami drasztikusan csökkenti a jelek által megtett távolságot és jelentősen csökkenti az energiafogyasztást.

A teljes stack egy szilícium interposeren ül, egy vékony szeleten, amely nagy sebességű autópályaként működik, összekötve a memóriát a közvetlenül mellette lévő GPU-val vagy gyorsítóval. Mivel az adatút milliméterekben, nem pedig centiméterekben mérhető, a HBM olyan sávszélességet ér el, amely hagyományos kialakításokkal fizikailag lehetetlen lenne.

Számok, amelyek számítanak

Minden HBM stack több független, párhuzamosan működő csatornát tartalmaz. A jelenlegi legelterjedtebb generáció, a HBM3E, körülbelül 1,2 terabájt/másodperc sávszélességet biztosít stackenként, akár 36 GB kapacitással. A következő generáció, a HBM4, megduplázza az interfész szélességét 1024 bitről 2048 bitre, és a sávszélességet 2 TB/s fölé tolja stackenként – ami elegendő a legnagyobb MI-modellek kiszolgálásához mind a betanítás, mind a következtetés során.

Összehasonlításképpen, egyetlen HBM4 stack körülbelül 16-szor gyorsabban mozgatja az adatokat, mint a leggyorsabb DDR5 modul, miközben lényegesen kevesebb energiát fogyaszt bitenként.

Az NVIDIA Blackwell GPU-i több HBM3E stacket párosítanak, így a kombinált sávszélesség meghaladja a 8 TB/s-ot chipenként.

Miért olyan nehéz a gyártás?

A HBM építése a félvezetőgyártás egyik legnehezebb feladata. Minden TSV-t maratni, bélelni és rézzel kell feltölteni szubmikrométeres pontossággal minden rétegben. Ahogy a stackek magasabbak lesznek, az illesztési tűrések szigorodnak, és a hozam csökken. Egyetlen hibás átvezetés egy tizenkét rétegű stackben használhatatlanná teheti az egész egységet.

A világon csak három vállalat gyárt tömegesen HBM-et: az SK Hynix, a Samsung és a Micron. A Counterpoint Research szerint az SK Hynix jelenleg uralja a piacot a globális HBM-szállítmányok körülbelül 57 százalékával, amelyet a Samsung követ körülbelül 35 százalékkal, a Micron pedig körülbelül 11 százalékkal. Mindhárman eladták teljes termelési kapacitásukat az év végéig.

A memóriafal és a mesterséges intelligencia jövője

A mérnökök a processzor sebessége és a memória sebessége közötti növekvő szakadékot „memóriafalnak” nevezik. Ahogy a mesterséges intelligencia modellek milliárdokról trilliókra skálázódnak, a fal egyre magasabb lesz. A HBM az iparág elsődleges eszköze a leküzdésére.

A Bank of America becslése szerint a HBM piac 2026-ban eléri az 54,6 milliárd dollárt, ami 58 százalékos ugrás az előző évhez képest, és a prognózisok 2028-ra 100 milliárd dollárra mutatnak. A technológia pályája tükrözi a mesterséges intelligencia robbanásszerű növekedését: minden új generációs gyorsító több stacket, több réteget és nagyobb sávszélességet igényel.

A HBM nem marad az egyetlen megoldás örökké – a kutatók alternatívákat vizsgálnak, mint például a compute-in-memory és az optikai összeköttetések –, de a belátható jövőben ezek a halmozott szilícium apró tornyai maradnak a szűk keresztmetszet, amely meghatározza, hogy a mesterséges intelligencia milyen gyorsan tud gondolkodni.

Így működik a High Bandwidth Memory – a chip, ami nélkül a mesterséges intelligencia nem létezhet

Miért van szüksége a mesterséges intelligenciának egy másfajta memóriára?

Chipek egymásra rakása, mint egy felhőkarcoló

Számok, amelyek számítanak

Miért olyan nehéz a gyártás?

A memóriafal és a mesterséges intelligencia jövője

Kapcsolódó cikkek

Hogyan működik az amerikai titkosszolgálat – és miért létezik

Hogyan tanulják meg a robotok, hogy legyőzzék az embereket a sportban

Hogyan Működik a Szimulációból a Valóságba Átvitel – Robotok Tanítása Virtuális Világokban

Hogyan képesek a folyékony biopsziák a tünetek megjelenése előtt kimutatni a rákot?

Hogyan Működik a Szavazati Jogok Törvényének 2. Szakasza

Hogyan működnek a ciklikus peptidek – és miért lehetnek jobb gyógyszerek

Hogyan választják meg Irán legfőbb vezetőjét – és miért számít ez?

Kik a tuaregek – és miért lázadnak újra és újra?

Ne maradjon le az új cikkekről!