Hogyan működik az AI modell kvantálása – és miért fontos?

A probléma: Az AI modellek túl nagyok

A modern AI modellek hatalmasak. Egy hétmilliárd paraméterrel rendelkező nagyméretű nyelvi modell körülbelül 14 gigabájt memóriát igényel a szokásos 16 bites lebegőpontos formátumban – és a legnagyobb modellek ennél több százszor nagyobbak. Ezen modellek futtatása drága, speciális hardvert igényel, hatalmas mennyiségű energiát fogyaszt, és szinte lehetetlenné teszi a telefonokon, laptopokon vagy peremhálózati eszközökön történő telepítést.

A kvantálás elegáns megoldást kínál: zsugorítsa a modellt a belső értékeinek numerikus pontosságának csökkentésével. Ahelyett, hogy minden számot 32 bites vagy 16 bites lebegőpontos értékként tárolna, a kvantálás 8 bites egész számokká vagy még kisebb formátumokká alakítja azokat. Az eredmény egy olyan modell, amely a memória töredékét használja fel, gyorsabban fut, és kevesebb energiát fogyaszt – gyakran elhanyagolható pontosságvesztéssel.

Hogyan működik a kvantálás

A kvantálás lényegében egy leképezési probléma. A neurális hálózatok két fő típusú számot tárolnak: súlyokat (a modell által tanult paraméterek, amelyek meghatározzák a modellt) és aktivációkat (a dinamikus kimenetek, amelyek akkor keletkeznek, amikor az adatok áthaladnak az egyes rétegeken). A teljes pontosságú modellekben ezeket az értékeket általában 32 bites lebegőpontos számokként (FP32) tárolják, ami minden értéknek körülbelül hét tizedesjegy pontosságot biztosít.

A kvantálás ezeket az értékeket alacsonyabb pontosságú formátumokba tömöríti. A leggyakoribb célpontok közé tartozik az FP16 (16 bites lebegőpontos), a BF16 (brain floating-point, amelyet a képzéshez részesítenek előnyben), az INT8 (8 bites egész szám) és az újabb FP8 formátum. Minden formátum eltérően osztja el a biteket az előjel, a kitevő és a mantissza között, a tartományt és a pontosságot a kompaktságért cserélve.

A folyamat úgy működik, hogy kiszámít egy skálázási tényezőt, amely az eredeti értéktartományt a célformátum kisebb tartományába képezi le. Például, ha egy tenzor értékei −3,0 és 3,0 között vannak, egy skálázási tényező ezt a tartományt az INT8 formátum −128 és 127 közötti tartományába képezi le. Ennek a leképezésnek a granularitása – akár tenzoronként, csatornánként vagy blokkonként alkalmazzák – közvetlenül befolyásolja a pontosságot.

Két fő megközelítés

Képzés utáni kvantálás (PTQ)

A PTQ az egyszerűbb és népszerűbb módszer. Egy teljesen betanított modellt vesz alapul, és a súlyait (és opcionálisan az aktivációit) alacsonyabb pontosságúra konvertálja anélkül, hogy újra kellene képezni. A súly-alapú PTQ közvetlenül kvantálja a statikus paramétereket. A súly-és-aktiváció PTQ a dinamikus aktivációkat is tömöríti, de egy kis kalibrációs adatkészletre van szükség az optimális skálázási tényezők meghatározásához. Az NVIDIA műszaki dokumentációja szerint a fejlett PTQ algoritmusok, mint például az AWQ, aktivációs elemzéssel védik a kritikus súlycsatornákat, míg a GPTQ Hessian mátrix információkat használ a pontosabb tömörítéshez.

Kvantálás-tudatos képzés (QAT)

A QAT a kvantálást magába a képzési folyamatba integrálja. "Hamis kvantálási" modulokat szúr be, amelyek alacsony pontosságú hatásokat szimulálnak az előremenő menetek során, lehetővé téve a modell számára, hogy a súlyait a kerekítési hibák kompenzálására adaptálja. A QAT általában pontosabb kvantált modelleket eredményez, mint a PTQ, de hozzáférést igényel a képzési adatokhoz és jelentős számítási erőforrásokat.

A teljesítménybeli előny

Az előnyök jelentősek. Az INT8 kvantálás 75 százalékkal csökkentheti a modell memóriaterhelését az FP32-höz képest, miközben akár négyszer gyorsabb következtetést is biztosít a kompatibilis hardveren. Az FP16-ról FP8-ra való áttérés ismét megfelezi a memóriát – egy 14 gigabájtos modellt körülbelül hét gigabájtra zsugorítva. A modern GPU-k, mint például az NVIDIA H100 és H200, dedikált tenzormagokat tartalmaznak az FP8 műveletekhez, így a kvantált következtetés nemcsak kisebb, hanem natívan is gyorsabb.

A Google nemrégiben bejelentett TurboQuant algoritmusa tovább feszegeti a határokat, hatszorosan tömörítve a kulcs-érték gyorsítótár memóriáját mindössze három bittel értékenként – nulla mérhető pontosságvesztéssel. Ahogy a TechCrunch beszámolt róla, a technika képzésmentes és adat-vak, ami azt jelenti, hogy a szervezetek a meglévő modellekre alkalmazhatják anélkül, hogy újra kellene képezniük.

A kompromisszumok

A kvantálás nem ingyenes. Az agresszív tömörítés – különösen 8 bit alatt – ronthatja a pontosságot a finom numerikus következtetést igénylő feladatoknál. A súlyokban vagy aktivációkban lévő kiugró értékek rosszul reprezentálhatók alacsony pontosságú formátumokban, ami hibákhoz vezethet, amelyek végiggyűrűznek a hálózaton. Az olyan technikák, mint a SmoothQuant, amely csatornánkénti skálázást alkalmaz a kiugró értékek nagyságának újraelosztására, segítenek enyhíteni ezeket a hatásokat.

A módszer megválasztása is számít. A PTQ gyors és kényelmes, de érzékeny feladatoknál feláldozhatja a pontosságot. A QAT jobban megőrzi a pontosságot, de többe kerül a megvalósítása. A gyakorlatban a legtöbb éles üzembe helyezés kombinációt használ: PTQ a kezdeti tömörítéshez, célzott QAT a kritikus modellkomponensekhez.

Miért fontos most

Ahogy az AI modellek egyre nagyobbak lesznek, és az eszközön belüli következtetés iránti igény robbanásszerűen megnő, a kvantálás alapvető infrastruktúrává vált. Lehetővé teszi, hogy a chatbotok okostelefonokon fussanak, az orvosi AI a vidéki klinikákon felhőkapcsolat nélkül működjön, és a vállalatok új adatközpontok építése nélkül szolgáljanak ki több millió felhasználót. Az olyan új formátumokkal, mint az FP8, amelyek hardveresen natívvá válnak, és az olyan algoritmusokkal, mint a TurboQuant, amelyek egyre magasabb tömörítési arányokat tesznek lehetővé, a kvantálás csendben átalakítja, hogy hol és hogyan működhet az AI.

Hogyan működik az AI modell kvantálása – és miért fontos?

A probléma: Az AI modellek túl nagyok

Hogyan működik a kvantálás

Két fő megközelítés

Képzés utáni kvantálás (PTQ)

Kvantálás-tudatos képzés (QAT)

A teljesítménybeli előny

A kompromisszumok

Miért fontos most

Kapcsolódó cikkek

Hogyan működik a közvetlen levegőből történő szén-dioxid-leválasztás – és miért olyan nehéz?

Miért fogyasztanak annyi energiát a mesterséges intelligencia adatközpontjai?

Hogyan működik a TCAS – az utolsó védelmi vonal a légi ütközések ellen

Hogyan működik a közvetlen levegőből történő szén-dioxid-leválasztás – és miért olyan nehéz?

Miért fogyasztanak annyi energiát a mesterséges intelligencia adatközpontjai?

Hogyan működnek a pulzárok – az univerzum kozmikus világítótornyai

Mi az a barna zsír, és hogyan égeti a kalóriákat?

Hogyan Működik a Szingulett Hasadás – És Miért Forradalmasíthatja a Napenergiát

Ne maradjon le az új cikkekről!