Ako funguje AI inferencia – a prečo stojí viac ako trénovanie
Zakaždým, keď sa opýtate AI chatbota otázku, spustíte AI inferenciu. Tento článok vysvetľuje, čo je inferencia, ako sa líši od trénovania a prečo nenápadne generuje najväčšie účty za výpočtový výkon v histórii technológií.
Časť AI, o ktorej nikto nehovorí
Keď OpenAI trénuje novú verziu GPT, proces beží týždne na tisíckach špecializovaných procesorov, pričom spotrebúva obrovské množstvo elektriny a peňazí. Táto trénovacia fáza sa dostáva do väčšiny titulkov. Ale akonáhle je model spustený a milióny ľudí s ním začnú chatovať, začína sa iná – a oveľa drahšia – fáza: inferencia.
Inferencia je proces, ktorým trénovaný AI model spracováva nový vstup a vytvára výstup. Deje sa to zakaždým, keď zadáte výzvu, položíte hlasovému asistentovi otázku alebo dostanete odporúčanie produktu online. Skrátka, je to AI, ktorá robí to, na čo bola vytvorená.
Trénovanie vs. Inferencia: Dve úplne odlišné úlohy
Na pochopenie inferencie pomáha porovnať ju s trénovaním. Počas trénovania sa neurónová sieť učí z rozsiahlych dátových súborov opakovaným upravovaním miliárd interných parametrov – čo je výpočtovo brutálny proces nazývaný backpropagation (spätné šírenie). Model vidí príklady, meria, ako nesprávne sú jeho odhady, a posúva svoje váhy správnym smerom, znova a znova, až kým sa nestane užitočným.
Inferencia toto všetko preskakuje. Váhy modelu sú teraz fixné. Keď prídu nové dáta – povedzme vaša zadaná otázka – pretečú sieťou v jednom forward pass (priamom prechode): vrstvu po vrstve model používa tieto zmrazené váhy na interpretáciu kontextu a generovanie odpovede. Neexistuje žiadne učenie, žiadny výpočet gradientu, žiadna aktualizácia váh. Iba rýchla matematická transformácia zo vstupu na výstup.
Podľa NVIDIA je trénovanie zvyčajne jednorazová alebo zriedkavá udalosť, zatiaľ čo inferencia je nepretržitá – beží nepretržite v produkcii, aby obsluhovala skutočných používateľov v rozsiahlej miere.
Prečo je Inferencia Ťažšia, ako sa Zdá
Inferencia znie jednoduchšie ako trénovanie a matematicky aj je. Ale spustenie inferencie v rozsiahlej miere prináša odlišný súbor inžinierskych nočných môr.
- Latencia: Používatelia očakávajú odpovede do jednej sekundy. Každá milisekunda sa počíta. Pomalý inferenčný pipeline ničí používateľskú skúsenosť.
- Priechodnosť: Populárna AI služba môže spracovávať milióny súčasných požiadaviek. Infraštruktúra sa musí horizontálne škálovať bez toho, aby sa zrútila.
- Cena za dotaz: Každá inferencia spotrebúva výpočtový výkon. Vynásobte jeden lacný dotaz miliardou denných používateľov a účet sa stane ohromujúcim.
Ako vysvetľuje Cloudflare, zatiaľ čo jedna inferencia je oveľa menej intenzívna ako trénovací beh, kumulatívne náklady na obsluhu široko používaného modelu môžu zatieniť to, čo stálo jeho vytvorenie.
Ohromujúca Ekonomika
Čísla to potvrdzujú. Podľa analýzy, ktorú uviedla spoločnosť PYMNTS, približne 80 % rozpočtov na výpočtový výkon AI ide na inferenciu a iba 20 % na trénovanie. Pre GPT-4 od OpenAI sa účet za inferenciu odhaduje na približne 2,3 miliardy dolárov ročne – čo je približne 15-násobok jeho trénovacích nákladov. Ako poznamenáva RCR Tech, inferenčný klaster ChatGPT je viac ako desaťkrát väčší ako klaster použitý na jeho trénovanie.
Dobrou správou je, že zlepšenia efektivity sú rýchle. Náklady na spustenie modelu na úrovni GPT-3.5 klesli viac ako 280-násobne medzi koncom roka 2022 a koncom roka 2024, čo bolo spôsobené algoritmickými optimalizáciami, lepším využitím hardvéru a špecializovanými inferenčnými čipmi.
Špecializované Čipy a Edge Inferencia
Trénovaniu dlho dominovali univerzálne GPU, pretože flexibilita je dôležitá, keď sa smery výskumu rýchlo menia. Inferencia je iná. Akonáhle je architektúra modelu stabilná, dizajnéri čipov môžu vytvárať ASIC (aplikačne špecifické integrované obvody), ktoré priamo zapájajú výpočtové vzory modelu do kremíka – eliminujú nepotrebné obvody a maximalizujú výkon na watt.
Okrem dátových centier sa inferencia čoraz viac presúva na edge (okraj) – beží priamo na smartfónoch, autách, kamerách a priemyselných senzoroch. Edge inferencia znižuje latenciu, znižuje náklady na šírku pásma a uchováva citlivé dáta lokálne. Techniky ako kvantizácia (zníženie numerickej presnosti váh modelu) a prerezávanie (odstránenie redundantných spojení) zmenšujú modely natoľko, že môžu bežať na zariadeniach s nízkou spotrebou energie bez výraznej straty presnosti.
Prečo na Tom Záleží
Pochopenie inferencie pomáha demystifikovať, prečo je nasadenie AI také drahé, prečo sa špecializované čipy stávajú strategickým aktívom a prečo sú prelomové objavy v oblasti efektivity rovnako dôležité ako samotná schopnosť modelu. Trénovanie vytvára inteligenciu; inferencia ju doručuje – miliardykrát denne, za cenu, ktorú sa priemysel ešte len učí riadiť.