Hogyan működik a mesterséges intelligencia következtetése – és miért kerül többe, mint a betanítás
Minden alkalommal, amikor felteszel egy kérdést egy MI chatbotnak, elindítasz egy MI következtetést. Ez a magyarázat lebontja, hogy mi a következtetés, miben különbözik a betanítástól, és miért ez hajtja csendben a legnagyobb számítási költségeket a technológiai történelemben.
A mesterséges intelligencia azon része, amiről senki sem beszél
Amikor az OpenAI a GPT egy új verzióját tanítja be, a folyamat hetekig tart több ezer speciális processzoron, hatalmas mennyiségű áramot és pénzt elégetve. Ez a betanítási fázis kapja a legtöbb címlapot. De amint a modell élesedik, és emberek milliói kezdenek el vele csevegni, egy másik – és sokkal költségesebb – fázis kezdődik: a következtetés.
A következtetés az a folyamat, amelynek során egy betanított MI modell új bemenetet dolgoz fel és kimenetet generál. Ez minden alkalommal megtörténik, amikor beírsz egy promptot, felteszel egy kérdést egy hangasszisztensnek, vagy termékajánlást kapsz online. Röviden, a MI azt csinálja, amire tervezték.
Betanítás vs. Következtetés: Két teljesen különböző feladat
A következtetés megértéséhez segít összehasonlítani a betanítással. A betanítás során egy neurális hálózat hatalmas adathalmazokból tanul, milliárdnyi belső paramétert ismételten beállítva – ez egy számításigényes folyamat, amelyet backpropagation-nek neveznek. A modell példákat lát, méri, mennyire rosszak a találgatásai, és a megfelelő irányba tolja a súlyait, újra és újra, amíg hasznossá nem válik.
A következtetés mindezt kihagyja. A modell súlyai most rögzítettek. Amikor új adatok érkeznek – mondjuk a beírt kérdésed –, azok egyetlen előremenő menetben áramlanak át a hálózaton: rétegről rétegre a modell ezeket a befagyott súlyokat használja a kontextus értelmezésére és a válasz generálására. Nincs tanulás, nincs gradiensszámítás, nincs súlyfrissítés. Csak gyors matematikai átalakítás a bemenettől a kimenetig.
Az NVIDIA szerint a betanítás általában egyszeri vagy ritka esemény, míg a következtetés folyamatos – non-stop fut a termelésben, hogy valós felhasználókat szolgáljon ki nagy léptékben.
Miért nehezebb a következtetés, mint amilyennek látszik
A következtetés egyszerűbbnek hangzik, mint a betanítás, és matematikailag az is. De a következtetés nagy léptékű futtatása egy különálló mérnöki rémálmok sorozatát hozza magával.
- Késleltetés: A felhasználók egy másodpercen belül várnak válaszokat. Minden milliszekundum számít. Egy lassú következtetési folyamat tönkreteszi a felhasználói élményt.
- Áteresztőképesség: Egy népszerű MI szolgáltatás egyidejűleg több millió kérést kezelhet. Az infrastruktúrának horizontálisan kell skálázódnia anélkül, hogy összeomlana.
- Költség lekérdezésenként: Minden következtetés számítási kapacitást fogyaszt. Szorozzuk meg egy olcsó lekérdezést napi egymilliárd felhasználóval, és a számla elképesztővé válik.
Ahogy a Cloudflare elmagyarázza, bár egyetlen következtetés sokkal kevésbé intenzív, mint egy betanítási futás, egy széles körben használt modell kiszolgálásának kumulatív költsége eltörpülhet ahhoz képest, amennyibe a felépítése került.
A megdöbbentő gazdaságtan
A számok ezt igazolják. A PYMNTS által közölt elemzés szerint a MI számítási költségvetések körülbelül 80%-a a következtetésre megy el, és csak 20%-a a betanításra. Az OpenAI GPT-4-je esetében a következtetési számla évente körülbelül 2,3 milliárd dollárra becsülhető – ami körülbelül 15-szöröse a betanítási költségének. Ahogy az RCR Tech megjegyzi, a ChatGPT következtetési klasztere több mint tízszer nagyobb, mint a betanításához használt klaszter.
A jó hír az, hogy a hatékonyság javulása gyors. A GPT-3.5 szintű modell futtatásának költsége több mint 280-szorosára csökkent 2022 vége és 2024 vége között, amit az algoritmikus optimalizációk, a jobb hardverkihasználás és a dedikált következtetési chipek hajtottak.
Dedikált chipek és peremkövetkeztetés
A betanítást régóta a általános célú GPU-k uralják, mert a rugalmasság számít, amikor a kutatási irányok gyorsan változnak. A következtetés más. Ha egy modell architektúrája stabil, a chiptervezők ASIC-ket (alkalmazásspecifikus integrált áramköröket) építhetnek, amelyek a modell számítási mintáit közvetlenül a szilíciumba kötik – kiküszöbölve a felesleges áramköröket és maximalizálva a teljesítményt wattonként.
Az adatközpontokon túl a következtetés egyre inkább a peremre helyeződik át – közvetlenül okostelefonokon, autókban, kamerákban és ipari érzékelőkön fut. A peremkövetkeztetés csökkenti a késleltetést, csökkenti a sávszélesség költségeit, és helyben tartja az érzékeny adatokat. Az olyan technikák, mint a kvantálás (a modell súlyainak numerikus pontosságának csökkentése) és a ritkítás (a redundáns kapcsolatok eltávolítása) eléggé zsugorítják a modelleket ahhoz, hogy alacsony fogyasztású eszközökön fussanak jelentős pontosságvesztés nélkül.
Miért fontos ez
A következtetés megértése segít tisztázni, hogy miért olyan költséges a MI telepítése, miért válnak a speciális chipek stratégiai eszközzé, és miért számítanak a hatékonysági áttörések annyira, mint a nyers modell képességei. A betanítás intelligenciát hoz létre; a következtetés szállítja azt – naponta milliárdszor, olyan költséggel, amelyet az ipar még mindig tanul kezelni.