Jak działa wnioskowanie w AI – i dlaczego kosztuje więcej niż trenowanie

Część AI, o której nikt nie mówi

Kiedy OpenAI trenuje nową wersję GPT, proces ten trwa tygodniami na tysiącach wyspecjalizowanych procesorów, zużywając ogromne ilości energii elektrycznej i pieniędzy. Ta faza trenowania trafia na pierwsze strony gazet. Ale gdy model jest już aktywny i miliony ludzi zaczynają z nim rozmawiać, rozpoczyna się inna – i znacznie droższa – faza: wnioskowanie.

Wnioskowanie to proces, w którym wytrenowany model AI przetwarza nowe dane wejściowe i generuje dane wyjściowe. Dzieje się to za każdym razem, gdy wpisujesz zapytanie, zadajesz pytanie asystentowi głosowemu lub otrzymujesz rekomendację produktu online. Krótko mówiąc, jest to AI robiąca to, do czego została stworzona.

Trenowanie a wnioskowanie: dwie zupełnie różne prace

Aby zrozumieć wnioskowanie, warto porównać je z trenowaniem. Podczas trenowania sieć neuronowa uczy się na ogromnych zbiorach danych, wielokrotnie dostosowując miliardy wewnętrznych parametrów – jest to brutalny obliczeniowo proces zwany propagacją wsteczną. Model widzi przykłady, mierzy, jak bardzo mylne są jego przypuszczenia, i popycha swoje wagi we właściwym kierunku, raz po raz, aż stanie się użyteczny.

Wnioskowanie pomija to wszystko. Wagi modelu są teraz ustalone. Kiedy pojawiają się nowe dane – powiedzmy, wpisane pytanie – przepływają przez sieć w jednym przejściu w przód: warstwa po warstwie, model wykorzystuje te zamrożone wagi do interpretacji kontekstu i generowania odpowiedzi. Nie ma uczenia się, obliczania gradientu, aktualizacji wag. Tylko szybka transformacja matematyczna od wejścia do wyjścia.

Według NVIDIA, trenowanie jest zazwyczaj jednorazowym lub rzadkim wydarzeniem, podczas gdy wnioskowanie jest ciągłe – działa bez przerwy w środowisku produkcyjnym, aby obsługiwać prawdziwych użytkowników na dużą skalę.

Dlaczego wnioskowanie jest trudniejsze, niż się wydaje

Wnioskowanie brzmi prościej niż trenowanie i matematycznie tak jest. Ale uruchomienie wnioskowania na dużą skalę wprowadza odrębny zestaw inżynieryjnych koszmarów.

Opóźnienie: Użytkownicy oczekują odpowiedzi w czasie krótszym niż sekunda. Liczy się każda milisekunda. Powolny potok wnioskowania niszczy wrażenia użytkownika.
Przepustowość: Popularna usługa AI może obsługiwać miliony jednoczesnych żądań. Infrastruktura musi skalować się poziomo bez załamania.
Koszt na zapytanie: Każde wnioskowanie zużywa moc obliczeniową. Pomnóż jedno tanie zapytanie przez miliard codziennych użytkowników, a rachunek staje się oszałamiający.

Jak wyjaśnia Cloudflare, chociaż pojedyncze wnioskowanie jest znacznie mniej intensywne niż przebieg trenowania, skumulowany koszt obsługi szeroko stosowanego modelu może przyćmić to, co kosztowało jego zbudowanie.

Oszałamiająca ekonomia

Liczby to potwierdzają. Zgodnie z analizą opublikowaną przez PYMNTS, około 80% budżetów na moc obliczeniową AI idzie na wnioskowanie, a tylko 20% na trenowanie. W przypadku GPT-4 OpenAI rachunek za wnioskowanie został oszacowany na około 2,3 miliarda dolarów rocznie – około 15 razy więcej niż koszt trenowania. Jak zauważa RCR Tech, klaster wnioskowania ChatGPT jest ponad dziesięć razy większy niż klaster używany do jego trenowania.

Dobrą wiadomością jest to, że poprawa wydajności jest szybka. Koszt uruchomienia modelu na poziomie GPT-3.5 spadł ponad 280-krotnie między końcem 2022 r. a końcem 2024 r., dzięki optymalizacjom algorytmicznym, lepszemu wykorzystaniu sprzętu i dedykowanym układom do wnioskowania.

Dedykowane układy i wnioskowanie brzegowe

W trenowaniu od dawna dominują uniwersalne procesory graficzne, ponieważ elastyczność ma znaczenie, gdy kierunki badań szybko się zmieniają. Wnioskowanie jest inne. Gdy architektura modelu jest stabilna, projektanci układów scalonych mogą budować ASIC (układy scalone o specyficznym zastosowaniu), które na stałe wpisują wzorce obliczeniowe modelu bezpośrednio w krzem – eliminując niepotrzebne obwody i maksymalizując wydajność na wat.

Poza centrami danych wnioskowanie coraz częściej przenosi się na brzeg – działając bezpośrednio na smartfonach, samochodach, kamerach i czujnikach przemysłowych. Wnioskowanie brzegowe skraca opóźnienia, zmniejsza koszty przepustowości i przechowuje wrażliwe dane lokalnie. Techniki takie jak kwantyzacja (zmniejszenie precyzji numerycznej wag modelu) i przycinanie (usuwanie zbędnych połączeń) zmniejszają modele na tyle, aby działały na urządzeniach o niskim poborze mocy bez znaczącej utraty dokładności.

Dlaczego to ma znaczenie

Zrozumienie wnioskowania pomaga zdemistyfikować, dlaczego wdrażanie AI jest tak kosztowne, dlaczego wyspecjalizowane układy scalone stają się strategicznym zasobem i dlaczego przełomy w wydajności są równie ważne, jak surowe możliwości modelu. Trenowanie wytwarza inteligencję; wnioskowanie ją dostarcza – miliardy razy dziennie, po koszcie, którym branża wciąż się uczy zarządzać.

Jak działa wnioskowanie w AI – i dlaczego kosztuje więcej niż trenowanie

Część AI, o której nikt nie mówi

Trenowanie a wnioskowanie: dwie zupełnie różne prace

Dlaczego wnioskowanie jest trudniejsze, niż się wydaje

Oszałamiająca ekonomia

Dedykowane układy i wnioskowanie brzegowe

Dlaczego to ma znaczenie

Powiązane artykuły

Dlaczego kubańska sieć energetyczna wciąż się załamuje?

Jak działają nanolasery – i dlaczego mogą o połowę zmniejszyć zużycie energii przez komputery

USA rozpoczynają batalię o jednolite regulacje dotyczące sztucznej inteligencji

Dlaczego kubańska sieć energetyczna wciąż się załamuje?

Jak działają strefy czystego transportu i dlaczego miasta je wprowadzają

Jak ewoluował format Mistrzostw Świata FIFA od 1930 roku

Jak działają nanolasery – i dlaczego mogą o połowę zmniejszyć zużycie energii przez komputery

Sabalenka kompletuje rzadki „Sunshine Double” w Miami Open

Nie przegap nowych artykułów!