Jak działa wnioskowanie w AI – i dlaczego kosztuje więcej niż trenowanie
Za każdym razem, gdy zadajesz pytanie chatbotowi AI, uruchamiasz proces wnioskowania. Ten artykuł wyjaśnia, czym jest wnioskowanie, czym różni się od trenowania i dlaczego po cichu generuje największe rachunki za moc obliczeniową w historii technologii.
Część AI, o której nikt nie mówi
Kiedy OpenAI trenuje nową wersję GPT, proces ten trwa tygodniami na tysiącach wyspecjalizowanych procesorów, zużywając ogromne ilości energii elektrycznej i pieniędzy. Ta faza trenowania trafia na pierwsze strony gazet. Ale gdy model jest już aktywny i miliony ludzi zaczynają z nim rozmawiać, rozpoczyna się inna – i znacznie droższa – faza: wnioskowanie.
Wnioskowanie to proces, w którym wytrenowany model AI przetwarza nowe dane wejściowe i generuje dane wyjściowe. Dzieje się to za każdym razem, gdy wpisujesz zapytanie, zadajesz pytanie asystentowi głosowemu lub otrzymujesz rekomendację produktu online. Krótko mówiąc, jest to AI robiąca to, do czego została stworzona.
Trenowanie a wnioskowanie: dwie zupełnie różne prace
Aby zrozumieć wnioskowanie, warto porównać je z trenowaniem. Podczas trenowania sieć neuronowa uczy się na ogromnych zbiorach danych, wielokrotnie dostosowując miliardy wewnętrznych parametrów – jest to brutalny obliczeniowo proces zwany propagacją wsteczną. Model widzi przykłady, mierzy, jak bardzo mylne są jego przypuszczenia, i popycha swoje wagi we właściwym kierunku, raz po raz, aż stanie się użyteczny.
Wnioskowanie pomija to wszystko. Wagi modelu są teraz ustalone. Kiedy pojawiają się nowe dane – powiedzmy, wpisane pytanie – przepływają przez sieć w jednym przejściu w przód: warstwa po warstwie, model wykorzystuje te zamrożone wagi do interpretacji kontekstu i generowania odpowiedzi. Nie ma uczenia się, obliczania gradientu, aktualizacji wag. Tylko szybka transformacja matematyczna od wejścia do wyjścia.
Według NVIDIA, trenowanie jest zazwyczaj jednorazowym lub rzadkim wydarzeniem, podczas gdy wnioskowanie jest ciągłe – działa bez przerwy w środowisku produkcyjnym, aby obsługiwać prawdziwych użytkowników na dużą skalę.
Dlaczego wnioskowanie jest trudniejsze, niż się wydaje
Wnioskowanie brzmi prościej niż trenowanie i matematycznie tak jest. Ale uruchomienie wnioskowania na dużą skalę wprowadza odrębny zestaw inżynieryjnych koszmarów.
- Opóźnienie: Użytkownicy oczekują odpowiedzi w czasie krótszym niż sekunda. Liczy się każda milisekunda. Powolny potok wnioskowania niszczy wrażenia użytkownika.
- Przepustowość: Popularna usługa AI może obsługiwać miliony jednoczesnych żądań. Infrastruktura musi skalować się poziomo bez załamania.
- Koszt na zapytanie: Każde wnioskowanie zużywa moc obliczeniową. Pomnóż jedno tanie zapytanie przez miliard codziennych użytkowników, a rachunek staje się oszałamiający.
Jak wyjaśnia Cloudflare, chociaż pojedyncze wnioskowanie jest znacznie mniej intensywne niż przebieg trenowania, skumulowany koszt obsługi szeroko stosowanego modelu może przyćmić to, co kosztowało jego zbudowanie.
Oszałamiająca ekonomia
Liczby to potwierdzają. Zgodnie z analizą opublikowaną przez PYMNTS, około 80% budżetów na moc obliczeniową AI idzie na wnioskowanie, a tylko 20% na trenowanie. W przypadku GPT-4 OpenAI rachunek za wnioskowanie został oszacowany na około 2,3 miliarda dolarów rocznie – około 15 razy więcej niż koszt trenowania. Jak zauważa RCR Tech, klaster wnioskowania ChatGPT jest ponad dziesięć razy większy niż klaster używany do jego trenowania.
Dobrą wiadomością jest to, że poprawa wydajności jest szybka. Koszt uruchomienia modelu na poziomie GPT-3.5 spadł ponad 280-krotnie między końcem 2022 r. a końcem 2024 r., dzięki optymalizacjom algorytmicznym, lepszemu wykorzystaniu sprzętu i dedykowanym układom do wnioskowania.
Dedykowane układy i wnioskowanie brzegowe
W trenowaniu od dawna dominują uniwersalne procesory graficzne, ponieważ elastyczność ma znaczenie, gdy kierunki badań szybko się zmieniają. Wnioskowanie jest inne. Gdy architektura modelu jest stabilna, projektanci układów scalonych mogą budować ASIC (układy scalone o specyficznym zastosowaniu), które na stałe wpisują wzorce obliczeniowe modelu bezpośrednio w krzem – eliminując niepotrzebne obwody i maksymalizując wydajność na wat.
Poza centrami danych wnioskowanie coraz częściej przenosi się na brzeg – działając bezpośrednio na smartfonach, samochodach, kamerach i czujnikach przemysłowych. Wnioskowanie brzegowe skraca opóźnienia, zmniejsza koszty przepustowości i przechowuje wrażliwe dane lokalnie. Techniki takie jak kwantyzacja (zmniejszenie precyzji numerycznej wag modelu) i przycinanie (usuwanie zbędnych połączeń) zmniejszają modele na tyle, aby działały na urządzeniach o niskim poborze mocy bez znaczącej utraty dokładności.
Dlaczego to ma znaczenie
Zrozumienie wnioskowania pomaga zdemistyfikować, dlaczego wdrażanie AI jest tak kosztowne, dlaczego wyspecjalizowane układy scalone stają się strategicznym zasobem i dlaczego przełomy w wydajności są równie ważne, jak surowe możliwości modelu. Trenowanie wytwarza inteligencję; wnioskowanie ją dostarcza – miliardy razy dziennie, po koszcie, którym branża wciąż się uczy zarządzać.