Jak działają układy do wnioskowania AI – i dlaczego przeżywają boom

Trening a wnioskowanie: dwie zupełnie różne role

Każda interakcja z asystentem AI, każde zdjęcie otagowane na smartfonie, każde ostrzeżenie o oszustwie z banku obejmuje krok zwany wnioskowaniem – moment, w którym wytrenowana sieć neuronowa przetwarza nowe dane i generuje odpowiedź. Trening dużego modelu AI to jednorazowy, trwający miesiącami wysiłek, który wymaga ogromnej mocy obliczeniowej działającej równolegle. Wnioskowanie natomiast działa w sposób ciągły, obsługując każde zapytanie od każdego użytkownika przez całą dobę.

To rozróżnienie ma znaczenie, ponieważ te dwa zadania stawiają bardzo różne wymagania sprzętowe. Trening maksymalizuje surową przepustowość i obsługuje ogromny paralelizm na tysiącach chipów. Wnioskowanie optymalizuje opóźnienie (jak szybko dociera każda odpowiedź), wydajność (zużycie energii na zapytanie) i koszt odpowiedzi. Model może wymagać kilkuset chipów do treningu, ale jego klaster wnioskowania może być dziesięciokrotnie większy – jak donoszą, wdrożenie wnioskowania ChatGPT przyćmiewa jego konfigurację treningową.

Co odróżnia układ do wnioskowania

Sercem każdego układu AI jest zdolność do przyspieszania mnożenia macierzy – podstawowej operacji matematycznej w sieciach neuronowych. Ogólnego przeznaczenia procesory graficzne (GPU), pierwotnie zaprojektowane do renderowania grafiki, radzą sobie z tym dobrze, ponieważ doskonale sprawdzają się w równoległych obliczeniach matematycznych. Ale wiążą się z narzutem: elastyczne zestawy instrukcji, kontrolery pamięci i funkcje, których obciążenia związane z wnioskowaniem nigdy nie wykorzystują.

Układy zoptymalizowane pod kątem wnioskowania eliminują ten narzut. Wiele z nich to ASIC (układy scalone dedykowane do konkretnych zastosowań) – niestandardowe układy krzemowe zaprogramowane na stałe do wąskiego zestawu operacji. Jednostki przetwarzania tensorów Google (TPU), na przykład, zawierają duże mnożniki tablicy systolicznej (siatki 128×128), które potokowo przetwarzają operacje tensorowe z ekstremalną wydajnością. Amazon Inferentia i najnowszy TPU 8i Google kierują się tą samą filozofią: robić mniej rzeczy, ale robić je szybciej i taniej.

Kompromisem jest elastyczność. GPU jest jak scyzoryk szwajcarski – radzi sobie z różnymi obciążeniami. ASIC to skalpel – doskonały w swojej jednej pracy, ale niezdolny do łatwego dostosowania się. W przypadku wnioskowania na dużą skalę ta specjalizacja się opłaca: architektura TPU Google wykazała 30–80 razy lepszą wydajność na wat niż procesory ogólnego przeznaczenia w przypadku dobrze ustrukturyzowanych operacji tensorowych.

Dlaczego rynek przesuwa się w kierunku wnioskowania

Obciążenia związane z wnioskowaniem stanowią obecnie około dwóch trzecich całej mocy obliczeniowej AI, w porównaniu z około jedną trzecią zaledwie trzy lata temu, zgodnie z prognozami technologicznymi Deloitte. Powód jest prosty: trening odbywa się raz, ale wnioskowanie skaluje się z każdym użytkownikiem, każdym zapytaniem, każdym agentem AI, który planuje i wykonuje wieloetapowe zadania.

Implikacje finansowe są ogromne. Prognozuje się, że rynek układów do wnioskowania AI będzie rósł w tempie 32% rocznie, potencjalnie osiągając 142 miliardy dolarów do 2033 roku. Dostawy niestandardowych układów ASIC od dostawców usług chmurowych rosną prawie trzy razy szybciej niż dostawy GPU, według analityków branżowych.

Krajobraz konkurencyjny

Nvidia dominuje w akceleratorach AI ogółem, z udziałem w rynku wynoszącym około 80% pod względem przychodów, ale jej pozycja jest słabsza we wnioskowaniu, gdzie szacuje się, że posiada 60–75%. Ta luka przyciągnęła ostrą konkurencję:

Google niedawno zaprezentował swoją ósmą generację TPU podzieloną na dwa dedykowane układy – jeden do treningu (TPU 8t, zbudowany z Broadcom) i jeden do wnioskowania (TPU 8i, zaprojektowany z MediaTek), twierdząc, że oferuje o 80% lepszą wydajność na dolara w porównaniu z poprzednią generacją.
Amazon buduje układy Inferentia i Trainium dla swojej chmury AWS, utrzymując niskie koszty wnioskowania dla swoich klientów.
Instinct MI300X firmy AMD, z 192 GB zintegrowanej pamięci o dużej przepustowości, wygrał wdrożenia wnioskowania w Microsoft, Meta i Oracle.
Prognozuje się, że niestandardowe układy krzemowe od hyperscalerów zdobędą 15–25% rynku, a dostawy będą rosły o ponad 44% rocznie.

Co dalej

Rozwój agentów AI – autonomicznych systemów, które łączą ze sobą wiele etapów rozumowania – jeszcze bardziej zwiększa popyt. Każde wywołanie agenta wyzwala wiele przebiegów wnioskowania, zwielokrotniając potrzeby obliczeniowe. Analitycy Morgan Stanley prognozują, że same obciążenia agentów mogą dodać 32–60 miliardów dolarów wartości do rynku chipów dla centrów danych do 2030 roku.

W miarę jak AI przechodzi z ery zdominowanej przez trening do ery zdominowanej przez wnioskowanie, układy, które uruchamiają modele AI na całym świecie, stają się równie strategicznie ważne, jak same modele. Cicha, powtarzalna praca polegająca na odpowiadaniu na miliardy zapytań jest obecnie największym wyzwaniem sprzętowym w technologii.

Jak działają układy do wnioskowania AI – i dlaczego przeżywają boom

Trening a wnioskowanie: dwie zupełnie różne role

Co odróżnia układ do wnioskowania

Dlaczego rynek przesuwa się w kierunku wnioskowania

Krajobraz konkurencyjny

Co dalej

Powiązane artykuły

Jak działają systemy wczesnego ostrzegania przed trzęsieniami ziemi

Jak działają baterie żelazowo-powietrzne – magazynowanie energii w postaci rdzy

Jak działa autonomiczna jazda typu end-to-end – bez potrzeby map

Jak działają leki GLP-1 – i dlaczego mają tak szerokie zastosowanie

Jak powstają roje meteorów – kosmiczne śmieci pędzące z prędkością 70 km/s

Jak działają układy do wnioskowania AI – i dlaczego przeżywają boom

Teotihuacan – czym jest i dlaczego wciąż pozostaje zagadką?

Poczta komórkowa w akcji – naturalni kurierzy w medycynie

Nie przegap nowych artykułów!