Jak funguje destilace AI modelů – a proč vyvolává soudní spory
Destilace znalostí umožňuje menším AI modelům učit se od větších modelů tím, že napodobují jejich výstupy, namísto trénování od začátku. Tato technika se stala jak mocným nástrojem pro zvýšení efektivity, tak i právním ohniskem v odvětví AI.
Učitelsko-žákovský trik pro levnější AI
Trénink špičkového modelu umělé inteligence může stát stovky milionů dolarů a vyžadovat tisíce specializovaných čipů běžících po dobu měsíců. Ale co kdyby menší, levnější model mohl absorbovat většinu této inteligence za zlomek času? To je slib destilace znalostí – techniky, která tiše podporovala některé z největších průlomů v AI a, v poslední době, i některé z nejostřejších právních bitev.
Jak destilace funguje
Koncept byl formalizován v přelomové studii z roku 2015 od Geoffreyho Hintona, Oriola Vinyalse a Jeffa Deana s názvem Distilling the Knowledge in a Neural Network (Destilace znalostí v neuronové síti). Myšlenka je klamně jednoduchá: vezměte velký, výkonný „učitelský“ model a použijte jeho výstupy k trénování menšího „žákovského“ modelu.
Ve standardním nastavení tréninku se model učí z tvrdých štítků – jasných odpovědí, jako například „tento obrázek je kočka“. Učitelský model ale produkuje něco bohatšího: měkké štítky, úplná rozdělení pravděpodobnosti, která odhalují nejen správnou odpověď, ale i jistotu modelu ve všech možnostech. Fotografie perské kočky může vykazovat 90 % kočka, 5 % pes, 3 % liška. Tyto jemné sekundární pravděpodobnosti nesou to, co Hinton nazval „temné znalosti“ – informace o vztazích mezi kategoriemi, které tvrdé štítky jednoduše nemohou zprostředkovat.
Pro extrahování těchto temných znalostí výzkumníci zvyšují parametr nazývaný teplota ve softmax funkci modelu. Vyšší teploty změkčují rozdělení pravděpodobnosti, čímž se jemné signály stávají pro žáka viditelnějšími. Po dokončení tréninku se teplota sníží zpět na normální hodnotu pro nasazení.
Proč na tom záleží
Destilace řeší praktický problém: špičkové AI modely jsou často příliš velké a drahé na široké nasazení. Model se stovkami miliard parametrů vyžaduje výkonný serverový hardware a spotřebovává značné množství energie. Destilované modely mohou běžet na chytrých telefonech, vestavěných zařízeních nebo skromných cloudových instancích a přitom si zachovat velkou část schopností učitele.
Výsledky mohou být ohromující. Na začátku roku 2025 výzkumníci ze Stanfordu a Washingtonské univerzity použili destilaci k rekonstrukci modelu uvažování za pouhých 26 minut za méně než 50 dolarů nákladů na výpočetní výkon. Destilovaný 7miliardový model DeepSeek překonal modely několikanásobně větší na benchmarkách uvažování, což dokazuje, že dobře vytrénovaný žák může dosáhnout mnohem lepších výsledků, než by se dalo očekávat.
Tři podoby přenosu znalostí
- Destilace založená na odezvě: Žák se učí z konečných výstupních pravděpodobností učitele – nejběžnější a nejjednodušší přístup.
- Destilace založená na funkcích: Žák napodobuje aktivace mezivrstev učitele, čímž zachycuje, jak model interně reprezentuje informace.
- Destilace založená na vztazích: Žák se učí vztahy mezi různými datovými body, jak jim rozumí učitel, čímž se zachovávají strukturální znalosti.
Právní ohnisko
Destilace se stává kontroverzní, když společnost použije model konkurenta jako učitele. Podmínky služby OpenAI výslovně zakazují používat její výstupy k vývoji konkurenčních modelů. Na začátku roku 2025 OpenAI obvinila čínskou společnost DeepSeek z destilace znalostí z jejích proprietárních systémů. Do února 2026 OpenAI i Anthropic označily to, co nazvaly „průmyslové“ destilační kampaně několika čínských AI firem, a tvrdily, že jde o koordinované úsilí zahrnující skriptované vytváření účtů a masivní extrakci promptů.
Právní terén zůstává nejasný. Destilace sama o sobě není ze své podstaty nezákonná – je to standardní technika strojového učení vyučovaná na univerzitních kurzech. Spor se soustředí na to, jak jsou výstupy učitele získávány: prostřednictvím legitimního výzkumu nebo prostřednictvím systematické extrakce, která porušuje smluvní podmínky. V dubnu 2026 Elon Musk u federálního soudu vypověděl, že jeho společnost xAI sama použila destilaci z modelů OpenAI k vývoji svého chatbota Grok, a označil to za běžnou průmyslovou praxi.
Co bude dál
S tím, jak se AI modely zvětšují a jejich trénink je dražší, bude destilace jen důležitější – a spornější. Tato technika demokratizuje přístup k výkonné AI a umožňuje startupům a výzkumníkům budovat schopné systémy bez miliardových rozpočtů. Vyvolává ale také zásadní otázky o duševním vlastnictví v odvětví, kde nejcennějším aktivem modelu není jeho kód, ale znalosti vložené do jeho výstupů. Soudy, regulační orgány a samotné odvětví AI stále pracují na tom, kde leží hranice mezi legitimním učením a neoprávněným kopírováním.