Technologie

Wie KI-Modell-Destillation funktioniert – und warum sie Klagen auslöst

Knowledge Distillation ermöglicht es kleineren KI-Modellen, von größeren zu lernen, indem sie deren Ausgaben nachahmen, anstatt von Grund auf neu trainiert zu werden. Die Technik hat sich sowohl zu einem leistungsstarken Effizienzwerkzeug als auch zu einem juristischen Brennpunkt in der KI-Industrie entwickelt.

R
Redakcia
4 Min. Lesezeit
Teilen
Wie KI-Modell-Destillation funktioniert – und warum sie Klagen auslöst

Der Lehrer-Schüler-Trick hinter günstigerer KI

Das Training eines hochmodernen Modells für künstliche Intelligenz kann Hunderte von Millionen Dollar kosten und erfordert Tausende von spezialisierten Chips, die monatelang laufen. Aber was wäre, wenn ein kleineres, billigeres Modell den Großteil dieser Intelligenz in einem Bruchteil der Zeit aufnehmen könnte? Das ist das Versprechen von Knowledge Distillation – einer Technik, die im Stillen einige der größten Durchbrüche der KI untermauert hat und in jüngerer Zeit einige ihrer heftigsten Rechtsstreitigkeiten.

Wie Destillation funktioniert

Das Konzept wurde in einem bahnbrechenden Papier von Geoffrey Hinton, Oriol Vinyals und Jeff Dean aus dem Jahr 2015 mit dem Titel Distilling the Knowledge in a Neural Network formalisiert. Die Idee ist trügerisch einfach: Man nehme ein großes, leistungsstarkes „Lehrer“-Modell und verwende dessen Ausgaben, um ein kleineres „Schüler“-Modell zu trainieren.

In einem Standard-Trainingsaufbau lernt ein Modell aus harten Labels – eindeutigen Antworten wie „dieses Bild ist eine Katze“. Aber ein Lehrermodell erzeugt etwas Reichhaltigeres: weiche Labels, vollständige Wahrscheinlichkeitsverteilungen, die nicht nur die richtige Antwort, sondern auch das Vertrauen des Modells in alle Möglichkeiten offenbaren. Ein Foto einer Perserkatze könnte 90 % Katze, 5 % Hund, 3 % Fuchs ergeben. Diese subtilen sekundären Wahrscheinlichkeiten enthalten das, was Hinton als „dunkles Wissen“ bezeichnete – Informationen über die Beziehungen zwischen Kategorien, die harte Labels einfach nicht vermitteln können.

Um dieses dunkle Wissen zu extrahieren, erhöhen Forscher einen Parameter namens Temperatur in der Softmax-Funktion des Modells. Höhere Temperaturen mildern die Wahrscheinlichkeitsverteilung und machen die subtilen Signale für den Schüler besser sichtbar. Sobald das Training abgeschlossen ist, wird die Temperatur für den Einsatz wieder auf Normalwert gesenkt.

Warum es wichtig ist

Destillation löst ein praktisches Problem: Modernste KI-Modelle sind oft zu groß und teuer, um sie breit einzusetzen. Ein Modell mit Hunderten von Milliarden von Parametern erfordert leistungsstarke Serverhardware und verbraucht erhebliche Energie. Destillierte Modelle können auf Smartphones, eingebetteten Geräten oder bescheidenen Cloud-Instanzen laufen und gleichzeitig einen Großteil der Fähigkeiten des Lehrers beibehalten.

Die Ergebnisse können verblüffend sein. Anfang 2025 nutzten Forscher der Stanford University und der University of Washington Destillation, um ein Denkmodell in nur 26 Minuten für weniger als 50 US-Dollar an Rechenkosten zu erstellen. Das destillierte 7-Milliarden-Parameter-Modell von DeepSeek übertraf Modelle, die um ein Vielfaches größer waren, bei Reasoning-Benchmarks und demonstrierte, dass ein gut trainierter Schüler weit über seine Verhältnisse hinauswachsen kann.

Drei Varianten des Wissenstransfers

  • Antwortbasierte Destillation: Der Schüler lernt aus den endgültigen Ausgabewahrscheinlichkeiten des Lehrers – der gebräuchlichste und unkomplizierteste Ansatz.
  • Merkmalsbasierte Destillation: Der Schüler ahmt die Aktivierungen der Zwischenschicht des Lehrers nach und erfasst, wie das Modell Informationen intern darstellt.
  • Beziehungsbasierte Destillation: Der Schüler lernt die Beziehungen zwischen verschiedenen Datenpunkten, wie sie vom Lehrer verstanden werden, und bewahrt so strukturelles Wissen.

Der juristische Brennpunkt

Destillation wird kontrovers, wenn ein Unternehmen das Modell eines Wettbewerbers als Lehrer verwendet. Die Nutzungsbedingungen von OpenAI verbieten ausdrücklich die Verwendung seiner Ausgaben zur Entwicklung konkurrierender Modelle. Anfang 2025 beschuldigte OpenAI das in China ansässige Unternehmen DeepSeek, Wissen aus seinen proprietären Systemen zu destillieren. Bis Februar 2026 hatten sowohl OpenAI als auch Anthropic das, was sie als „industrielle“ Destillationskampagnen mehrerer chinesischer KI-Firmen bezeichneten, beanstandet und koordinierten Bemühungen unterstellt, die die Erstellung von Skriptkonten und die massive Extraktion von Prompts umfassten.

Das juristische Terrain ist weiterhin unübersichtlich. Destillation selbst ist nicht per se illegal – es ist eine Standard-Technik des maschinellen Lernens, die in Universitätskursen gelehrt wird. Der Streit dreht sich darum, wie die Ausgaben des Lehrers erhalten werden: durch legitime Forschung oder durch systematische Extraktion, die gegen Vertragsbedingungen verstößt. Im April 2026 sagte Elon Musk vor einem Bundesgericht aus, dass sein Unternehmen xAI selbst Destillation von OpenAI-Modellen verwendet habe, um seinen Grok-Chatbot zu entwickeln, und bezeichnete dies als gängige Branchenpraxis.

Wie es weitergeht

Da KI-Modelle immer größer und teurer im Training werden, wird Destillation nur noch wichtiger – und umstrittener. Die Technik demokratisiert den Zugang zu leistungsstarker KI und ermöglicht es Startups und Forschern, leistungsfähige Systeme ohne milliardenschwere Budgets zu entwickeln. Sie wirft aber auch grundlegende Fragen zum geistigen Eigentum in einer Branche auf, in der das wertvollste Kapital eines Modells nicht sein Code ist, sondern das in seinen Ausgaben eingebettete Wissen. Gerichte, Aufsichtsbehörden und die KI-Industrie selbst arbeiten noch daran, wo die Grenze zwischen legitimem Lernen und unbefugtem Kopieren verläuft.

Dieser Artikel ist auch in anderen Sprachen verfügbar:

Bleib auf dem Laufenden!

Folge uns auf Facebook für die neuesten Nachrichten und Artikel.

Folge uns auf Facebook

Verwandte Artikel