Comment fonctionne la distillation de modèles d'IA – et pourquoi elle suscite des poursuites judiciaires

Le tour de passe-passe professeur-élève derrière une IA moins chère

L'entraînement d'un modèle d'intelligence artificielle de pointe peut coûter des centaines de millions de dollars et nécessiter des milliers de puces spécialisées fonctionnant pendant des mois. Mais que se passerait-il si un modèle plus petit et moins cher pouvait absorber la majeure partie de cette intelligence en une fraction du temps ? C'est la promesse de la distillation des connaissances – une technique qui a discrètement sous-tendu certaines des plus grandes avancées de l'IA et, plus récemment, certaines de ses batailles juridiques les plus acharnées.

Comment fonctionne la distillation

Le concept a été formalisé dans un article de référence de 2015 par Geoffrey Hinton, Oriol Vinyals et Jeff Dean intitulé Distilling the Knowledge in a Neural Network. L'idée est d'une simplicité trompeuse : prendre un grand modèle « professeur » puissant et utiliser ses résultats pour entraîner un plus petit modèle « élève ».

Dans une configuration d'entraînement standard, un modèle apprend à partir d'étiquettes strictes – des réponses claires comme « cette image est un chat ». Mais un modèle professeur produit quelque chose de plus riche : des étiquettes souples, des distributions de probabilité complètes qui révèlent non seulement la bonne réponse, mais aussi la confiance du modèle dans toutes les possibilités. Une photo d'un chat persan pourrait donner 90 % chat, 5 % chien, 3 % renard. Ces subtiles probabilités secondaires contiennent ce que Hinton a appelé la « connaissance sombre » – des informations sur les relations entre les catégories que les étiquettes strictes ne peuvent tout simplement pas transmettre.

Pour extraire cette connaissance sombre, les chercheurs augmentent un paramètre appelé température dans la fonction softmax du modèle. Des températures plus élevées adoucissent la distribution de probabilité, rendant les signaux subtils plus visibles pour l'élève. Une fois l'entraînement terminé, la température est abaissée à la normale pour le déploiement.

Pourquoi c'est important

La distillation résout un problème pratique : les modèles d'IA de pointe sont souvent trop volumineux et coûteux pour être déployés à grande échelle. Un modèle avec des centaines de milliards de paramètres exige un matériel serveur puissant et consomme une énergie importante. Les modèles distillés peuvent fonctionner sur des smartphones, des appareils embarqués ou des instances cloud modestes tout en conservant une grande partie des capacités du professeur.

Les résultats peuvent être frappants. Au début de 2025, des chercheurs de Stanford et de l'Université de Washington ont utilisé la distillation pour recréer un modèle de raisonnement en seulement 26 minutes pour moins de 50 $ de coûts de calcul. Le modèle distillé de DeepSeek, avec 7 milliards de paramètres, a surpassé des modèles plusieurs fois plus grands sur des benchmarks de raisonnement, démontrant qu'un élève bien entraîné peut se surpasser considérablement.

Trois saveurs de transfert de connaissances

Distillation basée sur la réponse : L'élève apprend des probabilités de sortie finales du professeur – l'approche la plus courante et la plus simple.
Distillation basée sur les caractéristiques : L'élève imite les activations de la couche intermédiaire du professeur, capturant la façon dont le modèle représente l'information en interne.
Distillation basée sur les relations : L'élève apprend les relations entre différents points de données tels qu'ils sont compris par le professeur, préservant ainsi la connaissance structurelle.

Le point de friction juridique

La distillation devient controversée lorsqu'une entreprise utilise le modèle d'un concurrent comme professeur. Les conditions d'utilisation d'OpenAI interdisent explicitement l'utilisation de ses résultats pour développer des modèles concurrents. Au début de 2025, OpenAI a accusé DeepSeek, basée en Chine, de distiller des connaissances à partir de ses systèmes propriétaires. En février 2026, OpenAI et Anthropic avaient toutes deux signalé ce qu'elles appelaient des campagnes de distillation à « échelle industrielle » menées par plusieurs entreprises chinoises d'IA, alléguant des efforts coordonnés impliquant la création de comptes scriptés et l'extraction massive d'invites.

Le terrain juridique reste incertain. La distillation en elle-même n'est pas intrinsèquement illégale – c'est une technique d'apprentissage automatique standard enseignée dans les cours universitaires. Le différend porte sur la manière dont les résultats du professeur sont obtenus : par le biais de recherches légitimes ou par le biais d'une extraction systématique qui viole les conditions contractuelles. En avril 2026, Elon Musk a témoigné devant un tribunal fédéral que sa société xAI avait elle-même utilisé la distillation à partir de modèles OpenAI pour développer son chatbot Grok, la présentant comme une pratique courante de l'industrie.

Ce qui va suivre

À mesure que les modèles d'IA deviennent plus grands et plus coûteux à entraîner, la distillation ne fera que gagner en importance – et en controverse. La technique démocratise l'accès à une IA puissante, permettant aux startups et aux chercheurs de construire des systèmes performants sans budgets de plusieurs milliards de dollars. Mais elle soulève également des questions fondamentales sur la propriété intellectuelle dans une industrie où l'atout le plus précieux d'un modèle n'est pas son code, mais la connaissance intégrée dans ses résultats. Les tribunaux, les régulateurs et l'industrie de l'IA elle-même s'efforcent encore de déterminer où se situe la limite entre l'apprentissage légitime et la copie non autorisée.

Comment fonctionne la distillation de modèles d'IA – et pourquoi elle suscite des poursuites judiciaires

Le tour de passe-passe professeur-élève derrière une IA moins chère

Comment fonctionne la distillation

Pourquoi c'est important

Trois saveurs de transfert de connaissances

Le point de friction juridique

Ce qui va suivre

Articles connexes

Comment fonctionne Air Force One, la Maison Blanche volante

Fonctionnement du mécanisme de protection civile de l'UE

Comment fonctionnent les bases militaires américaines en Europe – et pourquoi

Comment fonctionne l'intelligence des pieuvres : un esprit distribué

Comment fonctionne Air Force One, la Maison Blanche volante

Comment fonctionne la Triple Couronne : le prix le plus difficile des courses hippiques

Comment SPHEREx de la NASA cartographie l'ensemble du ciel en 102 couleurs

Comment fonctionne la présidence tournante du Conseil de sécurité de l'ONU

Ne manquez pas les nouveaux articles !