Comment fonctionne le droit d'auteur en matière d'IA – et pourquoi les tribunaux sont en désaccord
Les entreprises d'IA entraînent des modèles sur des milliards d'œuvres protégées par le droit d'auteur, ce qui suscite des poursuites et des lois dans le monde entier. Voici comment l'utilisation équitable, les règles d'exploration de textes et de données et les décisions judiciaires marquantes façonnent la bataille juridique concernant les données d'entraînement de l'IA.
La question à un milliard de dollars
Chaque grand modèle d'IA générative – de ChatGPT à Claude en passant par Midjourney – a été entraîné sur de vastes quantités de textes, d'images et de code extraits d'Internet. Une grande partie de ce matériel est protégée par le droit d'auteur. La question de savoir si les entreprises d'IA ont besoin d'une autorisation pour l'utiliser est désormais la question de propriété intellectuelle la plus importante de la décennie, avec plus de 50 procès en cours devant les tribunaux américains et des régulateurs sur trois continents rédigeant de nouvelles règles.
Comment l'utilisation équitable s'applique à l'entraînement de l'IA
Aux États-Unis, le débat juridique porte sur l'utilisation équitable (fair use), une doctrine qui autorise une utilisation limitée de matériel protégé par le droit d'auteur sans le consentement du titulaire des droits. Les tribunaux examinent quatre facteurs pour déterminer si une utilisation est admissible :
- But et caractère — La nouvelle utilisation est-elle « transformative », ajoutant quelque chose de différent plutôt que de se substituer à l'original ? Les tribunaux ont estimé que l'entraînement d'un modèle d'IA à usage général sur un ensemble de données vaste et diversifié est hautement transformatif, car le modèle apprend des schémas plutôt que de reproduire des œuvres spécifiques.
- Nature de l'œuvre originale — Les œuvres très créatives ou non publiées bénéficient d'une protection plus forte, ce qui rend l'utilisation équitable plus difficile à revendiquer.
- Quantité utilisée — L'entraînement de l'IA ingère généralement des œuvres entières, ce qui va à l'encontre de l'utilisation équitable, bien que les tribunaux aient accepté que la copie d'œuvres entières puisse être nécessaire à des fins transformatrices.
- Effet sur le marché — Si la production d'une IA concurrence ou remplace l'œuvre originale, ce facteur va à l'encontre de l'utilisation équitable. L'U.S. Copyright Office a noté que là où il existe des marchés de licences, l'entraînement sans licence est plus difficile à justifier.
Aucun facteur n'est à lui seul décisif. Chaque affaire dépend de la manière dont les quatre interagissent, c'est pourquoi les juges sont parvenus à des conclusions contradictoires sur des faits presque identiques.
Décisions marquantes jusqu'à présent
Trois décisions clés aux États-Unis ont commencé à esquisser les limites. Dans Bartz v. Anthropic, un juge fédéral a statué que l'entraînement de Claude sur des livres était une utilisation équitable parce qu'il était « essentiellement transformatif » – mais a estimé que le téléchargement de copies piratées de ces livres ne l'était pas. Dans Kadrey v. Meta, un autre juge a constaté une utilisation équitable même si Meta avait obtenu des livres d'entraînement à partir de « bibliothèques fantômes » piratées. Et dans Thomson Reuters v. Ross Intelligence, le tribunal a rejeté complètement la défense d'utilisation équitable, statuant que l'utilisation par un concurrent de contenu juridique protégé par le droit d'auteur pour entraîner sa propre IA avait franchi la ligne rouge.
L'affaire la plus médiatisée – The New York Times v. OpenAI – est toujours en phase de découverte. Un juge a ordonné à OpenAI de remettre 20 millions de journaux d'interactions ChatGPT, et une décision sur l'utilisation équitable n'est pas attendue avant mi-2026 au plus tôt.
Comment l'Europe adopte une approche différente
L'Union européenne contourne complètement l'utilisation équitable. En vertu de la directive sur le marché unique numérique de 2019, une exception d'exploration de textes et de données (TDM) permet à quiconque d'extraire du contenu légalement accessible – à moins que le titulaire des droits ne se retire explicitement en utilisant des protocoles lisibles par machine tels que robots.txt. Le EU AI Act ajoute une couche de transparence : les fournisseurs d'IA à usage général doivent publier un « résumé suffisamment détaillé » de leurs données d'entraînement, y compris le contenu protégé par le droit d'auteur.
Le Royaume-Uni, quant à lui, a envisagé une large exemption TDM avec un mécanisme de retrait, mais a abandonné le plan en mars 2026 après une vive opposition des industries créatives. Le gouvernement a déclaré qu'il ne légiférerait pas tant qu'il n'aurait pas trouvé une solution qui satisfasse à la fois les développeurs d'IA et les détenteurs de droits.
Pourquoi c'est important
Le résultat déterminera qui profite de l'IA et qui est laissé pour compte. Si les tribunaux approuvent largement l'utilisation équitable, les entreprises d'IA peuvent continuer à s'entraîner sur l'Internet ouvert à peu de frais. Si ce n'est pas le cas, l'industrie aura besoin d'accords de licence – potentiellement d'une valeur de milliards – avec des éditeurs, des artistes et d'autres créateurs. L'U.S. Copyright Office a exhorté le Congrès à créer des « mécanismes évolutifs » pour la libération des droits, mais la législation reste bloquée.
Pour les créateurs, les enjeux sont existentiels. Les écrivains, les artistes visuels et les musiciens soutiennent que l'entraînement non rémunéré dévalorise leur travail. Les entreprises d'IA rétorquent que la restriction des données d'entraînement concentrerait le pouvoir entre les mains de quelques entreprises suffisamment riches pour négocier des licences, ce qui ralentirait l'innovation pour tout le monde.
Avec des décisions majeures attendues plus tard cette année et des cadres réglementaires encore en évolution des deux côtés de l'Atlantique, l'architecture juridique régissant l'IA et le droit d'auteur se construit en temps réel – une affaire, une loi et un protocole de retrait à la fois.