Jak działa prawo autorskie w kontekście sztucznej inteligencji – i dlaczego sądy są podzielone
Firmy zajmujące się sztuczną inteligencją trenują modele na miliardach utworów chronionych prawem autorskim, co wywołuje pozwy i inicjatywy legislacyjne na całym świecie. Oto jak dozwolony użytek, zasady dotyczące eksploracji tekstu i danych oraz przełomowe orzeczenia sądowe kształtują prawną batalię o dane treningowe dla SI.
Pytanie za miliard dolarów
Każdy znaczący model generatywnej sztucznej inteligencji – od ChatGPT po Claude i Midjourney – był trenowany na ogromnych ilościach tekstu, obrazów i kodu pobranych z internetu. Znaczna część tego materiału jest chroniona prawem autorskim. To, czy firmy zajmujące się sztuczną inteligencją potrzebują zgody na jego wykorzystanie, jest obecnie najważniejszą kwestią własności intelektualnej dekady, z ponad 50 pozwami sądowymi w samych tylko sądach amerykańskich i regulatorami na trzech kontynentach piszącymi nowe zasady.
Jak dozwolony użytek odnosi się do treningu SI
W Stanach Zjednoczonych debata prawna koncentruje się na dozwolonym użytku, doktrynie, która dopuszcza ograniczone wykorzystanie materiałów chronionych prawem autorskim bez zgody właściciela praw. Sądy rozważają cztery czynniki, decydując, czy dany użytek się do niego kwalifikuje:
- Cel i charakter — Czy nowe użycie jest „transformacyjne”, dodając coś innego, a nie zastępując oryginał? Sądy uznały, że trenowanie ogólnego modelu SI na dużym, zróżnicowanym zbiorze danych jest wysoce transformacyjne, ponieważ model uczy się wzorców, a nie odtwarza konkretnych dzieł.
- Charakter oryginalnego dzieła — Dzieła wysoce kreatywne lub niepublikowane otrzymują silniejszą ochronę, co utrudnia powoływanie się na dozwolony użytek.
- Ilość użytego materiału — Trening SI zazwyczaj pochłania całe dzieła, co przemawia przeciwko dozwolonemu użytkowi, chociaż sądy zaakceptowały, że kopiowanie całych dzieł może być konieczne dla celu transformacyjnego.
- Wpływ na rynek — Jeśli wynik działania SI konkuruje z oryginalnym dziełem lub je zastępuje, ten czynnik przemawia przeciwko dozwolonemu użytkowi. Amerykański Urząd ds. Praw Autorskich zauważył, że tam, gdzie istnieją rynki licencyjne, trudniej jest uzasadnić nielicencjonowany trening.
Żaden pojedynczy czynnik nie jest decydujący. Każda sprawa zależy od tego, jak te cztery czynniki oddziałują na siebie, dlatego sędziowie doszli do sprzecznych wniosków w oparciu o niemal identyczne fakty.
Dotychczasowe przełomowe orzeczenia
Trzy kluczowe decyzje w USA zaczęły zarysowywać granice. W sprawie Bartz v. Anthropic sędzia federalny orzekł, że trenowanie Claude'a na książkach stanowiło dozwolony użytek, ponieważ było „kwintesencją transformacji” – ale uznał, że pobieranie pirackich kopii tych książek już nie. W sprawie Kadrey v. Meta inny sędzia uznał dozwolony użytek, mimo że Meta pozyskała książki treningowe z pirackich „bibliotek cieni”. A w sprawie Thomson Reuters v. Ross Intelligence sąd całkowicie odrzucił argument o dozwolonym użytku, orzekając, że wykorzystanie przez konkurenta treści prawnych chronionych prawem autorskim do trenowania własnej SI przekroczyło granicę.
Najgłośniejsza sprawa – The New York Times v. OpenAI – jest nadal w fazie odkrywania dowodów. Sędzia nakazał OpenAI przekazanie 20 milionów logów interakcji ChatGPT, a orzeczenia w sprawie dozwolonego użytku nie należy spodziewać się najwcześniej w połowie 2026 roku.
Jak Europa obiera inną drogę
Unia Europejska całkowicie pomija dozwolony użytek. Zgodnie z dyrektywą o jednolitym rynku cyfrowym z 2019 r., wyjątek dotyczący eksploracji tekstu i danych (TDM) pozwala każdemu na pobieranie treści legalnie dostępnych – chyba że właściciel praw wyraźnie zrezygnuje z tego za pomocą protokołów odczytywanych maszynowo, takich jak robots.txt. Unijna ustawa o sztucznej inteligencji nakłada na to warstwę przejrzystości: dostawcy ogólnego przeznaczenia SI muszą publikować „wystarczająco szczegółowe podsumowanie” swoich danych treningowych, w tym treści chronionych prawem autorskim.
Tymczasem Wielka Brytania rozważała szerokie zwolnienie z TDM z mechanizmem rezygnacji, ale porzuciła ten plan w marcu 2026 r. po ostrej opozycji ze strony branż kreatywnych. Rząd oświadczył, że nie będzie stanowić prawa, dopóki nie znajdzie rozwiązania, które zadowoli zarówno twórców SI, jak i właścicieli praw.
Dlaczego to ma znaczenie
Wynik ukształtuje to, kto czerpie zyski z SI, a kto zostanie pominięty. Jeśli sądy szeroko poprą dozwolony użytek, firmy zajmujące się SI będą mogły kontynuować trening w otwartym internecie przy niewielkich kosztach. Jeśli tego nie zrobią, branża będzie potrzebować umów licencyjnych – potencjalnie wartych miliardy – z wydawcami, artystami i innymi twórcami. Amerykański Urząd ds. Praw Autorskich wezwał Kongres do stworzenia „skalowalnych mechanizmów” rozliczania praw, ale prace legislacyjne utknęły w martwym punkcie.
Dla twórców stawka jest egzystencjalna. Pisarze, artyści wizualni i muzycy argumentują, że nieodpłatny trening dewaluuje ich pracę. Firmy zajmujące się SI odpowiadają, że ograniczenie danych treningowych skoncentrowałoby władzę w rękach kilku firm wystarczająco bogatych, aby negocjować licencje, spowalniając innowacje dla wszystkich.
Ponieważ oczekuje się ważnych orzeczeń jeszcze w tym roku, a ramy regulacyjne wciąż się zmieniają po obu stronach Atlantyku, architektura prawna regulująca SI i prawa autorskie jest budowana w czasie rzeczywistym – jeden przypadek, jedna ustawa i jeden protokół rezygnacji na raz.