Zuckerberg oskarżony o użycie setek tysięcy spiraconych książek do trenowania AI ORIGINAL CONTENT

25
Meta miała wykorzystać około 183 tysiące pirackich książek z bazy Books3 (stworzonych na podstawie danych z LibGen) do trenowania modelu AI LLaMA 3. Informację ujawnił magazyn „The Atlantic”. Wśród poszkodowanych są też polscy autorzy: Masłowska, Tokarczuk, Twardoch. Toczą się pozwy w USA i Francji – Meta broni się, powołując na "fair use". Polskie Ministerstwo Kultury milczy, co budzi niepokój w środowisku literackim.



Dziennikarze "The Atlantic" dotarli do datasetu Books3, który był używany w procesie szkolenia AI, i stworzyli publiczną wyszukiwarkę. Każdy może tam sprawdzić, czy jego książka – lub książka ulubionego autora – znalazła się w tym zbiorze bez zgody twórcy.

Strona https://www.theatlantic.com/technology/archive/2025/03/search-libgen-data-set/682094/ pozwala przeszukiwać piracki zbiór po nazwisku autora lub tytule dzieła. To narzędzie stało się punktem wyjścia dla wielu pozwów i debat o prawa autorskie. W praktyce – to cyfrowa lista ofiar nielegalnego trenowania AI. Jeśli ktoś miał wątpliwości, czy problem dotyczy też Polski, ta baza rozwiewa je błyskawicznie.


Jak działa trenowanie AI?
Aby nauczyć AI rozumienia języka, firmy ładują do niej ogromne zbiory tekstów – tzw. datasety. Im więcej danych, tym „inteligentniejszy” model. Dla LLaMA 3 użyto ponad 15 bilionów tokenów (czyli fragmentów tekstu). Jednym ze źródeł był zbiór Books3, zawierający ok. 183 tys. książek pobranych z pirackiej bazy LibGen (Library Genesis), która gromadzi ok. 7,5 mln plików bez zgody autorów.


Dlaczego to ważne?
Skala naruszeń:
- To nie tylko kwestia jednorazowego naruszenia.
- Taki zabieg może wpływać na przychody autorów, spadek sprzedaży i wartość ich dzieł.

Moralny i prawny wymiar:
- Twórcy tracą kontrolę nad swoją pracą.
- Meta broni się, powołując się na "fair use" (dozwolony użytek), ale sądy mają wątpliwości.


Sprawa trafia do sądów
W USA:
- Sarah Silverman, Richard Kadrey, Christopher Golden – złożyli pozwy przeciwko Meta.
- Zarzuty: wykorzystanie książek bez zgody, usuwanie informacji o prawach autorskich (CMI).
- Część zarzutów została już przez sąd uwzględniona.

We Francji:
- Wydawcy i organizacje autorów oskarżają Metę o "pasożytnictwo ekonomiczne".
- Żądają odszkodowań i zmian prawnych.

A co na to Polska?
- Ministerstwo Kultury nie wydało żadnego oświadczenia, mimo że sprawa dotyczy również polskich autorów.
- Głos zabrała jedynie Unia Literacka, która zapytała twórców, czy ich książki również zostały „ukradzione”.


Ile może zapłacić Meta?
Jeśli sądy uznają naruszenia, Meta może być zmuszona do wypłaty wielomilionowych odszkodowań – zarówno autorom, jak i wydawcom. Sytuacja może przypominać sprawę Google Books, gdzie spór zakończył się propozycją ugody na 125 mln dolarów. Ale jak pokazuje historia – większość pieniędzy w takich sprawach trafia do prawników, nie do twórców.


Polski PLLuM – legalny, ale bez budżetu na licencje
W Polsce powstaje własny duży model językowy – PLLuM. Ma być trenowany wyłącznie na legalnych źródłach i udostępniany na otwartej licencji. Problem? W budżecie (ponad 14 mln zł) nie przewidziano środków na opłacenie autorów za wykorzystanie ich tekstów. Autorzy mogą więc udostępnić swoje dzieła... ale za darmo. Idea piękna – tylko kto na tym skorzysta?


Nie tylko Meta – inne AI też pod lupą
Oprócz Mety, o wykorzystywanie nielegalnych danych oskarżane są również inne firmy:
- OpenAI (ChatGPT) – w pozwach wymieniane są konkretne tytuły książek.
- Stability AI (StableDiffusion) – podejrzenia o użycie pirackich ilustracji i opisów.
- Google (PaLM 2, Gemini) – brak transparentności w źródłach danych.

Niejasność co do tego, skąd pochodzą dane treningowe, to problem, który może wybuchnąć jeszcze wiele razy.


Co to oznacza dla przyszłości?
Ta afera może zmienić zasady gry – zarówno dla autorów, jak i twórców AI. Czy naprawdę można legalnie wykorzystywać cudzą pracę bez pytania? Czy „dozwolony użytek” ma granice, gdy w grę wchodzą miliardy dolarów i prywatne chatboty? I wreszcie – czy doczekamy się przepisów, które ochronią twórców w cyfrowej rzeczywistości? Czas na dyskusję – bo przyszłość literatury może właśnie pisać się… bez pisarzy.
0.037604093551636