
Od momentu pojawienia się ChatGPT i podobnych rozwiązań generatywnej sztucznej inteligencji, internet zalewany jest tekstami, które nie powstały w wyniku ludzkiej pracy. Problem w tym, że kolejne modele AI uczą się właśnie z treści dostępnych online – a więc coraz częściej nie z oryginalnych materiałów, lecz z wygenerowanej przez inne modele sztucznej papki. Jak podaje theregister.com, prowadzi to do zjawiska przypominającego grę w głuchy telefon, w której treści stają się coraz bardziej zniekształcone, a efektywność algorytmów spada.
Dane sprzed ery generatywnej AI, czyli sprzed 2022 roku, zaczynają być dziś traktowane jako szczególnie cenne. Autorzy porównują to zjawisko do tzw. „stali o niskim tle promieniotwórczym” – produkowanej przed pierwszymi próbami atomowymi, dziś wykorzystywanej w precyzyjnej aparaturze medycznej. Podobnie jak stal sprzed 1945 roku, tak dane „przed-ChatGPT-owe” są dziś uznawane za „czyste” i wiarygodne. Jak zaznacza theregister.com, te zasoby mogą być kluczowe dla rozwoju uczciwej konkurencji na rynku sztucznej inteligencji.
Zanieczyszczone dane stanowią szczególne wyzwanie w technikach takich jak RAG (retrieval-augmented generation), gdzie modele AI uzupełniają swoją wiedzę o informacje pozyskiwane w czasie rzeczywistym z internetu. Jeżeli źródła te zawierają materiały generowane przez inne AI, pojawia się ryzyko eskalacji błędów i spadku jakości generowanych odpowiedzi. Coraz więcej badań wskazuje też na wzrost liczby tzw. „niebezpiecznych odpowiedzi” w chatbotach wykorzystujących dane o niskiej wiarygodności.
Niektórzy badacze postulują wprowadzenie obowiązkowego oznaczania treści tworzonych przez AI, jednak – jak przyznają – skuteczne egzekwowanie takich przepisów byłoby bardzo trudne. Tymczasem firmy z branży technologicznej często sprzeciwiają się regulacjom, obawiając się ograniczenia innowacyjności. Eksperci ostrzegają jednak, że bez działań zapobiegających zanieczyszczeniu cyfrowego środowiska, przyszłość rozwoju sztucznej inteligencji może zostać poważnie zagrożona.