- Neue Forschungen aus Stanford und Yale zeigen, dass große Sprachmodelle nicht nur „lernen“, sondern Buchinhalte speichern und wortwörtlich wiedergeben.
- Bei vier beliebten Modellen, darunter GPT von OpenAI, Claude von Anthropic, Gemini von Google und Grok von xAI, wurde festgestellt, dass sie urheberrechtlich geschützte Inhalte speichern.
- Bei entsprechender Aufforderung konnte Claude fast den gesamten Inhalt von Harry Potter und der Stein der Weisen, Der große Gatsby, 1984 und Frankenstein reproduzieren.
- Insgesamt wurden 13 Bücher getestet, wobei aus vielen Tausende von Wörtern fast wortwörtlich extrahiert wurden.
- Dieses Phänomen wird als „Memorization“ (Auswendiglernen/Speicherung) bezeichnet und steht im Widerspruch zu früheren Behauptungen von KI-Unternehmen, dass Modelle keine Kopien von Trainingsdaten speichern.
- OpenAI und Google hatten behauptet, dass Modelle nur sprachliche „Muster“ speichern und nicht den ursprünglichen Inhalt behalten.
- Tatsächlich funktionieren LLMs wie eine Form der verlustbehafteten Kompression, ähnlich wie MP3 oder JPEG, die Daten komprimiert, aber den Kern beibehält.
- Ein Gericht in Deutschland verglich ChatGPT mit einer komprimierten Datei und fällte im GEMA-Prozess ein für OpenAI ungünstiges Urteil.
- Auch bei KI-Bildgeneratoren wie Stable Diffusion wurde festgestellt, dass sie Bilder reproduzieren, die den Originalen fast gleichen.
- Modelle können nicht nur den Wortlaut, sondern auch Struktur, Bildsprache und künstlerischen Stil kopieren.
- Andere Untersuchungen zeigen, dass 8–15 % der von LLMs generierten Inhalte bereits wortwörtlich im Internet existieren.
- Dies eröffnet riesige rechtliche Risiken, die dazu führen könnten, dass KI vom Markt genommen oder von Grund auf neu trainiert werden muss.
- Obwohl Sam Altman das „Lernrecht“ der KI verteidigt, halten Forscher den Vergleich mit Menschen für irreführend.
- Experten stellen fest, dass das Speichern eine inhärente Eigenschaft und kein seltener Fehler ist.
📌 Neue Forschungen der Universitäten Stanford und Yale zeigen, dass große Sprachmodelle nicht nur „lernen“, sondern Buchinhalte speichern und wortwörtlich wiedergeben. Diese Erkenntnis erschüttert das theoretische Fundament der generativen KI-Industrie. Anstatt wie Menschen zu „lernen“, arbeiten die Modelle durch Komprimierung und Abruf von Daten, was zu einem Risiko massiver Urheberrechtsverletzungen führt. Sollten Gerichte KI-Modelle als illegale Kopien betrachten, könnte die Branche mit Milliardenstrafen konfrontiert werden und gezwungen sein, die gesamte Art und Weise der zukünftigen KI-Entwicklung neu zu strukturieren.
