
Erfolge für Anthropic und Meta: Millionen Bücher für KI-Training zu verwenden, kann legal sein
- 4 Aufrufe
Rückschläge für die Kläger in den AI-Copyright-Fällen: Sowohl Anthropic als auch Meta konnten erste Teileerfolge verzeichnen. Bemerkenswert ist vor allem der Anthropic-Fall, in dem ein Richter entschied, dass das KI-Training mit Büchern unter Fair Use fällt. Eine Strafe droht dennoch – und es ist erst der Anfang.
Die Klage geht auf drei Autoren zurück. Anthropic nutzte für das KI-Training unter anderem den Books3- und einen LibGen-Datensatz, beide enthalten Millionen von Büchern, viele davon illegal. Anthropic-Mitgründer Ben Mann soll diese Datensätze heruntergeladen haben, obwohl er sich bewusst war, dass die Inhalte nicht legal sind, heißt es in dem Urteil (PDF) eines Bundesbezirksgerichts aus Kalifornien. Diese Bücher waren dann Teil des Materials, das Anthropic zum Training der Modelle verwendet.
KI-Training ist „transformativ“ – und damit Fair Use
Ein Verstoß gegen das Urheberrecht, sagen die Autoren in der Klage, weil Anthropic sich keine Erlaubnis einholte. Alles von den „Fair-Use“-Regeln gedeckt, erklärte Anthropic. Und der Richter William Alsup, den The Register in technischen Fragen als sehr visiert beschreibt, gibt Anthropic in einer der zentralen Fragen recht: Wenn geschützte Werke für das Training eines Large Language Models (LLM) verwendet werden, entsteht etwas Neues, das Vorgehen sei also transformativ.
In short, the purpose and character of using copyrighted works to train LLMs to generate
new text was quintessentially transformative. Like any reader aspiring to be a writer,
Anthropic’s LLMs trained upon works not to race ahead and replicate or supplant them — but to turn a hard corner and create something different.
Richter William Alsup
Wie ComputerBase vor kurzem analysierte, müssen neue Technologien „transformativ“ sein, um unter die Fair-Use-Regeln zu fallen. Ein prominentes Beispiel hierfür ist Google Books. Die Büchersuchmaschine zeigt zwar geschützte Inhalte aus Büchern an, Google kann diese Inhalte aber ohne Erlaubnis verwenden, weil sich der Anwendungszweck einer Suchmaschine fundamental von dem eines Buches unterscheidet.
- Copyright-Klagen: Wie AI-Firmen das Internet „klauen“ und womöglich damit durchkommen
Im Fall der LLMs nutzt Alsup nun den Vergleich mit dem, was Autoren ohnehin machen. Sie lesen Texte und verwenden diese Inhalte dann in irgendeiner Form. „Sie müssen vielleicht dafür bezahlen, den Text erst einmal in den Händen zu halten. Aber es wäre undenkbar, jemanden für die Nutzung eines Buchs zahlen zu lassen; jedes Mal, wenn sie es aus dem Gedächtnis abrufen, jedes Mal, wenn sie darauf zurückgreifen, um neue Dinge in einer neuen Weise zu schreiben“, so Alsup.
Print-Bücher für KI-Training legalisieren ist ebenfalls legal
Bezahlen, um ein Buch zu erhalten, ist aber ein Aspekt, der Anthropic betrifft. Generell gibt es auch hier einen Erfolg für die KI-Firma. Neben den illegalen Datensätzen hat Anthropic auch zwei Millionen Print-Bücher gekauft und diese digitalisiert, damit man sie für das KI-Training verwenden konnte. Dieses Vorgehen bewertet Alsup ebenfalls als legitim, es sei von den Fair-Use-Regeln gedeckt.
KI-Training ist legal – Piraterie hingegen nicht
Verurteilt wird Anthropic aber, weil man sich urheberrechtlich geschützte Werke aus illegalen Quellen beschafft und behalten hat. Copyright-Piraterie wie bei dem Books3- und LibGen-Datensatz ist durch Fair Use nicht abgedeckt.
Wie Timothy B. Lee in Understanding AI argumentiert, geht das Verfahren nun also weiter. Interessant wird etwa das Strafmaß. Laut dem Rechtsprofessor James Grimmelmann wären Strafen von 750 US-Dollar bis 30.000 US-Dollar pro geschütztem Werk denkbar. Für die KI-Branche sei das Urteil dennoch ein Erfolg, so Lee. Das Training ist legal, ebenso lassen sich legal beschaffte Werke nutzen. Somit zeige das Urteil einen Weg, wie rechtmäßiges Training der Modelle möglich ist.
Noch in der Schwebe: Stoßrichtungen der Klagen und Bestand der Urteile
Was Alsup in dem Verfahren aber ebenfalls anspricht: Die drei Kläger hätten sich ausschließlich auf den Input konzentriert, also die geschützten Inhalte, die Anthropic für das KI-Training verwendet. Ob etwa die Claude-Modelle diese Inhalte später wieder ausspucken können, war explizit nicht Teil des Verfahrens.
Es geht also um das sogenannte Memorization, das zuletzt bei einer Studie für Aufsehen sorgte. Bei Metas Llama-3.1-Modell gelang es Forschenden, insgesamt 42 Prozent der Inhalte aus dem ersten Harry-Potter-Band abzurufen. Ebenso wirft der New-York-Times-Verlag OpenAI vor, dass man Originalartikel aus der Zeitung sich über ChatGPT abrufen lassen könne. Inwieweit Inhalte, die generative AI-Modelle generieren, mit den Werken der Rechteinhaber übereinstimmen, dürfte künftig also besonders relevant sein.
Die Frage wird zudem sein, inwieweit Alsups Urteil Bestand hat. In einem Verfahren gegen Meta erklärte der Bundesbezirksrichter Vince Chhabria in einem Verfahren vor einem Gericht in San Francisco: Das Training mit urheberrechtlich geschütztem Material sei unter „vielen Umständen“ rechtswidrig. Eine Aussage, die im Widerspruch zum Anthropic-Fall steht, berichtet Reuters.
Meta zieht sich aus der Affäre
Chhabria hatte schon bei einer Anhörung in dem Verfahren im April erklärt, er könne sich nicht vorstellen, wie das KI-Training mit geschützten Werken legal sein könne, wenn man damit praktisch das Geschäftsmodell der Rechteinhaber aushebele. Dennoch wurde die Klage vorerst zurückgewiesen.
Das hat aber weniger mit Meta zu tun, sondern mit „falschen Argumenten“ der Kläger, so Chhabria. Diese hätten es nicht geschafft, einen Fall so aufzubereiten, dass klar würde, wie die neuen KI-Dienste die bisherigen Märkte umkrempeln.