Nur klauen dürfen sie nicht

Seit der Veröffentlichung von großen Sprachmodellen und Tools wie ChatGPT vor knapp zweieinhalb Jahren häufen sich in den USA die Klagen gegen Unternehmen wie OpenAI, Anthropic, Meta und Google, die solche Large Language Models (LLMs) entwickeln. Viele Klagen kreisen um dieselbe Frage: Dürfen die Firmen ohne Zustimmung der Urheberinnen und Urheber geschützte Inhalte verwenden, um ihre Modelle zu trainieren?

Das Bundesbezirksgericht von Nordkalifornien hat am Montag in einem möglicherweise richtungsweisenden Urteil entschieden: Ja, das ist erlaubt, jedenfalls unter bestimmten Bedingungen. 

Für die Firmen, die künstliche Intelligenz (KI) entwickeln, ist das entscheidend. Denn große Sprachmodelle, wie wir sie heute kennen, können nur dann verständlichen Text erzeugen, wenn sie zuvor mit möglichst vielen und möglichst guten menschlichen Texten gefüttert wurden. Auf den ersten Blick wirkt das Urteil daher wie ein klarer Sieg für die KI-Branche. Es könnte ihr aber dennoch zum Verhängnis werden.

Geklagt hatten im vergangenen August drei Autorinnen und Autoren aus den USA. Sie warfen dem Unternehmen Anthropic, das hinter dem Sprachmodell Claude steht, vor, unerlaubt Versionen ihrer Bücher für das Training der Sprachmodelle verwendet zu haben. 

Anthropic konzentrierte sich in den Verhandlungen auf die in den USA gültige Fair-Use-Regel: Sie bestimmt, wie und zu welchen Zwecken urheberrechtlich geschütztes Material verwendet werden darf, ohne dass die Urheber ihre Zustimmung geben müssen. Das Unternehmen argumentierte, die Nutzung geschützter Werke für KI-Training falle unter Fair Use, da eine kreative und transformative Änderung des Ausgangsmaterials stattfinde.

Richter: Sprachmodelle lernen wie Menschen

Bundesbezirksrichter William Alsup, der selbst programmiert, als technikaffin gilt und in der Vergangenheit schon in einem einflussreichen Rechtsstreit zwischen Google und Oracle geurteilt hatte, folgte dieser Ansicht: Grundsätzlich handele es sich beim Training großer Sprachmodelle um einen "spektakulär transformativen" Prozess, der deshalb eindeutig unter die Fair-Use-Regel falle. Firmen wie Anthropic nutzen die Bücher der Kläger nicht, um sie zu replizieren und die Autoren mit Kopien zu verdrängen, argumentiert er in der Urteilsbegründung. Stattdessen erschaffen sie mithilfe der erlernten Informationen etwas Neues. So wie ein Mensch Bücher lese, um vielleicht selbst Schriftsteller zu werden, machen sich demnach auch die großen Sprachmodelle bloß das vorhandene Wissen zunutze, um daraus zu lernen.

In dieser Deutlichkeit kommt die Entscheidung durchaus überraschend. Eine Sprecherin von Anthropic erklärte gegenüber dem Magazin Wired, dass das Urteil "dem Zweck des Urheberrechts entspricht, Kreativität zu ermöglichen und den wissenschaftlichen Fortschritt zu fördern".

Dazu kommt: Dem Urteil zufolge spielt es dabei keine Rolle, ob es sich um urheberrechtlich geschütztes Material handelt oder nicht – ein Autor oder eine Autorin kann Anthropic im Rahmen der Fair-Use-Regel nicht untersagen, öffentlich verfügbare Inhalte in seine Trainingsdaten aufzunehmen. Auch sei es Fair Use, Inhalte von einem Medium in ein anderes zu übertragen, also etwa ein Buch in eine digitale Datei umzuwandeln. 

Es klingt, als hätten die KI-Unternehmen einen Freifahrtschein für ihr umstrittenes Geschäftsgebaren bekommen. Das stimmt aber nur zum Teil. 

Das Urteil bezieht sich im Sinne der Anklage auf Bücher und deren Nutzung. Zwar ließe es sich so interpretieren, dass auch andere Inhalte unter der Fair-Use-Regel verwendet werden dürfen, etwa Texte privater und gewerblicher Websites, Social-Media-Posts, journalistische Inhalte, Beiträge in Fachmagazinen. Doch es gibt gewisse Hürden – vor allem bei Inhalten, die kostenpflichtig sind. 

Der Richter betonte, dass die Fair-Use-Regel nur dann greife, wenn die entsprechenden Werke legal erworben wurden, was im Fall der meisten Bücher bedeutet: dass man dafür bezahlt hat. Das ist der Punkt, an dem das Urteil für Firmen wie Anthropic ungemütlich werden könnte – denn sie haben in der Vergangenheit auch mit Inhalten trainiert, die sie nicht gekauft hatten.