Zum Hauptinhalt springen

The only thing that stops a bad guy with AI training data is a good guy with AI training data

Heute der Service-Teil dieser Newsletter-Ausgabe mal ganz am Anfang: Mit den folgenden Zeilen in der robots.txt blockst du AI-Training (Öffnet in neuem Fenster) von deiner Webseite.

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Vor ein paar Wochen hatte Automattic, die Firma hinter WordPress und Tumblr, ein Skandälchen am Hals. Ein internes Papier über einen Deal mit OpenAI und Midjourney wurde geleakt (Öffnet in neuem Fenster), bei dem sich das Unternehmen den Zugang zu ihrem immensen Datensatz aus User Generated Content (also mitunter deine Texte und Bilder) wohl ganz gut bezahlen lässt.

Klingt schmierig, irgendwie unethisch auch. Auf Mastodon und in der Tech-Presse (Öffnet in neuem Fenster) gab es dazu einiges an Aufruhr.

Automattic sagt dazu unter dem verheißungsvollen Titel „Protecting User Choice“ (Öffnet in neuem Fenster) (ich denke das haben sie beim barely-legal Cookiebanner von Meta abgeschrieben) nur: „We will share only public content that’s hosted on WordPress.com (Öffnet in neuem Fenster) and Tumblr from sites that haven’t opted out.“ Hey, we’re the good guys here!

So betrachtet: Damit ist diese Lösung sogar besser, als die gängige Praxis, denn sie erlaubt überhaupt erst den Opt-Out. Bisher läuft AI-Training mit Inhalten, die einfach so aus dem Web gescrapet werden. Klar, dass die Tech-Konzerne, ob Reddit, Meta oder eben Automattic, dann auch ein Wörtchen mitzureden haben wollen. (Und ein Stückchen von der Torte ab auch.) Eben: The only thing that stops a bad guy with AI training data is a good guy with AI training data.

Warum sich OpenAI auf den Deal einlässt? Ich denke, das ist auch eine Reaktion auf die Gesetzgebung, der EU AI Act zum Beispiel verlangt „machine-readable opt-outs“ zu befolgen und Informationen über die Trainingsdaten offenzulegen.

Privat persönlich würd ich sagen, man muss sich da keine Illusionen machen: Es gab noch nie einen veritablen Weg, die Kontrolle über Inhalte zu behalten, die man ins Internet reinpostet. Ich hab das zum ersten Mal am eigenen Leib erfahren, als sich der Klassenclown aus der 8b meine mühsam erstellen Witzbilder von meiner SchülerVZ-Pinnwand gemopst hat. Jetzt hat er eben Hallen voller Nvidia-Grafikkarten, krasse Algorithmen – und ein Geschäftsmodell.

Den AI-Firmen wird man ihre Webscraper wohl aus den sprichwörtlichen „cold, dead hands“ nehmen müssen.

Frag mal Helena Hallberg, die Schwizerdüütsche Stimme von Microsoft AI-Assistent Cortana, die für 3000 $ ihre Stimme verkauft hat (Öffnet in neuem Fenster) und jetzt als Text-to-Speech-Engine auch auf anderen Plattformen alles mögliche „vorliest“, vom Burgerladen-Reel bis zur Tram-Ansage.

Was macht man also jetzt als Plattform? Scraper aussperren und die Daten nur noch gegen Bezahlung rausgeben, wie das auch die Verlage gerade versuchen (Öffnet in neuem Fenster)? Bei Steady hat noch niemand angeklopft, um so einen data dump zu kaufen. Aber die Webscraper waren selbstverständlich auch schon bei uns zu Besuch. Wir können theoretisch solche AI-Scraper für ein bestimmtes Projekt aussperren, uns drauf verlassen, dass die AI-Provider ihr Wort halten und das Opt-Out respektieren. Vor ein paar Wochen habe ich das auch in unser Hilfecenter (Öffnet in neuem Fenster) geschrieben. Und ratet mal, wie viele Medienmacher:innen uns bisher darum gebeten haben? Richtig, niemand.

„Man kann kein Gewehr auf die Bühne stellen…

…wenn niemand die Absicht hat, es zu feuern (Öffnet in neuem Fenster).“

Mit Blick in die Zukunft glaube ich nicht, dass es ein schlauer Schachzug wäre, die Crawler komplett auszusperren. Google und Co. haben schon durchklingen lassen, dass die nächste Generation der Websuche aus generativer AI besteht. Blockt man die Scraper, verbaut man sich die Sichtbarkeit für was auch immer die nächste Generation von SEO sein wird. (AI-O? Wer früh dran sein will, sollte das jetzt schon mal zu den LinkedIn-Skills hinzufügen.)

Was meint ihr, hat Automattic einen Deal mit dem Teufel gemacht? Oder besser schon mal an den Gedanken gewöhnen und irgendwie dankbar sein, wenn Brosamen runterfallen? Wann kommt eigentlich die Leistungsschutzrecht-Debatte 4.0? Peng peng!


Nächste Woche dann: Was ich von Fernsehkoch Alton Brown über digitale Produktentwicklung gelernt habe. Bis dann!