Passa al contenuto principale

The only thing that stops a bad guy with AI training data is a good guy with AI training data

Heute der Service-Teil dieser Newsletter-Ausgabe mal ganz am Anfang: Mit den folgenden Zeilen in der robots.txt blockst du AI-Training (Si apre in una nuova finestra) von deiner Webseite.

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Vor ein paar Wochen hatte Automattic, die Firma hinter WordPress und Tumblr, ein Skandälchen am Hals. Ein internes Papier über einen Deal mit OpenAI und Midjourney wurde geleakt (Si apre in una nuova finestra), bei dem sich das Unternehmen den Zugang zu ihrem immensen Datensatz aus User Generated Content (also mitunter deine Texte und Bilder) wohl ganz gut bezahlen lässt.

Klingt schmierig, irgendwie unethisch auch. Auf Mastodon und in der Tech-Presse (Si apre in una nuova finestra) gab es dazu einiges an Aufruhr.

Automattic sagt dazu unter dem verheißungsvollen Titel „Protecting User Choice“ (Si apre in una nuova finestra) (ich denke das haben sie beim barely-legal Cookiebanner von Meta abgeschrieben) nur: „We will share only public content that’s hosted on WordPress.com (Si apre in una nuova finestra) and Tumblr from sites that haven’t opted out.“ Hey, we’re the good guys here!

So betrachtet: Damit ist diese Lösung sogar besser, als die gängige Praxis, denn sie erlaubt überhaupt erst den Opt-Out. Bisher läuft AI-Training mit Inhalten, die einfach so aus dem Web gescrapet werden. Klar, dass die Tech-Konzerne, ob Reddit, Meta oder eben Automattic, dann auch ein Wörtchen mitzureden haben wollen. (Und ein Stückchen von der Torte ab auch.) Eben: The only thing that stops a bad guy with AI training data is a good guy with AI training data.

Warum sich OpenAI auf den Deal einlässt? Ich denke, das ist auch eine Reaktion auf die Gesetzgebung, der EU AI Act zum Beispiel verlangt „machine-readable opt-outs“ zu befolgen und Informationen über die Trainingsdaten offenzulegen.

Privat persönlich würd ich sagen, man muss sich da keine Illusionen machen: Es gab noch nie einen veritablen Weg, die Kontrolle über Inhalte zu behalten, die man ins Internet reinpostet. Ich hab das zum ersten Mal am eigenen Leib erfahren, als sich der Klassenclown aus der 8b meine mühsam erstellen Witzbilder von meiner SchülerVZ-Pinnwand gemopst hat. Jetzt hat er eben Hallen voller Nvidia-Grafikkarten, krasse Algorithmen – und ein Geschäftsmodell.

Den AI-Firmen wird man ihre Webscraper wohl aus den sprichwörtlichen „cold, dead hands“ nehmen müssen.

Frag mal Helena Hallberg, die Schwizerdüütsche Stimme von Microsoft AI-Assistent Cortana, die für 3000 $ ihre Stimme verkauft hat (Si apre in una nuova finestra) und jetzt als Text-to-Speech-Engine auch auf anderen Plattformen alles mögliche „vorliest“, vom Burgerladen-Reel bis zur Tram-Ansage.

Was macht man also jetzt als Plattform? Scraper aussperren und die Daten nur noch gegen Bezahlung rausgeben, wie das auch die Verlage gerade versuchen (Si apre in una nuova finestra)? Bei Steady hat noch niemand angeklopft, um so einen data dump zu kaufen. Aber die Webscraper waren selbstverständlich auch schon bei uns zu Besuch. Wir können theoretisch solche AI-Scraper für ein bestimmtes Projekt aussperren, uns drauf verlassen, dass die AI-Provider ihr Wort halten und das Opt-Out respektieren. Vor ein paar Wochen habe ich das auch in unser Hilfecenter (Si apre in una nuova finestra) geschrieben. Und ratet mal, wie viele Medienmacher:innen uns bisher darum gebeten haben? Richtig, niemand.

„Man kann kein Gewehr auf die Bühne stellen…

…wenn niemand die Absicht hat, es zu feuern (Si apre in una nuova finestra).“

Mit Blick in die Zukunft glaube ich nicht, dass es ein schlauer Schachzug wäre, die Crawler komplett auszusperren. Google und Co. haben schon durchklingen lassen, dass die nächste Generation der Websuche aus generativer AI besteht. Blockt man die Scraper, verbaut man sich die Sichtbarkeit für was auch immer die nächste Generation von SEO sein wird. (AI-O? Wer früh dran sein will, sollte das jetzt schon mal zu den LinkedIn-Skills hinzufügen.)

Was meint ihr, hat Automattic einen Deal mit dem Teufel gemacht? Oder besser schon mal an den Gedanken gewöhnen und irgendwie dankbar sein, wenn Brosamen runterfallen? Wann kommt eigentlich die Leistungsschutzrecht-Debatte 4.0? Peng peng!


Nächste Woche dann: Was ich von Fernsehkoch Alton Brown über digitale Produktentwicklung gelernt habe. Bis dann!