Zum Hauptinhalt springen

#015 Photo of House With The Design of a Strawberry

Hallo! Dies ist die gratis Text-only-Version des CM MAGAZIN.

In der 🎧-Version diskutiert heute Chris mit Holger Klein &  bleeptrack über die Artikel.

Moin moin von der Nordsee. Moni und ich sind für eine Woche auf der Insel Pellworm. Ruhe. Schafe. Meer. Wind. Fischbrötchen. Was will man mehr.. Meeeeer, get it? Darum diese Ausgabe etwas später.

DALL-E lässt mich gerade nicht los. 

Für die kleine Druckbetankung schaut ihr euch am besten mal eben die Links hier an.

Während ich davon enorme technische und gesellschaftliche Implikationen erwarte, findet Holgi, dass DALL-E nur eine schöne Spielerei ist und bleeptrack, die ich mir für die Sendung eingeladen habe, sieht das eine oder andere red flag. bleeptrack ist Künstlerin und sie arbeitet sehr viel mit Software und mit der habe ich mich dann vor ein paar Tagen mal eine halbe Stunde lang über das Thema unterhalten. Und das hat mir dann wieder klar gemacht, dass sich DALL-E auch durchaus Kritik gefallen lassen muss.

Was übrigens auch interessant ist, OpenAI hat im Moment einige Content-Regeln um kontroverse Resultate zu vermeiden und dazu gehört zum Beispiel das Erzeugen von realistischen Menschen. Und dabei geht es noch nicht mal um spezifische, bekannte Menschen, sondern einfach nur um Menschen allgemein. Es wird also vermutlich so schnell keine Bilder geben von Busfahrer Chris und 12 Holgis und 23 bleeptracks, die gemeinsam eine Kaffeefahrt unternehmen.

Nu ja. Los geht's.

Die Themen:

  • Steampunk Chicken
  • DALL-E DALL-E
  • DALL-E: Follow-Up mit Holgi

## Steampunk Chicken

"1980: AI will never beat the world chess champion.  1997: Well, chess is easy but it'll never be able to do Go.  2016: Well, sure but it's just math. AI could never be creative.  2022: Hey #dalle2, draw me a bowl of soup that looks like a monster knitted out of wool."

(Quelle: https://twitter.com/The_ArtOfCode/status/1512651737244569603)

[In der 🎧-Podcast-Ausgabe sprechen Chris und Holgi darüber]

Kommentar:

Kleines Follow-Up zu letzter Woche und zu DALL-E 2. Das ist zwar noch nicht offiziell verfügbar, aber auf Twitter nehmen Mitarbeiter von OpenAI Text-Prompts entgegen und posten dann die resultierenden Bilder.

## DALL-E DALL-E

"Very few people have access at the moment."

(Quelle: https://reddit.com/r/dalle2/comments/u4eyvk/dalle_2_general_information_waitlist_and_questions/)

[INFO: Das Gespräch mit bleeptrack gibt es auch als öffentliches Video, und zwar hier]

Kommentar:

Exponentielle Entwicklungen bemerken viele von uns ganz lange nicht. Besonders wenn wir nicht ständig genau hin schauen. Und dann, gefühlt ganz plötzlich, rauschen sie an uns vorbei. Und dann wundern sich viele, woher das denn plötzlich gekommen ist.

Da gibt es genügend Beispiele in der Vergangenheit. Netflix und Youtube und das Fernsehen zum Beispiel. Das durchschnittliche Alter der Zuschauer der ARD liegt zum Beispiel bei 60 Jahren. Das Internet am Beispiel von Wikipedia. Wer hat heute noch einen 20-bändigen Brockhaus im Wohnzimmerregal? Oder das iPhone. Wir teilen die Welt in vor und nach 2007. Blackberry und Nokia, die früheren Mobilkönige sind gerade mal 15 Jahre später nur noch Fußnoten.

Und jetzt sind wir glaube ich in der Fotografie wieder an so einem Wendepunkt. Das ist gleichzeitig spannend und beunruhigend. Wenn ich iStockphoto wäre, dann würde ich jetzt auch nicht mehr ganz so gut schlafen.

Es geht um DALL-E 2, das auf Zuruf Bilder erzeugt. Eine einfache Textbeschreibung wird zu Bild, Gemälde, Zeichnung oder zum Foto.

Ich habe hier einige Beispiele zusammengetragen.

Wie sollen wir das einordnen? Was kommt da wirklich? Bisher ist der Zugang zur API noch nicht offen. Aber meine Quellenlage umfasst viele Beispielbilder, z.B. den DALL-E Subreddit oder Twitter, da haben Leute schon Zugang.

Wer tief eintauchen möchte, kann auch einen Blick ins zugehörige Paper werfen  oder sich die Sache z.B. hier erklären lasse

DALL-E scheint nicht immer ins Schwarze zu treffen, was sich aber durch besser ausgefeilte Text-Prompts wieder anpassen lässt. Das Beispiel ganz oben zeigt den Prozess ganz gut. Letztendlich hängt das alles halt auch von der Datenbasis ab und von der Parametrisierung der neuronalen Netze. Und da gehört DALL-E zu den größeren. Das ist wichtig, weil die Forschung sich mittlerweile weitgehend einig ist, dass Netze mit der Menge der Daten gut skalieren. Grob vereinfacht: Mehr Daten machen die Netze besser.

Sind die aktuellen Ergebnisse etwas cherry-picked? Vermutlich. Aber selbst wenn das in der Realität noch etwas mehr hakelt, sehen wir hier eine Entwicklung, die nicht stehen bleiben wird. Wir können ja mal ein Nokia-Telefon von 2005 mit dem aktuellen iPhone vergleichen.

Hinter DALL-E steht natürlich auch ein Business-Modell. OpenAI ist keine gemeinnützige Organisation und alleine das Training für ein Netz dieser Größenordnung kostet viele Millionen. Das wird sich OpenAI dann über ihre bezahlte API wieder zurückholen.

Natürlich bleiben solche Netze auch nie ohne Kritik. Die wird natürlich zum einen von den Stock-Agencies kommen, denen wird nämlich eine Menge Business flöten gehen. Entweder das, oder sie nutzen die API dann selber, um Bilder anzubieten, die sie nicht im Fundus haben. Am Ende zählen dann da vermutlich auch die jetzt schon bestehenden Integrationen. Und damit ziehen dann die Stock-Fotograf:innen den kürzeren.

Zum Anderen kann Machine Learning aber auch immer nur so gut sein, wie die Datenbasis, die fürs Training verwendet wird und da müssen sich alle entsprechenden Systeme verbessern. Fragt man z.B. DALL-E nach Bildern von "lawyers", dann erhält man bevorzugt stereotype Bilder von Männern in Roben. Und ich verwende ganz bewusst "lawyers", den englischen Begriff, weil die englische Sprache ja eigentlich geschlechtsneutral sein sollte. Die Frage nach "flight attendant" resultiert dann auch in Bildern von hauptsächlich weiblichen Stewardessen. DALL-E wird auch sicher einen generell eher westlichen Bias haben.

Da ist also am Ende doch noch einiges an Arbeit nötig.

## DALL-E: Follow-Up mit Holgi

[In der 🎧-Podcast-Ausgabe sprechen Chris und Holgi darüber]

Kommentar:

Lebensverändernde Entwicklung oder hübsches Spielzeug? Chris und Holgi sind da durchaus unterschiedlicher Meinung. Und Holgi hat natürlich recht: Bilder faken ist nichts neues und wird auch jetzt schon praktiziert. Chris ist der Meinung, dass das weder alles ist, was das System kann, noch dass das alles ist, was das System können wird. Die Entwicklung der nächsten Jahre wird viele überraschen. Neuronale Netze wachsen derzeit dramatisch und DALL-E könnte nur der Anfang einer rasanten Entwicklung sein.

Also ich bleibe ja dabei, DALL-E und was danach noch so alles folgen wird, wird nicht nur ganze Berufszweige komplett umpflügen, sondern auch unsere Gesellschaft verändern. Mein Bauch sagt mir, dass das so viel größer wird als sich viele das im Augenblick vorstellen können. Ich kann das im Moment nicht wirklich begründen, aber mein Bauchgefühl hat sich in der Vergangenheit einige Male als korrekt erwiesen. Da läuft aus meiner Sicht auf mehreren Ebenen eine exponentielle Entwicklung die jetzt gerade so richtig Fahrt aufnimmt.

Vielleicht mag sich ja mal jemand von euch einen Reimender setzen und mich in 5 Jahren daran erinnern, dann mache ich nochmal eine Update-Sendung darüber. Oder ich lasse die dann einfach von GPT-6 für mich schreiben und von DALL-E 5 als Video rendern. Da muss ich mir dann nur noch einen Stil ausdenken.

Was meint ihr dazu? Sehen wir da gerade die Anfänge einer Entwicklung, die unser Leben verändern wird? Oder ist und bleibt das nur eine hübsche Spielerei? Schickt mal Kommentare.

In diesem Sinne, bis zur nächsten Ausgabe.

PS: Du kannst dieses Magazin gratis lesen, aber gerne auch finanziell unterstützen. Dafür bekommst Du z.B. zusätzlich die Podcast-Version mit Diskussionen zwischen Chris und seinen Gästen, in Deinem ganz persönlichen Feed in Deinem Podcast-Client.

Nur Mitglieder, die Zugang zu diesem Post haben, können Kommentare lesen und schreiben.