#068 GPT-4V: The Good, The Bad and The Ugly
Der Podcast zum Hören:
Die Themen:
ChatGPT macht Dinge - DALL-E 3 #ki
GPT mit Brille - GPT-4V #ki
ChatGPT sieht Dinge nicht - GPT-4V #ki
ChatGPT ist angreifbar - GPT-4V #ki
## Die Hausmeisterei
Moin. Eine Woche Pause. Dieses Sch***-Virus hängt mir immer noch in der Stimme und letzte Woche ging das einfach gar nicht. Wird aber laaaangsam wieder. Holger ist diese Woche mit wichtigeren Dingen beschäftigt, die Weltpolitik braucht den Journalismus gerade dringend. Darum heute der Chris mal wieder solo.
Erlaubt mir den kleinen Hinweis, das CM MAGAZIN ist eine unabhängige Produktion und hat keine Sponsoren und ist auf freiwillige Unterstützung angewiesen. In jede Sendung fließen viele Stunden Zeit und Aufwand und falls ihr das toll findet und in der Lage seid, es mit einer kleinen regelmäßigen Finanzspritze zu unterstützen, dann hilft das ungemein und stellt auch sicher, dass ich hier im CM MAGAZIN weiterhin für euch interessante Inhalte recherchieren und aufbereiten kann. Danke.
Und heute auch nur ein Thema, mit vier Unter-Facetten, und zwar weil ich glaube, dass das was da gerade passiert ein Gamechanger ist. Ich möchte heute mal die Multimodalität der LLMs einordnen, und da ganz speziell ChatGPT. Multimodalität bedeutet, dass die Dinger nicht nur Text, sondern auch Bild können. Und das nicht nur erzeugen, sondern auch erkennen.
Und da gibt es The Good, The Bad und The Ugly, und diese Facetten schauen wir uns heute mal an.
## ChatGPT macht Dinge
Kommentar:
Der Platzhirsch im LLM-Umfeld heißt nach wie vor OpenAI. Daran geht erstmal kein Weg vorbei. Es gibt zwar Unmengen an Open-Source-Forschung und entsprechende Modelle, aber die sind nicht so convenient, brauchen länger, um in den Mainstream zu kommen, als das Bezahlprodukt, auf das man einfach mal etwas Geld werfen kann.
Und ich werfe da seit ein paar Monaten Geld drauf, habe also Zugang zur Bezahlversion von ChatGPT. Und das läuft mittlerweile auf dem neuesten Modell GPT-4, bzw. GPT-4V (für "Vision") vom 25. September 2023 und hat jetzt zwei neue Funktionen bekommen.
Reden wir mal kurz über die erste, und die heißt DALL-E 3. Und die möchte ich hier ganz bewusst nicht werten, also aus Qualitäts-, Privacy- oder Copyright-Sicht. Dazu gibt es schon viele viel andere Diskussionen.
DALL-E 3 ist die neue Version des Großvaters der KI-Bildergeneratoren. Wir erinnern uns, DALL-E 2 wurde im April 2022 veröffentlicht und hat letztes Jahr die Entwicklungen im KI-Themenfeld auf einen Schlag sichtbar und greifbar gemacht. Und ich würde sagen, es hat auch massiv dazu beigetragen, dass hier heute eine unglaubliche Menge an Forschung stattfindet. Die Menge an Ressourcen, die zur KI geshiftet wurden, ist so wohl noch nicht da gewesen.
Hier im CM MAGAZIN habe ich mich dann letztes Jahr kräftig auf das Thema gestürzt, ganz zu Holgis Missfallen. Und dieser Themenkomplex ist seither auch nicht mehr wirklich wegzukriegen. Ganz im Gegenteil. Meinen Anspruch, diese Entwicklung halbwegs vollständig zu begleiten, den durfte ich relativ schnell aufgeben, die Entwicklung ist mittlerweile so rasant, dass das einfach niemand mehr leisten kann. Aber das macht das CM MAGAZIN dann auch zu einem wichtigen Filter, weil was wichtig ist, das wird hier auch auftauchen.
So zum Beispiel die Integration von DALL-E 3 mit ChatGPT. Und noch so das eine oder andere Ding. Und das ist diese Woche dann doch eine Sondersendung wert.
Bisher war die KI-Bilderzeugung vom Prompt-Engineering geprägt. Da sind ganze Bücher veröffentlicht worden darüber, wie man am besten Prompts baut, um zum gewünschten Ergebnis zu kommen.
Eine Abkürzung war dann irgendwann, ChatGPT zu bemühen, für einen die Prompts zu bauen, und das war auch halbwegs gangbar. Und jetzt kommt mit DALL-E 3 nicht nur ein neues KI-Modell an den Start, sondern auch ein neues User-Interface. Und das heißt ChatGPT. Text. Aber halt anders als bisher. Das geht aktuell in der bezahlten Version, die kostet 20 Dollar im Monat und darunter sitzt GPT-4. D.h. das Interface ist jetzt conversational. Ich sage ChatGPT in etwa, was ich haben möchte und ChatGPT baut daraus vier Prompts, interagiert mit DALL-E, und es purzeln vier Bilder raus. Dann kann ich das ganze in einer Konversation quasi noch weiter beeinflussen. "Bitte noch mehr Bäume im Hintergrund", "das ist mir zu aufgeräumt", "mach die Jacke blau" - und die Prompts werden entsprechend angepasst und neue Bilder erzeugt. Und so kann ich mich bequem über mehrere Iterationen ans Ziel hangeln.
Also genau das, was ich hier schon ganz früh gesagt habe: Das Prompt-Engineering ist nur temporär. Wir interagieren hier mit dem Bildgenerator genauso wie mit einer Assistenz. Die Mona Lisa lächelt zu wenig, der Jesus hat zu wenig Jünger am Tisch, mach da mal noch einen in die Lücke rein, ...
Und das geht mittlerweile mit Whisper-Integration direkt von der App. Wie eine Konversation. In fast jeder Sprache, weil Whisper das ja kann und GPT eben auch. Die Konversation ist noch nicht super flüssig, weil da immer noch ein Server-Roundtrip nötig ist, aber auch das wird schneller und flüssiger werden.
Und über die Themen Copyrights, Privacy und Energieverbrauch reden wir hier erstmal auch nicht, die sind aber alle auch nicht ganz ohne Brisanz.
## GPT mit Brille
Quelle:
https://chrismarquardt.com/de/ki-bildanalyse/ (Öffnet in neuem Fenster)Kommentar:
Es ist heute übrigens der 15.10.2023 und die KI-Entwicklung schreitet in einem atemberaubenden Tempo voran. Mit der bezahlten Version von OpenAIs GPT-4V können wir nun Fotos analysieren und damit arbeiten. Und das geht erstaunlich gut. Die Fähigkeiten dieses Modells sind beeindruckend und beängstigend zugleich. Es kann komplexe Fotos zerlegen, die sogar für Menschen eine Herausforderung darstellen. Die KI kann nun multimodal arbeiten, was nur ein Zwischenschritt zur Verarbeitung von Videos ist. Die Möglichkeiten, die sich durch die Bildanalyse eröffnen, sind enorm und nicht alle sind positiv.
Die sehende KI bringt uns jedoch auch viele Vorteile: Sie kann uns beim Lernen unterstützen, helfen, Ressourcen effizienter zu nutzen, interaktive Handbücher erstellen, Blinden beim Sehen helfen, mathematische Formeln erklären, Vögel und Pflanzen identifizieren, Kassenzettel-OCR durchführen und strukturieren, Web-Entwicklung unterstützen und sogar bei der Diagnose von Röntgenbildern helfen. Die Fähigkeiten von GPT-4V lassen sich in sechs Kategorien einteilen: Beschreiben, Empfehlen, Konvertieren, Extrahieren, Unterstützen und Bewerten. Und GPT-4V ist nicht allein - Konkurrenzprodukte wie LLaVA sind bereits auf dem Markt und weitere werden folgen.
## ChatGPT sieht Dinge nicht
Quelle:
https://chrismarquardt.com/de/gpt-4v-edge-case/ (Öffnet in neuem Fenster)Kommentar:
GPT-4V ist blind. Und zwar dann, wenn es für ein gegebenes Bild keine Trainingsdaten hat. Das Beispiel hier ist eine ungewöhnliche Haufront mit seltsam platzierten Türen und GPT fällt hier gepflegt auf die Fresse.
Alle, die sich mit dem Thema etwas länger beschäftigen, werden wissen, was da passiert. Wir sehen einen deutlichen Fall von Edge Case. Für dieses Bild gibt es schlicht keine Trainingsdaten. Türen werden anders gebaut und was das Modell nicht kennt, kann es auch nicht sehen. Und was macht das LLM in so einem Fall? Es handelt nach seinen Anweisungen: Sei nützlich. Sei ein guter Assistent. Und es versucht, aus dem gesehenen Sinn zu ziehen. Und da, wo es keinen Sinn ergibt, wird dann halt Sinn halluziniert.
## ChatGPT ist angreifbar
Quelle:
https://chrismarquardt.com/de/gpt-4v-angriffsvektor/ (Öffnet in neuem Fenster)Kommentar:
Ganz am Schluss noch ein kleiner Klopper, der hoffentlich nur dem frühen Stadium des Systems geschuldet ist. Selbstverständlich wird so ein System von vielen gründlich durchflöht und die haben auch was gefunden. Und zwar eine prompt injection über vermeintlich harmloses Bildmaterial. Die Methode ist so simpel, dass sie leicht nachgemacht werden kann. Letztendlich werden visuell versteckte Prompts in Bildern untergebracht und GPT-4V kann die nicht nur lesen, sondern führt sie auch aus.
Und es war ein großes Lachen und Zähneklappern...
## Und Tschüs
So, das war's, wir sind am Ende des heutigen Magazins angelagnt, ihr findet alle Links zu den Themen in den Shownotes. Ich gehe dann mal meine Stimme schonen.
Bevor wir uns verabschieden, nochmal der kleine Hinweis.
Das CM MAGAZIN ist ein unabhängiges Projekt, das ohne Sponsoren auskommt. In jede Ausgabe fließen viel Zeit und Arbeit, um für euch hochwertige Inhalte zu liefern. Wenn ihr das Magazin schätzt und in der Lage seid, es finanziell zu unterstützen, würde das einen großen Unterschied machen. Eure Unterstützung ermöglicht es, auch weiter qualitativ hochwertige Inhalte zu produzieren, interessante Themen zu erkunden und letztendlich die Reichweite zu erweitern.
Alle Details hier:
Vielen Dank im Voraus für eure großzügige Unterstützung. Jeder Beitrag zählt und hilft, das CM MAGAZIN noch ein bisschen besser zu machen.
So, kommt gut in die Woche, bis dann, macht's gut und bleibt neugierig!
PS: In die Produktion dieses Magazin fließen viel Zeit und Mühe. Du kannst gerne gratis hören und lesen. Ich freue mich aber über jede finanzielle Unterstützung, die hilft, die Arbeit am Magazin aufrecht zu erhalten. Mehr auf https://steadyhq.com/de/cmmagazin/about (Öffnet in neuem Fenster)