#034 Speedtalking Schweizer Sprachmesser

0 High-Fives

00 Kommentare

Per E-Mail versenden

Heute zu Gast im CM MAGAZIN: Holger Klein (Öffnet in neuem Fenster)

⬇️ Die 🎧-Podcast-Version zum Hören unten am Ende des Artikels ⬇️

Die Themen:

Rangeflanschte Teile: Der E-Ducato #mobilität
Werbeverkaufsveranstaltung hart am Ziel vorbei #mobilität
Greg-Rutkowski-Recycling #fotografie #ki
Whisper: Das schweizer Sprach-Messer #news #ki
Babelfisch oder Akzent-Whitewashing? #ki

## Die Hausmeisterei

Ja, Holgi und ich mussten viel lachen bei der heutigen Aufnahme. Und junge, was kann der Mann ranten... Das sind aber auch Themen.. von den Kackhörnchen bis zur verkackten Einführung von Fiats Elektro-Dukato, ihren elektrischen Transporter. Die Autohändler der Region Hannover machen einen eher halbgaren E-Mobilitäts-Event (aka Werbeverkaufsveranstaltung nach etabliertem Muster), Herr Rutkowski wirft Fragen auf, OpenAI wirft tatsächlich mal was in die Open Source, und zwar etwas wirklich interessantes und Sanas wäscht Sprache um.

Wir hatten Spaß beim Aufnehmen. Ihr hoffentlich auch beim Hören!

Haut rein!

## Rangeflanschte Teile: Der E-Ducato

(Quelle: https://www.heise.de/tests/Test-Fiat-E-Ducato-Elektrischer-Transporter-auf-Lorbeerruhe-7258436.html (Öffnet in neuem Fenster))

Kommentar:

Heise hat den Fiat E-Ducato probegefahren. Gerade für Camping-Umbauten bieten sich die großen elektrischen Transporter ja an. Sollte man meinen. Der von Fiat vorgestellte Verbrenner-Umbau scheint da allerdings an vielen Stellen zu kurz zu springen. Das beginnt mit der dünnen Maximal-Ladeleistung, die mit 50kW DC (aufpreispflichtig und auch nur auf dem Papier, in der Realität liegt sie sogar noch darunter) nicht wirklich langstreckentauglich ist. Das geht weiter mit der Ladestandanzeige, die gänzlich ungedämpft mehr verwirrt als hilft. Bis hin zu Dingen wie der nachträglich angeflanschten Ladeanzeige, der Höchstgeschwindigkeit, die zwar mit 100km/h angegeben ist, aber die 90 nicht überschreitet, während sie im Tacho trotzdem 100 anzeigt, ... das Fahrzeug scheint nicht wirklich zu überzeugen.

Kurz gesagt: Finger weg. Die Konkurrenz scheint da schon deutlich weiter (Öffnet in neuem Fenster).

🥳 Feedback zum Thema? Hier lang (Öffnet in neuem Fenster)!

## Werbeverkaufsveranstaltung hart am Ziel vorbei

Kommentar:

Wir (Moni und ich) haben letztes Wochenende die E-Days in Hannover besucht. 10 Minuten waren uns dann aber doch genug, denn statt die Menschen nachhaltig für das Thema E-Mobilität zu begeistern, präsentierte sich der Event als nicht ganz zu Ende gedachte Händler-Werbe-Verkaufs-Veranstaltung, bei der noch nicht mal die vor Ort befindlichen Ladesäulen für Besucher nutzbar waren.

Neben dem Gespräch hier im CM MAGAZIN gibt es auch noch eine etwas zeitnähere Folge Abzug FM (Öffnet in neuem Fenster) vom Villa-Küchentisch

Nicht mal den E-Manta konnten wir probesitzen...

🥳 Feedback zum Thema? Hier lang (Öffnet in neuem Fenster)!

## Greg-Rutkowski-Recycling

(Quelle: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/ (Öffnet in neuem Fenster))

Kommentar:

Reden wir nochmal kurz über Greg Rutkowski. Greg Rutkowski ist nicht glücklich. Der digital artist, der im Phantasy-Bereich bekannt ist und bei vielen KI-Prompts dafür sorgt, dass die erzeugten Bilder epischer werden, ist selbst kein großer Freund der KI. Anfänglich noch neugierig, ob ihn das bekannter macht, ist er mittlerweile noch nicht mal mehr einfach in der Lage, seine eigene Kunst online zu suchen bzw. zu finden, weil sein Stil besonders gerne per StableDiffusion, Midjourney usw. kopiert wird.

Laut lexica.art (Öffnet in neuem Fenster) taucht sein Name in Prompts mit Abstand häufiger auf, als z.B. Picasso, Michelangelo oder Leonardo da Vinci.

Das kommt natürlich u.a. daher, dass er als Künstler viele Bilder mit entsprechendem Text (Titel, Beschreibung) online hat, vor allem auf artstation und die Trainingsdaten genau diese Bilder-/Textpaare am meisten benötigen.

Meine Prophezeiung: irgendwann haben wir uns an Rutkowski-esker Kunst sattgesehen, dann schwingt das Pendel in die andere Richtung.

Außerdem (hier das food for thought): Aktuell trainiert KI basierend auf mensch-gemachten Dingen. Je mehr KI-generierte Daten online sind, desto mehr recycling. Wo führt das hin? Habt ihr eine Idee?

🥳 Feedback zum Thema? Hier lang (Öffnet in neuem Fenster)!

## Whisper: Das schweizer Sprach-Messer

(Quelle: https://openai.com/blog/whisper/ (Öffnet in neuem Fenster))

Kommentar:

Versteht Siri euch gut? Alexa? Warum das manchmal holpert, liegt auch daran, dass die zugehörigen multi-lingualen Sprachmodelle zu groß sind, um sie komplett lokal auf dem Smartphone laufen könnten. Geschweige auf der Smartwatch. Das muss übers Netz und im Rechenzentrum verarbeitet werden. Auch bei der Transkription kommt erst langsam Zug dahinter. Seit iOS 16 kann Apple jetzt auch Zeichensetzung, ohne, dass sie diktiert werden muss, aber perfekt ist das immer noch nicht.

Auch als Podcaster würden wir uns über eine gut funktionierende Transkription unserer Produktionen freuen, alleine schon aus SEO-Gründen. Google durchsucht nun mal am besten Text.

OpenAI hat jetzt Whisper veröffentlicht (Öffnet in neuem Fenster). Das ist ein neuronales Netz, das mit 680.000 Stunden Audio trainiert wurde. Mehrsprachig und Open Source. Ja, OpenAI macht jetzt auch OpenSource. Zumindest mit Whisper.

Lt. den ersten Versuchen ist Whisper zwar noch eher Englisch-zentrisch, ist aber auf Deutsch nicht weit hinterher, erkennt Sprache, bestimmt Sprachen ("das ist griechisch"), kann gut mit Akzenten und Nebengeräuschen umgehen, transkribiert und übersetzt. Letzteres zunächst nur ins Englische.

Auch hier tut sich für mich die Frage auf, welche Berufsgruppen sich vielleicht jetzt schon langsam auf Veränderungen einstellen sollten. Firmen, die Transkription anbieten wären da aus meiner Sicht ganz vorne. Denn Whisper soll das in ähnlicher Qualität können, wie der Mensch.

Nochmal kurz zum Open-Source-Aspekt. Meines Wissens ist das das erste Mal, dass OpenAI ein komplettes Modell inkl. Code in die Open Source gibt. Unter MIT-Lizenz. Ich kann nur vermuten, dass das vielleicht eine Reaktion auf StableDiffusion ist.

Andrej Karpathy (einer der Götter im Bereich KI) ist übrigens von Whisper auch sehr angetan (Öffnet in neuem Fenster). Er nennte es ein "speech recognition swiss army knife"

🥳 Feedback zum Thema? Hier lang (Öffnet in neuem Fenster)!

## Babelfisch oder Akzent-Whitewashing?

(Quelle: https://www.vice.com/en/article/akek7g/this-startup-is-selling-tech-to-make-call-center-workers-sound-like-white-americans (Öffnet in neuem Fenster))

Kommentar:

Sanas hat eine KI entwickelt (Öffnet in neuem Fenster), mit der sich Akzente in Echtzeit verändern lassen. In der Demo auf ihrer Website spricht ein Call-Center-Mitarbeiter mit deutlich indischem Akzent. Auf Knopfdruck verschwindet der Akzent und klingt amerikanisch.

Die BBC hat nachgefragt (Öffnet in neuem Fenster), ob das nicht Whitewashing sei. Die Entwickler wehren sich gegen den Vorwurf: "all four of the founders were immigrants and so were 90% of the company's employees." Sie geben vielmehr an, dass die Diskriminierung in Callcentern wegen eines Akzentes ein echtes Problem sei. "A former call centre agent himself, Mr Narayana said in his experience agents would be abused or discriminated against because of how they sound - abuse the company believes its technology can prevent."

Auf die Frage, ob das nicht dem Rassismus in die Hand spiele, antwortet Mr Narayana: "Should the world be a better place? Absolutely yes. Should the world be more accepting of diversity and accent? Absolutely yes.

"But call centres have been around for 45 years and every day an agent goes through this discrimination on every single call."

Aber auch mit Sanas.ai ist nicht alles gut. Probleme, die Sanas löst: Akzent. Probleme, die Sanas nicht löst: Grammatik, Lingo, Slang.

Warten wir mal noch darauf, dass Whisper echtzeitfähig wird, dann haben wir den Universal-Translater aka Babelfish.

Ob der uns allerdings wirklich voran bringt? Douglas Adams hatte da ja eine andere Befürchtung: "Meanwhile, the poor Babel fish, by effectively removing all barriers to communication between different races and cultures, has caused more and bloodier wars than anything else in the history of creation." (The Hitchhiker's Guide to the Galaxy, Douglas Adams (Öffnet in neuem Fenster))

🥳 Feedback zum Thema? Hier lang (Öffnet in neuem Fenster)!

## Und Tschüs

🥳🥳🥳 Feedback zu irgendeinem der Themen? Hier lang (Öffnet in neuem Fenster)!

Während ich noch so vor mich hinschreibe habe ich es nebenher geschafft, mir Whisper hier zu installieren. Auf einem Intel-iMac-Pro. Da der keine KI-Hardware an Bord hat, ist es entsprechend wirklich langsam, die Ergebnisse sind dafür tatsächlich erstaunlich gut. Hier mal der Anfang einer Transkription des letzten Segments dieser Sendung, wo wir über Sanas.ai gesprochen haben:

[00:00.000 --> 00:05.080] So, lass uns noch kurz noch eins aus dem KI und Sprachbereich machen,
[00:05.200 --> 00:06.640] bevor wir da fertig sind.
[00:06.760 --> 00:07.760] Und zwar...
[00:08.680 --> 00:10.600] Da bin ich kürzlich so erstaunt,
[00:10.720 --> 00:13.520] ich fand das hochinteressant und hochkontrovers.
[00:13.640 --> 00:17.400] Sanas.ai ist eine Firma, die macht...
[00:18.920 --> 00:19.920] ähm...
[00:21.040 --> 00:23.920] Akzentverschiebung in Echtzeit.
[00:24.560 --> 00:28.320] Also, so wie du in manche Bildkis ein Winterbild reinschicken kannst
[00:28.320 --> 00:30.320] und du sagst, mach mal Sommer draus,
[00:30.440 --> 00:33.800] kannst du da mit einem starken Akzent reinsprechen
[00:33.920 --> 00:35.120] und es kommt ein...
[00:35.240 --> 00:36.240] Ah!

Boy oh boy. Ich bin doch sehr positiv überrascht, was das Ding auf Anhieb hin bekommt. Jetzt stellt euch das mal mit getrennten Sprachspuren ohne mein Durcheinander-Gestammel vor. Puh. Weiter beobachten.

Ich jetzt so: Wochenende, ihr jetzt so: brav sein! (und vielleicht mal schauen, ob so eine Mitgliedschaft beim CM MAGAZIN vielleicht ja..)

PS: Du kannst dieses Magazin gratis lesen, aber gerne auch finanziell unterstützen. Dafür bekommst Du einen persönlichen Feed für Deinen Podcast-Player.