Zum Hauptinhalt springen

[KI] Jetzt singt sie auch noch

Heute möchte ich euch ein Video zeigen, dass einen kleinen Quantensprung zeigt. Die neue KI von OpenAI, GPT-4o, ist einen großen Sprung näher an einem „KI Assistenten“.

Was mich hier fasziniert, ist nicht, dass die KI singen kann. Sondern dass es einer ganzen Pipeline bedurfte, um früher Audio zu verarbeiten. GPT-4o vereint nun sowohl Audio —> Text —> KI Text —> Audio

Vorher hat man eine KI genutzt, um den User-Input (Sprache) in Text umzuwandeln. Dann hat man GPT-4 genutzt, um neuen Text zu generieren. Anschließend einen anderen Anbieter, um diesen neuen KI-Text in Sprache zu transferieren.

Das hat durch die Verknüpfung verschiedener Dienste ewig gedauert. 3-4 Sekunden, die ein natürliches Gespräch unmöglich machten.

Jetzt geht das alles mit nur einer KI.Wohl dank besserem Tokenizer und neuester GPU Power von Nvidia.

Funktionierende Anwendungen werden übernommen

Das Vorgehen von OpenAI ist hier ähnlich wie das von Amazon. Gut laufende Produkte verkauft Amazon lieber mit der eigenen Marke. (Öffnet in neuem Fenster) Stellen wir es uns als Handwerk vor:

OpenAI gibt der Branche einen Hammer. Die Branche baut daraus ein Haus und verkauft es an Kunden. Das erkennt OpenAI und verkauft nicht mehr nur den Hammer, sondern direkt das ganze Haus – und der Handwerker kann einpacken.

Leistungen von Unternehmen wie Elevenlabs sind somit infällig.

https://elevenlabs.io (Öffnet in neuem Fenster)

Heute ist noch unklar, was die Branche mit dieser neuen Live-Multimodalität erstellen wird. Aber sicher ist, dass OpenAI die beste Idee demnächst einfach selbst verkaufen wird.

Hier nun das Video, schon vorgespult zum Duett:

https://youtu.be/MirzFk_DSiI?si=VY02dnI26L9Q3qd3&t=261 (Öffnet in neuem Fenster)

0 Kommentare

Möchtest du den ersten Kommentar schreiben?
Werde Mitglied von Kulturmarketing » Mehr Tickets verkaufen | Holger Kurtz und starte die Unterhaltung.
Mitglied werden