[KI] Jetzt singt sie auch noch
Heute möchte ich euch ein Video zeigen, dass einen kleinen Quantensprung zeigt. Die neue KI von OpenAI, GPT-4o, ist einen großen Sprung näher an einem „KI Assistenten“.
Was mich hier fasziniert, ist nicht, dass die KI singen kann. Sondern dass es einer ganzen Pipeline bedurfte, um früher Audio zu verarbeiten. GPT-4o vereint nun sowohl Audio —> Text —> KI Text —> Audio
Vorher hat man eine KI genutzt, um den User-Input (Sprache) in Text umzuwandeln. Dann hat man GPT-4 genutzt, um neuen Text zu generieren. Anschließend einen anderen Anbieter, um diesen neuen KI-Text in Sprache zu transferieren.
Das hat durch die Verknüpfung verschiedener Dienste ewig gedauert. 3-4 Sekunden, die ein natürliches Gespräch unmöglich machten.
Jetzt geht das alles mit nur einer KI.Wohl dank besserem Tokenizer und neuester GPU Power von Nvidia.
Funktionierende Anwendungen werden übernommen
Das Vorgehen von OpenAI ist hier ähnlich wie das von Amazon. Gut laufende Produkte verkauft Amazon lieber mit der eigenen Marke. (Opens in a new window) Stellen wir es uns als Handwerk vor:
OpenAI gibt der Branche einen Hammer. Die Branche baut daraus ein Haus und verkauft es an Kunden. Das erkennt OpenAI und verkauft nicht mehr nur den Hammer, sondern direkt das ganze Haus – und der Handwerker kann einpacken.
Leistungen von Unternehmen wie Elevenlabs sind somit infällig.
https://elevenlabs.io (Opens in a new window)Heute ist noch unklar, was die Branche mit dieser neuen Live-Multimodalität erstellen wird. Aber sicher ist, dass OpenAI die beste Idee demnächst einfach selbst verkaufen wird.