Zum Hauptinhalt springen

#038 Tanz Tanz Diffusion

Heute zu Gast im CM MAGAZIN: Chris Marquardt (Öffnet in neuem Fenster) 

⬇️ Die 🎧-Podcast-Version zum Hören unten am Ende des Artikels ⬇️

Die Themen:

  • Tanzdiffusion #news #ki

  • Größenordnungen kleiner: 3D-Kompression mit KI #fotografie #ki

  • Steve Jobs aus der KI #ki

  • Wenn beim Einschalten die Lichter flackern #memorylane

## Die Hausmeisterei

Servus ihr. Ist gerade viel los hier, die Woche war anstrengend und meine Energie und Zeit hat zum remote aufnehmen einfach nicht mehr gereicht. Auch speziell heute nach der Gartenarbeit. Gartenarbeit... vielleicht werde ich ja doch noch erwachsen. Ich bin also heute mal mein eigener Gast, aber natürlich habe ich euch trotzdem ein paar hübsche Themen mitgebracht. 

Tauchen wir gleich mal ein.

## Tanzdiffusion

Dance Diffusion is a family of audio-generating machine learning models created by Harmonai, a community-driven organization with the mission of developing open-source generative audio tools for producers and musicians, and part of Stability AI.

(Quelle: https://twitter.com/Saboo_Shubham_/status/1586030035936464896 (Öffnet in neuem Fenster))

Kommentar:

Stability.ai (Öffnet in neuem Fenster) legt eins drauf und kündigt unter Harmonai.org jetzt DanceDiffusion an. Wo StableDiffusion sich ums visuelle Feld kümmert, gehen sie mit HarmonAI jetzt das Feld der Musik an. Und das mit markigen Sprüchen.

"Express your creativity without limitations", "Generate your own custom infinite sound libraries", "Bring the power back to the artists"

Was ist ein Diffusion-Model?

"It is a type of ML model that generates novel data by learning how to “destroy” (called “noising") and “recover” (called “de-noising") the data that the model is trained on."

Alle Diffusion-Modelle funktionieren ähnlich. Sie lernen, das Ausgangsmaterial Schritt für Schritt in Rauschen zu verwandeln und aus dem Rauschen dann das Ausgangsmaterial wieder zurück zu gewinnen. Nur dass es beim Erzeugen halt kein ursprüngliches Material gibt, sondern nur das Rauschen und ein wie auch immer geartetes Prompt.

Jetzt habe ich mich ja nicht nur viele Jahre mit Fotografie beschäftigt, sondern war auch schon immer im Audiobereich unterwegs. Ich habe Musik aufgenommen, abgemischt, gemastert. Von Folk über Jazz und Jazz Fusion bis zu Blues und Hiphop. Ich würde also mal behaupten, dass meine Ohren einigermaßen geschult sind. Und mit diesen Ohren habe ich mir jetzt mal diverse DanceDiffusion-Beispiele angehört. Im Moment sind das eher LoFi Beats. Und trotzdem kann ich schon erahnen, wohin das gehen wird.

Ob ich eine Einschätzung habe, wie schnell es in dem Bereich vorangehen wird? Sagen wir mal so: Bei den rasanten Entwicklungen in der KI in den letzten 10 Jahren überrascht mich tatsächlich gar nichts mehr. Deshalb sage ich mal, dass es vermutlich falsch wäre, über die aktuell eher mäßigen Ergebnisse von DanceDiffusion zu lachen.

Genauso, wie wir bei StableDiffusion eine Evolution sehen, werden wir das ziemlich sicher auch bei DanceDiffusion beobachten.

## Größenordnungen kleiner: 3D-Kompression mit KI

(Quelle: https://youtube.com/watch?v=CRlN-cYFxTk&feature=share)

Kommentar:

NeRFs stellen 3D-Szenen dar. Das ging ja bisher auch schon. DaBisher musste dazu aber 3D-Geometrie erzeugt werden und die zugehörigen Texturen. Selbst bei der Photogrammetrie (Öffnet in neuem Fenster) ist das so. Das ist aufwändig und vor allem auch sehr Speicherintensiv. NeRFs bauen für diese 3D-Szenen jeweils ein eigenes neuronales Netz. Und das ist nicht nur qualitativ gut, es kann auch Transparenzen und ist dabei um Größenordnungen kleiner als ein traditionelles 3D-Modell von gleicher Qualität.

Wir werden NeRFs überall sehen. Selbstverständlich in 3D-Welten, in Spielen, aber auch in kamera-basierten autonomen Fahrzeugen.

## Steve Jobs aus der KI

(Quelle: https://podcast.ai/ (Öffnet in neuem Fenster))

Kommentar:

Sprachsynthese basierend auf existierenden Sprecher:innen. Das geht mittlerweile sehr gut. Die Modelle sind besonders mit viel Trainingsdaten schon ganz schön brauchbar. Das beweisen podcast.ai, die eine Podcastfolge per KI gebaut haben. Da unterhält sich Joe Rogan mit Steve Jobs und zumindest beim ersten Reinhören erscheint das, was da zu hören ist recht plausibel.

Okay, Steve Jobs klingt - vermutlich aufgrund des Trainingsmaterials - halt vornehmlich so, wie er auf der Bühne geredet hat. Bei Joe Rogan gibt es deutlich mehr Konversationsmaterial, um das Netz zu trainieren.

Was bei podcast.ai noch dazu kommt: Auch die gesprochenen Texte kommen von einer KI. Konkret von GPT-3.

Denkt dran, das ist der Anfang. Was heute noch leicht unbeholfen und künstlich klingt, wird in kürzester Zeit soweit sein, dass wir das nicht mehr von echt unterscheiden können. Wenn die Kids heute schon Hausarbeiten per KI schreiben, die vom Lehrpersonal nicht mehr als künstlich erkannt werden können, dann wird das hier nicht anders laufen.

Was machen wir Podcaster dann? Das Chris-Modell wird sich dann je nach Podcast mit dem Boris-Modell und dem Henry-Modell und dem Jeremiah-Modell unterhalten. Alles was es dann noch braucht ist, dass die KI den Artikel liest, über den wir reden wollen und daraus dann ein Podcast-Segment baut. 

Ich spinne das mal weiter: Wir Menschen sind und bleiben Geschichten-geprägt. Nur werden diese Geschichten halt irgendwann nicht mehr von so Geschichtenerzählern wie Holgi, Thomas, Holger mir erzählt. Das wird alles auf den Geräten entstehen, die ihr mit euch rumtragt. Zentralisierte Podcasts wie dieser hier werden dann dezentral und Themen und Konversationen werden auf euch zugeschnitten. Stellt euch vor, ihr lest einen interessanten Artikel (der übrigens auch aus der KI kommt) und sagt dann eurem Gerät, dass ihr gerne eine Unterhaltung zwischen Holgi und Chris über diesen Artikel hättet.

## Wenn beim Einschalten die Lichter flackern

"All the old iPods and iPod classics up until the last one in 2009 also had hard drives. This was the standard for high capacity portable devices at the time because flash memory was so expensive"

(Quelle: https://reddit.com/r/EngineeringPorn/comments/y6yc0w/the_nokia_n91_phone_equipped_with_a_real_hard/ (Öffnet in neuem Fenster))

Kommentar:

Neulich flatterte mir ein kleines Video durch die Timeline. Und zwar das von einer Minaturfestplatte. Und die war ursprünglich im Nokia N91 verbaut.

Das N91 (Öffnet in neuem Fenster) war das erste Mobiltelefon, mit interner 4 GB Festplatte (später gab's auch eine Version mit 8 GB). Der erste Apple iPod kam ursprünglich 2001 mit 5GB auf den Markt. Damit ist das beim N91 nichts wirklich besonderes, ich finde es nur faszinierend, wie hier Technik miniaturisiert wurde. Besonders, wenn ich mir die ersten Festplatten anschaue, die auf der Größe von zwei Waschmaschinen gerade mal ein paar Megabyte (Öffnet in neuem Fenster) untergebracht haben.

Ich war selbst in den 90ern bei HP und habe dort im Firmen-Schrottverkauf eine alte Unix-Workstation mit Festplatte gekauft. Die war schon kleiner, aber auch eine Kiste, die wir zu zweit tragen mussten. Falls ich mich recht erinnere hatte die keine 100 Megabyte. Und wenn ich die zuhause angeschaltet habe, dann hat das Licht kurz geflackert, während der Motor den Plattenstapel hochgedreht hat.

## Und Tschüs

So, das war's schon. Ich freue mich wie immer über eure Unterstützung, auf cmmagazin.com (Öffnet in neuem Fenster)

Bis die Tage!

PS: Du kannst dieses Magazin gratis lesen, aber gerne auch finanziell unterstützen. Dafür bekommst Du einen persönlichen Feed für Deinen Podcast-Player und die Podcastfolgen vor allen anderen.

Der Podcast zum Hören. In dieser Folge zu Gast bei Chris Marquardt: Chris Marquardt

Mit Mitgliedschaft den Podcast sofort im eigenen Player hören, sonst ein paar Tage später hier. Deine Unterstützung finanziert dieses Projekt ❤️ 🙏

Zu den Paketen (Öffnet in neuem Fenster)

0 Kommentare

Möchtest du den ersten Kommentar schreiben?
Werde Mitglied von CM MAGAZIN und starte die Unterhaltung.
Mitglied werden