Google DeepMind hat eine neue Video-zu-Audio-Technologie (V2A) vorgestellt, die synchronisierte Soundtracks für Stummfilme basierend auf natürlichen Sprachanweisungen generieren kann. Diese Innovation stellt einen bedeutenden Fortschritt in der generativen KI dar und geht über statische Bilder und Texte hinaus, um dynamisches, kontextabhängiges Audio zu erzeugen, einschließlich Soundeffekten, Musik und sogar Dialogen, die zum Sprachmuster der Charaktere passen.
Das V2A-System, das in einem Blogbeitrag des Unternehmens angekündigt wurde, analysiert die Pixel eines Videoclips und kombiniert diese visuellen Informationen mit der Textbeschreibung eines Benutzers, um eine reichhaltige, vielschichtige Klanglandschaft zu erzeugen. Beispielsweise erzeugt ein Hinweis wie „eine Verfolgungsjagd auf einer Schotterstraße mit dramatischer Action-Musik“ auf ein Stummvideo von zwei rasenden Autos das entsprechende Reifenknirschen, Motorengeräusch und die passende Musikuntermalung.
Ein entscheidender Durchbruch ist die Fähigkeit des Modells, synchronisierte Dialoge zu generieren. Indem dem System ein Transkript und ein stummes Video einer sprechenden Person zur Verfügung gestellt werden, kann die KI eine Stimme erzeugen, die dem Timing und der Kadenz des Schauspielers auf dem Bildschirm entspricht. Dies könnte die Synchronisations- und Postproduktionsabläufe für Filmemacher und Content-Ersteller erheblich optimieren.
Obwohl die potenziellen Anwendungen vielfältig sind – vom Hinzufügen von Ton zu historischen Archiven bis hin zur schnellen Inhaltserstellung – ist sich DeepMind der Notwendigkeit einer verantwortungsvollen Entwicklung bewusst. Um Missbrauchsrisiken zu minimieren, werden alle von V2A generierten Audiodaten mit SynthID, Googles proprietärem Tool zur Identifizierung KI-generierter Inhalte, mit einem Wasserzeichen versehen. Die Technologie ist noch nicht öffentlich verfügbar, da Google weitere Sicherheitsbewertungen durchführt, bevor eine breitere Veröffentlichung in Erwägung gezogen wird. Diese Entwicklung bringt Google in direkten Wettbewerb mit anderen KI-Laboren, die an der multimodalen Generierung arbeiten und die Grenzen dessen erweitern, was kreative KI leisten kann.


