Google DeepMind hat einen bedeutenden Fortschritt in der generativen künstlichen Intelligenz angekündigt und seine neue Video-to-Audio (V2A)-Technologie vorgestellt, mit der synchronisierte Soundtracks für stumme Videoclips erstellt werden können. Diese Entwicklung, die zusammen mit einem aktualisierten Imagen 3-Modell mit erweiterten Videogenerierungsfunktionen angekündigt wurde, markiert Googles jüngsten Schritt im hart umkämpften Rennen um die Entwicklung leistungsstarker multimodaler KI-Systeme.
Die Kerninnovation V2A befasst sich mit einer kritischen Herausforderung KI-generierter Medien: der Erstellung realistischen und kontextgerechten Audios. Die Technologie kombiniert Videopixel mit natürlichen Sprachtexten, um ausdrucksstarke Klanglandschaften zu erzeugen. Beispielsweise könnte ein Nutzer ein stummes Video einer Verfolgungsjagd und eine Aufforderung wie „Reifenquietschen, intensive Actionfilmmusik, Sirenen in der Ferne“ bereitstellen, woraufhin die KI eine vollständige, synchronisierte Audiospur erstellt. Dies geht über einfache Soundeffekte hinaus und umfasst alles von Umgebungsgeräuschen und Musik bis hin zu simulierten Dialogen, die zum Timing und zur Stimmung der Bildschirmhandlung passen.
Laut Google wurde diese Technologie anhand eines riesigen Datensatzes aus Videos, Audioclips und den dazugehörigen Transkripten trainiert. Dadurch ist sie in der Lage, bestimmte visuelle Hinweise mit den daraus resultierenden Klängen zu verknüpfen. Das Unternehmen positioniert V2A als leistungsstarkes Tool für Kreative, das den Zeit- und Kostenaufwand für Sounddesign, Geräuschemacherei und Vertonung drastisch reduzieren könnte.
Die Ankündigung ist eine direkte Kampfansage an Konkurrenten wie OpenAI, deren Sora-Modell zwar mit seiner hochauflösenden Videogenerierung überzeugte, aber keine integrierte Audiolösung bot. Durch die Kombination der verbesserten Videogenerierung mit V2A will Google ein umfassenderes und immersiveres Tool zur Inhaltserstellung bereitstellen.
Wie bei anderen leistungsstarken generativen Technologien geht Google bei der Bereitstellung vorsichtig vor. Die mit V2A generierten Audiodateien werden mithilfe der SynthID-Technologie mit einem Wasserzeichen versehen, um Transparenz zu gewährleisten. Zunächst steht das Tool nur einer ausgewählten Gruppe vertrauenswürdiger Entwickler zum Testen und für Feedback zur Verfügung, bevor eine breitere Veröffentlichung in Betracht gezogen wird.


