Google DeepMind stellt CAT3D vor, eine KI, die 3D-Modelle aus einem einzigen Bild erstellt

Google DeepMind hat CAT3D vorgestellt, ein bahnbrechendes generatives KI-Modell, das hochwertige dreidimensionale Modelle aus einem einzigen 2D-Bild erstellen kann. Die Technologie, die in einem Forschungspapier und einer Demonstration vorgestellt wurde, stellt einen bedeutenden Fortschritt in der KI-gesteuerten Content-Erstellung dar und verspricht, die Arbeitsabläufe für Entwickler, Designer und Künstler zu vereinfachen und zu beschleunigen.

Im Gegensatz zu herkömmlichen Methoden wie der Photogrammetrie, die mehrere Bilder aus verschiedenen Winkeln zur Konstruktion eines 3D-Objekts benötigen, verwendet CAT3D (Context-Aware Transformers for 3D) einen neuartigen diffusionsbasierten Ansatz. Das Modell wurde anhand eines riesigen Datensatzes von Bildern und den dazugehörigen 3D-Formen trainiert, wodurch es die vollständige Geometrie eines Objekts aus einem einzigen Blickwinkel ableiten kann. Es kann nicht nur die sichtbaren Teile eines Objekts generieren, sondern auch die unsichtbaren Seiten plausibel synthetisieren und so ein vollständiges und kohärentes 3D-Netz erstellen.

In Demonstrationen lieferte CAT3D in Sekundenschnelle beeindruckende Ergebnisse und wandelte Fotos von Haushaltsgegenständen bis hin zu komplexen Architekturelementen in detaillierte 3D-Objekte um. Das Modell kann außerdem mehrere Variationen desselben Eingabebildes generieren und bietet Entwicklern so eine große Auswahl an Optionen.

Die Auswirkungen auf Branchen wie Gaming, Augmented Reality (AR), E-Commerce und Industriedesign sind tiefgreifend. Spieleentwickler könnten virtuelle Welten schnell mit einzigartigen Assets füllen, während Online-Händler interaktive 3D-Vorschauen ihrer Produkte anbieten könnten. Diese Innovation positioniert Google als wichtigen Akteur im aufstrebenden Bereich der generativen 3D-KI und konkurriert mit spezialisierten Startups wie Luma AI und etablierten Unternehmen, die in ähnliche Forschung investieren. Obwohl CAT3D noch nicht als öffentlich zugängliches Tool verfügbar ist, signalisiert es Googles Absicht, ein umfassendes Ökosystem kreativer KI-Tools über die Text- und Bildgenerierung hinaus aufzubauen.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

de_DEDeutsch
Nach oben scrollen