Stability AI hat Stable Diffusion 3 Medium, sein bisher fortschrittlichstes Text-zu-Bild-Modell mit offenen Gewichten, offiziell veröffentlicht. Das neue Modell mit zwei Milliarden Parametern schafft ein entscheidendes Gleichgewicht zwischen hochpräziser Bilderzeugung und Recheneffizienz und macht es damit einem breiteren Publikum von Entwicklern, Künstlern und Enthusiasten zugänglich.
Im Gegensatz zu seinem deutlich größeren, unveröffentlichten Gegenstück ist SD3 Medium speziell für den effektiven Betrieb auf Standard-GPUs für Endverbraucher konzipiert und benötigt deutlich weniger VRAM. Dieser Schritt demokratisiert den Zugang zu modernster KI-Technologie und ermöglicht es Benutzern, das Modell lokal auf ihrer eigenen Hardware auszuführen, anstatt sich ausschließlich auf Cloud-basierte Dienste zu verlassen. Das Modell ist mit offenen Gewichten für die nicht-kommerzielle Nutzung verfügbar und kann von Hugging Face heruntergeladen werden. Für Unternehmensanwendungen ist auch eine kommerzielle Lizenz verfügbar.
Zu den wichtigsten Verbesserungen von Stable Diffusion 3 Medium gehören ein deutlicher Fortschritt im Fotorealismus und die Fähigkeit, Bilder mit präziser Typografie zu generieren – eine langjährige Herausforderung für Diffusionsmodelle. Laut Stability AI überwindet das Modell häufige Artefakte bei der Generierung realistischer Hände und Gesichter und erzeugt Bilder mit feineren Details und weniger Verzerrungen. Erreicht wird dies durch eine neue Multimodal Diffusion Transformer (MMDiT)-Architektur, die separate Gewichtungssätze für die Verarbeitung von Bild- und Sprachdarstellungen verwendet und so das konzeptionelle Verständnis des Modells und die endgültige Ausgabequalität verbessert.
Das Unternehmen arbeitete mit Nvidia zusammen, um die Leistung aller Stable Diffusion-Modelle mithilfe von Nvidias TensorRT zu verbessern und so optimierte Inferenzgeschwindigkeiten auf RTX-GPUs sicherzustellen. Mit dieser Version kann Stability AI direkt mit proprietären Modellen wie Midjourney und OpenAIs DALL-E 3 sowie anderen Open-Source-Alternativen konkurrieren und bietet der globalen Kreativ- und Entwickler-Community eine leistungsstarke, flexible und ressourcenschonende Option.


