OpenAI verzögert erweiterte Sprach- und Videofunktionen für GPT-4o und beruft sich dabei auf Sicherheits- und technische Hürden -

OpenAI hat eine Verzögerung bei der Einführung der mit Spannung erwarteten erweiterten Sprach- und Videofunktionen für das GPT-4o-Modell angekündigt und begründet dies mit dem Bedarf an weiteren technischen und sicherheitsrelevanten Verbesserungen. Die neuen Funktionen, die im Mittelpunkt des „Spring Update“-Events des Unternehmens im Mai standen, waren ursprünglich für eine begrenzte Alpha-Version für ChatGPT Plus-Abonnenten in den kommenden Wochen vorgesehen.

In einer Stellungnahme erklärte das Unternehmen, dass es mehr Zeit benötige, um das Benutzererlebnis zu verbessern und die Sicherheitsmaßnahmen zu verstärken. „Wir verzögern die Einführung erweiterter Sprach- und Videofunktionen für alle Nutzer“, erklärte OpenAI. „Wir brauchen mehr Zeit, um diese Funktionen zu optimieren, unsere Modelle robuster zu machen und das Benutzererlebnis zu verbessern.“ Konkret arbeitet das Unternehmen daran, die Fähigkeit des Modells zu verbessern, bestimmte Inhalte in Echtzeitgesprächen zu erkennen und abzulehnen, und baut die notwendige Infrastruktur weiter aus, um Millionen von Nutzern zu unterstützen.

Die erste Demonstration des „Advanced Voice Mode“ zeigte eine KI, die in der Lage ist, emotional nuancierte Gespräche in Echtzeit zu führen, die Emotionen des Benutzers wahrzunehmen und auf natürliche Weise zu unterbrechen oder unterbrochen zu werden. Dies sorgte für große Begeisterung, warf aber auch Fragen zum Missbrauchspotenzial und den technischen Herausforderungen bei der Implementierung eines solchen Systems im großen Maßstab auf.

Während die erweiterten Audio- und Videofunktionen vorläufig für eine Veröffentlichung im Herbst geplant sind, bleiben die bestehenden Text- und Bildfunktionen von GPT-4o unberührt und stehen allen ChatGPT-Nutzern zur Verfügung. Dieser vorsichtige Ansatz signalisiert ein wachsendes Bewusstsein in der KI-Branche für die Komplexität des Übergangs von kontrollierten Demos zu robusten, sicheren und zuverlässigen, öffentlich zugänglichen Produkten. Die Verzögerung bietet Wettbewerbern wie Google mit seinem Projekt Astra und Apple mit der bevorstehenden Siri-Überarbeitung die Möglichkeit, aufzuholen oder ihre eigenen multimodalen Angebote zu verfeinern.

OpenAI verzögert erweiterte Sprach- und Videofunktionen für GPT-4o unter Berufung auf Sicherheits- und technische Hürden

Kommentar verfassen Kommentieren abbrechen

Verwandte Artikel

Kommentar verfassen Kommentieren abbrechen