Microsoft hat die allgemeine Verfügbarkeit von Phi-3-vision, dem ersten multimodalen Modell seiner Familie kleiner, kostengünstiger KI-Modelle, offiziell angekündigt. Das neue Modell mit 4,2 Milliarden Parametern kombiniert Sprach- und Bildfunktionen und ermöglicht so die Analyse von Text und Bildern. Dies stellt einen bedeutenden Fortschritt für KI-Anwendungen dar, die auf lokalen Geräten ausgeführt werden.
Im Gegensatz zu massiven Modellen, die umfangreiche Cloud-Computing-Ressourcen benötigen, ist die Phi-3-Familie auf Effizienz optimiert und ermöglicht leistungsstarke KI-Leistung auf Edge-Geräten wie Smartphones, Laptops und IoT-Hardware. Die Veröffentlichung von Phi-3-vision bringt anspruchsvolle multimodale Funktionen wie die Interpretation von Diagrammen, die Extraktion von Daten aus Diagrammen und das Verstehen von Bildinhalten direkt auf die Hardware des Benutzers. Diese geräteinterne Verarbeitung erhöht den Datenschutz und reduziert die Latenz, da sensible Daten nicht an einen zentralen Server gesendet werden müssen.
In einem Unternehmensblogbeitrag hob Microsoft die Fähigkeit des Modells hervor, allgemeine visuelle Denkaufgaben und OCR (Optical Character Recognition) aus Bildern durchzuführen. Entwickler können beispielsweise Anwendungen erstellen, mit denen Benutzer Fragen zu einem Diagramm oder einem Foto stellen und detaillierte, kontextbezogene Antworten erhalten können. Diese Fähigkeit eröffnet neue Anwendungsfälle in den Bereichen Barrierefreiheit, Bildung und Einzelhandel, wo eine schnelle, sofortige Analyse visueller Informationen entscheidend ist.
Das Modell ist ab sofort über das Microsoft Azure AI Studio und die Hugging Face-Plattform verfügbar und steht damit einem breiten Spektrum an Entwicklern und Forschern zur Verfügung. Die Einführung von Phi-3-vision unterstreicht den wachsenden Branchentrend hin zu kleineren, spezialisierteren KI-Modellen, die effizient und kostengünstig eingesetzt werden können. Sie stellen die Dominanz großer, allgemeiner Cloud-basierter Systeme in Frage und ebnen den Weg für eine neue Generation intelligenter, reaktionsschneller Anwendungen.


