Das Datenlabelling- und KI-Evaluierungsunternehmen Scale AI hat eine wegweisende Partnerschaft mit dem Chief Digital and Artificial Intelligence Office (CDAO) des US-Verteidigungsministeriums angekündigt, um einen nationalen Standard für das Testen und Evaluieren von Large Language Models (LLMs) zu entwickeln. Ziel der Zusammenarbeit ist die Schaffung eines staatlich geförderten, umfassenden Rahmens zur Bewertung der Leistung, Sicherheit und Zuverlässigkeit von KI-Modellen für militärische und verteidigungsbezogene Anwendungen.
Die Initiative, Teil der Task Force Lima des CDAO, nutzt eine angepasste Version der kommerziellen Evaluierungsplattform von Scale AI. Dies ermöglicht dem Verteidigungsministerium, verschiedene kommerzielle und Open-Source-LLMs anhand speziell für Verteidigungsszenarien entwickelter Kriterien rigoros zu testen und dabei über die üblichen akademischen Benchmarks hinauszugehen. Ziel ist die Entwicklung eines standardisierten „Bestanden/Nicht bestanden“-Systems, um festzustellen, ob ein KI-Modell für den Einsatz in sensiblen Operationen geeignet ist.
Dr. Matthew Johnson, Leiter der LLM-Evaluierung am CDAO, betonte die Notwendigkeit eines modellunabhängigen Rahmens. „Es geht darum, eine staatliche Test- und Evaluierungsfunktion zu schaffen, die es uns ermöglicht, zu verstehen, welches Modell das richtige Werkzeug für eine bestimmte Aufgabe ist“, erklärte Johnson. Der Rahmen wird Modelle anhand von Kennzahlen wie Genauigkeit, Fairness, Cybersicherheit und Widerstandsfähigkeit gegen feindliche Angriffe bewerten.
Diese Partnerschaft markiert einen bedeutenden Schritt hin zur Implementierung generativer KI in der US-Regierung. Durch die Etablierung eines vertrauenswürdigen, internen Evaluierungsstandards kann das US-Verteidigungsministerium leistungsstarke KI-Technologien sicherer und zuverlässiger integrieren. Sie trägt kritischen nationalen Sicherheitsbedenken Rechnung, indem sie sicherstellt, dass KI-Systeme vor ihrem Einsatz in Kontexten, in denen Zuverlässigkeit und Sicherheit oberste Priorität haben, gründlich geprüft werden. Die daraus resultierenden Standards könnten den zukünftigen Umgang anderer Regierungsbehörden und verbündeter Nationen mit der Einführung und Regulierung von KI beeinflussen.


