Das KI-Sicherheits- und Forschungsunternehmen Anthropic hat einen bedeutenden Durchbruch in der Modellkontrolle nach dem Training erzielt. Es führt eine neue Technik ein, die präzise, „chirurgische“ Änderungen am Verhalten großer Sprachmodelle ermöglicht. Diese Methode, die auf dem Konzept des „Wörterbuchlernens“ basiert, könnte die Art und Weise revolutionieren, wie Entwickler Fehler, Verzerrungen und Schwachstellen in leistungsstarken KI-Systemen wie dem unternehmenseigenen Claude-Modell beheben.
Um das grundlegende Verhalten eines trainierten KI-Modells zu ändern – etwa um ein neu entdecktes Sicherheitsrisiko oder eine bestimmte schädliche Tendenz zu beseitigen –, ist üblicherweise ein kosten- und zeitintensiver Prozess erforderlich, bei dem das gesamte System anhand eines überarbeiteten Datensatzes neu trainiert wird. Der neue Ansatz von Anthropic umgeht diesen Prozess vollständig. Indem Forscher das riesige, komplexe Netzwerk der internen Parameter eines Modells in ein verständliches, für Menschen lesbares „Wörterbuch“ von Merkmalen abbilden, können sie die spezifischen Konzepte, die bestimmte Verhaltensweisen steuern, genau bestimmen und ändern. So könnten sie beispielsweise das Merkmal identifizieren, das einer Sicherheitslücke entspricht, die „Jailbreak“-Aufforderungen ermöglicht, und es deaktivieren, ohne die Leistung des Modells bei anderen Aufgaben zu beeinträchtigen.
In einem Begleitpapier zur Ankündigung demonstrierten Forscher von Anthropics, dass sie bestimmte gefährliche Fähigkeiten und unerwünschte Verzerrungen mit chirurgischer Präzision aus ihren Modellen entfernen können. Dieses Maß an granularer Kontrolle stellt einen großen Fortschritt für die Sicherheit und Ausrichtung von KI dar. Es bietet Entwicklern die Möglichkeit, auftretende Probleme schnell zu beheben und so KI-Systeme robuster und vertrauenswürdiger zu machen. Da KI-Modelle zunehmend in kritische Anwendungen integriert werden, sind diese gezielten Eingriffe unerlässlich, um ihr Verhalten zu steuern und sicherzustellen, dass sie wie vorgesehen funktionieren. Diese Forschung führt die Branche über die grobe Feinabstimmung hinaus und in eine anspruchsvollere Ära der KI-Wartung und -Kontrolle.


