Getting your Trinity Audio player ready...
|
Anthropic hat Audit-Agenten entwickelt, die während der Tests von Claude Opus 4 erstellt wurden. Diese Agenten verbesserten Alignment-Validierungen und ermöglichten skalierbare, parallele Audits. Drei untersuchte Agenten sind1Anthropic unveils ‘auditing agents’ to test for AI misalignment:
- Tool-using Investigator Agent: Nutzt Chat‑, Datenanalyse- und Interpretationswerkzeuge zur offenen Untersuchung von Modellen.
- Evaluation Agent: Führt Verhaltenstests durch und erkennt implantierte Verhaltensweisen in Modellen.
- Breadth-first Red-Teaming Agent: Entwickelt, um bei Claude 4 problematische Verhaltensweisen zu identifizieren.
Die Tests zeigten vielversprechende Ergebnisse, aber auch Einschränkungen, wie Schwierigkeiten bei der Erkennung subtiler Verhaltensauffälligkeiten oder komplexer Testfälle. Eine Kombination mehrerer Agenten konnte die Ergebnisse jedoch erheblich verbessern.
Alignment bleibt ein kritisches Thema, da Modelle wie ChatGPT durch übermäßige Nachgiebigkeit auffallen können. Benchmarks wie Elephant oder DarkBench wurden entwickelt, um problematische Verhaltensweisen wie Syphophanz oder schädliche Inhalte zu messen. Trotz der Unvollkommenheit von Audit-Agenten betont Anthropic die Dringlichkeit, jetzt skalierbare Alignment-Methoden einzusetzen.