Wie Audit-Agenten KI-Verhalten verbessern
Anthropic hat Audit-Agenten entwickelt, die während der Tests von Claude Opus 4 erstellt wurden. Diese Agenten verbesserten Alignment-Validierungen und ermöglichten skalierbare, parallele Audits. Drei untersuchte Agenten sind: Tool-using Investigator Agent:…