Angesichts der steigenden Zahl von Ankündigungen immer neuer und leistungsfähigerer KI-Agenten fällt es immer schwerer die Übersicht zu behalten und die Gültigkeit der jeweiligen Aussagen zu überprüfen. Um hier Abhilfe zu schaffen, stehen mittlerweile einige Frameworks für die Evaluierung von KI-Agenten zur Verfügung.
Ein Beispiel hierfür ist TAU von Sierra. Beim TAU (𝜏) -Benchmark werden Agenten bei der Erledigung komplexer Aufgaben getestet, während sie sich mehrfach mit LLM-simulierten Benutzern austauschen, um die erforderlichen Informationen zu sammeln.
Weitere Informationen zum Testaufbau:
Auf einer hohen Ebene misst 𝜏-bench die Fähigkeit eines Agenten, mit (simulierten) menschlichen Nutzern und programmatischen APIs zu interagieren, während er domänenspezifische Richtlinien in konsistenter Weise befolgt. Der Benchmark enthält mehrere Aufgaben zum Testen von Agenten, die auf einem modularen Rahmen mit (1) realistischen Datenbanken und Tool-APIs, (2) domänenspezifischen Richtliniendokumenten, die das vom Agenten geforderte Verhalten vorgeben, und (3) einem LLM-basierten Benutzersimulator, der durch Anweisungen für verschiedene Szenarien geführt wird, um realistische Benutzeräußerungen mit dem Agenten zu erzeugen.(in: 𝜏-Bench: Benchmarking AI agents for the real-world).
Das Testresultat:
Die meisten KI-Agenten sind relativ einfach aufgebaut und verwenden vorwiegend Funktionsaufrufe oder das ReAct-Framework, bei dem der LLM API-Aufrufe zur Durchführung von Aktionen generiert. Als ersten Einsatz von 𝜏-bench haben wir diese Arten von KI-Agenten mit 12 gängigen LLMs, sowohl proprietären als auch offenen Modellen, evaluiert. Wir stellen fest, dass alle 12 getesteten Agenten Schwierigkeiten haben, Aufgaben im 𝜏-bench zu lösen, wobei selbst der leistungsstärkste GPT-4o-Agent eine durchschnittliche Erfolgsquote von <50% in den beiden Domänen erreicht.(ebd.)
In Bezug auf die Zuverlässigkeit schnitten alle getesteten Agenten extrem schlecht ab.So waren sie nicht in der Lage, bei einer Wiederholung der Episode durchgängig genau dieselbe Aufgabe zu lösen:
Zum Beispiel fällt der Agent mit GPT-4o auf ~25% bei Pass^8 in 𝜏-retail, was einen atemberaubenden Rückgang von 60% im Vergleich zu seinem entsprechenden Pass^1 Ergebnis bedeutet. In der Praxis bedeutet dies, dass der Agent nur eine 25 %ige Chance hat, 8 Fälle desselben Problems mit verschiedenen Kunden zu lösen - eine Zahl, die weit hinter den Erwartungen an einen realen Agenten mit Kundenkontakt zurückbleibt(ebd.).
Sierra hat drei Anforderungen für den erfolgreichen Test und Einsatz von KI-Agenten definiert(Vgl. dazu: The Agent Development Life Cycle):
- Agenten müssen über einen längeren Zeitraum nahtlos mit Menschen und APIs interagieren, um Informationen zu sammeln und komplexe Aufgaben zu lösen
- Agenten müssen in der Lage sein, komplexe, aufgabenspezifische Richtlinien und Regeln genau zu befolgen.
- Agenten müssen im großen Umfang konsistent und zuverlässig sein, damit Unternehmen sicher sein können, wie sie sich verhalten
Die Ergebnisse weisen drauf hin, dass Unternehmen anspruchsvollere Agentenarchitekturen benötigen. Weiterhin sind neue Methoden erforderlich, um das Annotieren durch den Einsatz automatisierter Werkzeuge zu erleichtern ebenso wie feinere Bewertungsmaßstäbe, um andere Aspekte des Verhaltens eines Agenten, wie z.B. seinen Ton und Stil, zu testen.
Weitere Informationen:
Sierra’s new benchmark reveals how well AI agents perform at real work
Kommentar hinzufügen
Kommentare