Getting your Trinity Audio player ready...
|
EXP-Bench ist ein neuartiger Benchmark, der entwickelt wurde, um die Fähigkeit von KI-Agenten, vollständige, End-to-End-KI-Forschungsexperimente durchzuführen, rigoros zu bewerten. Er befasst sich mit der aktuellen Einschränkung, dass KI-Agenten, obwohl sie in einzelnen Aufgaben wie Code-Generierung oder Hypothesenformulierung vielversprechend sind, mit der Komplexität ganzheitlicher experimenteller Arbeitsabläufe zu kämpfen haben1EXP-Bench: Can AI Conduct AI Research Experiments?
Der Benchmark umfasst 461 KI-Forschungsaufgaben, die aus 51 einflussreichen, von Fachleuten begutachteten KI-Publikationen (wie NeurIPS und ICLR 2024) und den zugehörigen Open-Source-Codebasen kuratiert wurden. Diese Aufgaben fordern die Agenten heraus, Hypothesen zu formulieren, experimentelle Verfahren zu entwerfen und zu implementieren, sie auszuführen und Ergebnisse zu analysieren, alles basierend auf einer vorgegebenen Forschungsfrage, einer übergeordneten Methode und Startcode. Eine semi-autonome Pipeline wurde entwickelt, um diese komplexen experimentellen Details aus wissenschaftlichen Arbeiten und Code zu extrahieren und zu strukturieren.
Erste Evaluierungen führender KI-Agenten, darunter OpenHands und IterativeAgent, auf EXP-Bench zeigten erhebliche Engpässe. Während die Agenten Teilleistungen erbrachten und bei einzelnen experimentellen Aspekten wie Design- oder Implementierungskorrektheit Werte von 20–35 % erreichten, betrug ihre Erfolgsquote für vollständige, ausführbare Experimente lediglich 0,5 %. Häufige Fehlermuster umfassten Schwierigkeiten bei der Konzeption solider experimenteller Designs, der Umsetzung abstrakter Methodologien in korrekte Code-Implementierungen und der Sicherstellung einer robusten und reproduzierbaren Ausführung aufgrund von Umgebungs- oder Skriptfehlern.
Durch die Identifizierung dieser kritischen Schwachstellen und die Bereitstellung realistischer, schrittweiser Experimentverfahren dient EXP-Bench als wichtiges Werkzeug, um zukünftige KI-Agenten bei der Verbesserung ihrer Fähigkeit zur Durchführung von KI-Forschungsexperimenten anzuleiten. Der Benchmark ist Open-Source, um weitere Fortschritte in diesem Bereich zu fördern.