Getting your Trinity Audio player ready...

EXP-Bench ist ein neuar­tiger Bench­mark, der entwick­elt wurde, um die Fähigkeit von KI-Agen­ten, voll­ständi­ge, End-to-End-KI-Forschung­sex­per­i­mente durchzuführen, rig­oros zu bew­erten. Er befasst sich mit der aktuellen Ein­schränkung, dass KI-Agen­ten, obwohl sie in einzel­nen Auf­gaben wie Code-Gener­ierung oder Hypothe­sen­for­mulierung vielver­sprechend sind, mit der Kom­plex­ität ganzheitlich­er exper­i­menteller Arbeitsabläufe zu kämpfen haben1EXP-Bench: Can AI Con­duct AI Research Exper­i­ments?

Der Bench­mark umfasst 461 KI-Forschungsauf­gaben, die aus 51 ein­flussre­ichen, von Fach­leuten begutachteten KI-Pub­lika­tio­nen (wie NeurIPS und ICLR 2024) und den zuge­höri­gen Open-Source-Code­basen kuratiert wur­den. Diese Auf­gaben fordern die Agen­ten her­aus, Hypothe­sen zu for­mulieren, exper­i­mentelle Ver­fahren zu entwer­fen und zu imple­men­tieren, sie auszuführen und Ergeb­nisse zu analysieren, alles basierend auf ein­er vorgegebe­nen Forschungs­frage, ein­er über­ge­ord­neten Meth­ode und Start­code. Eine semi-autonome Pipeline wurde entwick­elt, um diese kom­plex­en exper­i­mentellen Details aus wis­senschaftlichen Arbeit­en und Code zu extrahieren und zu struk­turi­eren.

Erste Evaluierun­gen führen­der KI-Agen­ten, darunter Open­Hands und Iter­a­tiveAgent, auf EXP-Bench zeigten erhe­bliche Eng­pässe. Während die Agen­ten Teilleis­tun­gen erbracht­en und bei einzel­nen exper­i­mentellen Aspek­ten wie Design- oder Imple­men­tierungsko­r­rek­theit Werte von 20–35 % erre­icht­en, betrug ihre Erfol­gsquote für voll­ständi­ge, aus­führbare Exper­i­mente lediglich 0,5 %. Häu­fige Fehler­muster umfassten Schwierigkeit­en bei der Konzep­tion solid­er exper­i­menteller Designs, der Umset­zung abstrak­ter Method­olo­gien in kor­rek­te Code-Imple­men­tierun­gen und der Sich­er­stel­lung ein­er robusten und repro­duzier­baren Aus­führung auf­grund von Umge­bungs- oder Skript­fehlern.

Durch die Iden­ti­fizierung dieser kri­tis­chen Schwach­stellen und die Bere­it­stel­lung real­is­tis­ch­er, schrit­tweis­er Exper­i­mentver­fahren dient EXP-Bench als wichtiges Werkzeug, um zukün­ftige KI-Agen­ten bei der Verbesserung ihrer Fähigkeit zur Durch­führung von KI-Forschung­sex­per­i­menten anzuleit­en. Der Bench­mark ist Open-Source, um weit­ere Fortschritte in diesem Bere­ich zu fördern.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert