EXP-Bench: Der Prüfstand für autonome KI-Forschung
EXP-Bench ist ein neuartiger Benchmark, der entwickelt wurde, um die Fähigkeit von KI-Agenten, vollständige, End-to-End-KI-Forschungsexperimente durchzuführen, rigoros zu bewerten. Er befasst sich mit der aktuellen Einschränkung, dass KI-Agenten, obwohl sie…