Benchmarks / Evaluierungstools - Seite 2

Können KI-Agenten an der Börse Geld verdienen? Ein neuer Benchmark zeigt die Grenzen auf

Oktober 3, 2025 admin Keine Kommentare

Trotz beeindruckender Fähigkeiten in Finanzfragen scheitern die meisten Large Language Models daran, in realen Märkten profitabel zu handeln. Der neue STOCKBENCH-Benchmark offenbart eine unbequeme Wahrheit: Wissen über Finanzen bedeutet noch…

Analyse Benchmarks / Evaluierungstools

APEX: Wie Eliten die KI-Revolution vermessen – und warum das ein Problem ist

Oktober 2, 2025 admin Keine Kommentare

McKinsey, Goldman Sachs, Top-Anwaltskanzleien und medizinische Einrichtungen haben einen neuen Benchmark entwickelt, um zu messen, ob KI ihre Arbeit übernehmen kann. Das Ergebnis: Die besten Modelle erreichen nur 64 Prozent.…

Benchmarks / Evaluierungstools

Das Rätsel der KI-Halluzinationen: Warum künstliche Intelligenz manchmal fantasiert

September 8, 2025 admin Keine Kommentare

Moderne Sprachmodelle beeindrucken mit ihrer Eloquenz, doch sie haben einen gefährlichen Hang zum Fabulieren. Warum erzeugen diese hochentwickelten Systeme plausible, aber völlig falsche Aussagen? Und wie können wir das Vertrauen…

Benchmarks / Evaluierungstools Bewertung nach dem KI-Agenten - Framework

Inclusion Arena: Ein praxisnahes Benchmark-System für KI-Modelle auf Basis realer Nutzungsszenarien

August 21, 2025 admin Keine Kommentare

Forscher von Inclusion AI, einer Alibaba Ant Group-Tochter, schlagen mit Inclusion Arena ein neues Benchmark- und Leaderboard-System vor, das sich auf reale Nutzungsszenarien und Nutzerpräferenzen konzentriert. Im Gegensatz zu herkömmlichen…

Agentenbasierte Automatisierung Benchmarks / Evaluierungstools Empfehlungen IT-Sicherheit

Agentic AI: Autonome Systeme für Effizienz, Sicherheit und Zuverlässigkeit

August 11, 2025 admin Keine Kommentare

Agentic AI erweitert die Fähigkeiten generativer KI, indem es autonome Aufgaben wie Reiseplanung, Buchungen oder Bestellungen eigenständig ausführt. Diese Technologie geht über die reine Textgenerierung hinaus und ermöglicht es, komplexe…

Benchmarks / Evaluierungstools Softwareentwicklung

AutoCodeSherpa: Symbolische Erklärungen stärken das Vertrauen in KI-Codierungsagenten

August 1, 2025 admin Keine Kommentare

Die Studie “AutoCodeSherpa: Symbolic Explanations in AI Coding Agents” stellt AutoCodeSherpa vor, ein Tool, das symbolische Erklärungen für Fehler in Software generiert, um die Vertrauenswürdigkeit und Akzeptanz von KI-gesteuerten Codierungsagenten…

Benchmarks / Evaluierungstools IT-Sicherheit

Wie Audit-Agenten KI-Verhalten verbessern

Juli 26, 2025 admin Keine Kommentare

Anthropic hat Audit-Agenten entwickelt, die während der Tests von Claude Opus 4 erstellt wurden. Diese Agenten verbesserten Alignment-Validierungen und ermöglichten skalierbare, parallele Audits. Drei untersuchte Agenten sind: Tool-using Investigator Agent:…

Benchmarks / Evaluierungstools Protokolle und Standards

MCPEval: Plattform zur Bewertung und Optimierung von KI-Agenten

Juli 23, 2025 admin Keine Kommentare

Unternehmen setzen zunehmend das Model Context Protocol (MCP) ein, um den Einsatz von Agenten-Tools effizient zu steuern. Salesforce-Forscher haben jedoch eine neue Anwendungsmöglichkeit von MCP entdeckt: die Bewertung von KI-Agenten.…

Benchmarks / Evaluierungstools

Pendo Agent Analytics: Messbare Leistung und Sicherheit für KI-Agenten

Juli 7, 2025 admin Keine Kommentare

Pendo hat mit Agent Analytics eine Lösung entwickelt, die die Leistung von KI-Agenten messbar macht. Die Software erfasst Metriken zum Nutzerverhalten, analysiert Konversationen, identifiziert Prompt-Trends und erkennt nicht-konformes Verhalten. Sie…

Benchmarks / Evaluierungstools Forschung

EMBODIED WEB AGENTS: Die Verschmelzung von physischer und digitaler KI-Intelligenz

Juni 21, 2025 admin Keine Kommentare

KI-Agenten sind derzeit oft isoliert: Sie können entweder digitale Informationen verarbeiten oder mit der physischen Welt interagieren, selten beides gleichzeitig. Diese Trennung schränkt ihre Fähigkeit ein, Aufgaben zu lösen, die…

Kategorie: Benchmarks / Evaluierungstools