Google DeepMind hat mit FACTS Grounding einen neuen Benchmark eingeführt, der darauf abzielt, die faktische Genauigkeit von großen Sprachmodellen (LLMs) bei der Generierung von Antworten auf der Grundlage längerer Dokumente zu bewerten. Dieser Benchmark soll das anhaltende Problem der Halluzinationen bei LLMs angehen, bei denen es sich um faktisch ungenaue oder erfundene Antworten handelt.
FACTS Grounding umfasst einen Datensatz von 1.719 Beispielen, die lange Antworten auf der Basis eines gegebenen Kontexts erfordern, und bewertet die Fähigkeit der Modelle, lange Dokumente zu verarbeiten und umfassende, zuordenbare Antworten zu generieren. Der Bewertungsprozess erfolgt in zwei Phasen: zunächst eine Eignungsprüfung, gefolgt von einer Faktenprüfung, die von drei LLM-Bewertern durchgeführt wird: Gemini 1.5 Pro, GPT-4o und Claude 3.5 Sonnet. Zum Zeitpunkt der letzten Aktualisierung führt Gemini 2.0 Flash die FACTS-Rangliste mit einer Faktizitätsbewertung von 83,6% an, gefolgt von anderen leistungsstarken Modellen von Google, Anthropic und OpenAI, die alle eine Genauigkeit von über 61,7% aufweisen.
Die Forscher betonen, dass Faktizität und Verankerung für den zukünftigen Erfolg und die Nützlichkeit von LLMs entscheidend sind. Google DeepMind plant, die Rangliste aktiv zu pflegen und zu aktualisieren, um neue Modelle und Iterationen einzubeziehen, wobei sie anerkennen, dass Benchmarks aufgrund des raschen Fortschritts in der KI schnell veralten können.
Quelle:
FACTS Grounding: A new benchmark for evaluating the factuality of large language models