Welcome to KI-Agenten   Klicken, um den Text zu hören Welcome to KI-Agenten

Google Deep­Mind hat mit FACTS Ground­ing einen neuen Bench­mark einge­führt, der darauf abzielt, die fak­tis­che Genauigkeit von großen Sprach­mod­ellen (LLMs) bei der Gener­ierung von Antworten auf der Grund­lage län­ger­er Doku­mente zu bew­erten. Dieser Bench­mark soll das anhal­tende Prob­lem der Hal­luz­i­na­tio­nen bei LLMs ange­hen, bei denen es sich um fak­tisch unge­naue oder erfun­dene Antworten han­delt.

FACTS Ground­ing umfasst einen Daten­satz von 1.719 Beispie­len, die lange Antworten auf der Basis eines gegebe­nen Kon­texts erfordern, und bew­ertet die Fähigkeit der Mod­elle, lange Doku­mente zu ver­ar­beit­en und umfassende, zuor­den­bare Antworten zu gener­ieren. Der Bew­er­tung­sprozess erfol­gt in zwei Phasen: zunächst eine Eig­nung­sprü­fung, gefol­gt von ein­er Fak­ten­prü­fung, die von drei LLM-Bew­ert­ern durchge­führt wird: Gem­i­ni 1.5 Pro, GPT-4o und Claude 3.5 Son­net. Zum Zeit­punkt der let­zten Aktu­al­isierung führt Gem­i­ni 2.0 Flash die FACTS-Ran­gliste mit ein­er Fak­tiz­itäts­be­w­er­tung von 83,6% an, gefol­gt von anderen leis­tungsstarken Mod­ellen von Google, Anthrop­ic und Ope­nAI, die alle eine Genauigkeit von über 61,7% aufweisen.

Die Forsch­er beto­nen, dass Fak­tiz­ität und Ver­ankerung für den zukün­fti­gen Erfolg und die Nüt­zlichkeit von LLMs entschei­dend sind. Google Deep­Mind plant, die Ran­gliste aktiv zu pfle­gen und zu aktu­al­isieren, um neue Mod­elle und Iter­a­tio­nen einzubeziehen, wobei sie anerken­nen, dass Bench­marks auf­grund des raschen Fortschritts in der KI schnell ver­al­ten kön­nen.

Quelle:

Google Deep­Mind researchers intro­duce new bench­mark to improve LLM fac­tu­al­i­ty, reduce hal­lu­ci­na­tions

FACTS Ground­ing: A new bench­mark for eval­u­at­ing the fac­tu­al­i­ty of large lan­guage mod­els

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Klicken, um den Text zu hören