Getting your Trinity Audio player ready...

Forsch­er von Inclu­sion AI, ein­er Aliba­ba Ant Group-Tochter, schla­gen mit Inclu­sion Are­na ein neues Bench­mark- und Leader­board-Sys­tem vor, das sich auf reale Nutzungsszenar­ien und Nutzer­präferen­zen konzen­tri­ert. Im Gegen­satz zu herkömm­lichen Meth­o­d­en wie MMLU oder Open­LLM wer­den Mod­elle bei Inclu­sion Are­na in realen Anwen­dun­gen getestet, wobei Nutzer­ant­worten anonym bew­ertet wer­den1Stop bench­mark­ing in the lab: Inclu­sion Are­na shows how LLMs per­form in pro­duc­tion.


Das Sys­tem basiert auf dem Bradley-Ter­ry-Mod­ell, das sta­bilere Bew­er­tun­gen als das häu­fig ver­wen­dete Elo-Rat­ing liefert. Da umfassende Mod­el­lver­gle­iche ressourcenin­ten­siv sind, bietet Inclu­sion Are­na Mech­a­nis­men wie Place­ment Match­es für neue Mod­elle und Prox­im­i­ty Sam­pling, um Ver­gle­iche auf rel­e­vante Mod­elle zu beschränken.

Funk­tion­sweise

  • Inte­gra­tion in Apps: Inclu­sion Are­na ist in Apps wie Joy­land (Chat-App) und T‑Box (Bil­dungs-App) inte­gri­ert.
  • Nutzer­be­w­er­tun­gen: Nutzer wählen die beste Antwort, ohne zu wis­sen, welch­es Mod­ell sie gener­iert hat.
  • Rank­ing: Die Bew­er­tun­gen fließen in das Bradley-Ter­ry-Mod­ell ein, um ein Leader­board zu erstellen.

Ergeb­nisse und Ziele

  • Erste Exper­i­mente mit 501.003 Ver­gle­ichs­dat­en aus zwei Apps zeigen, dass Anthropic’s Claude 3.7 die beste Leis­tung bietet.
  • Mit mehr Dat­en und Anwen­dun­gen soll das Sys­tem präzis­er und umfassender wer­den.
    Bedeu­tung

Inclu­sion Are­na bietet Unternehmen eine prax­is­na­he Ori­en­tierung­shil­fe bei der Auswahl von LLMs, indem es Mod­elle nach real­er Leis­tung statt rein the­o­retis­chen Tests bew­ertet. Damit ergänzt es die wach­sende Anzahl an Bench­marks, die reale Anwen­dungs­fälle beto­nen, wie z. B. Reward­Bench 2.

Unternehmen soll­ten jedoch weit­er­hin interne Tests durch­führen, um sicherzustellen, dass Mod­elle für ihre spez­i­fis­chen Anforderun­gen geeignet sind.

Bradley-Ter­ry-Mod­ell

Das Bradley-Ter­ry-Mod­ell ist ein sta­tis­tis­ches Mod­ell, das ver­wen­det wird, um die Wahrschein­lichkeit vorherzusagen, dass eine von zwei Alter­na­tiv­en (z. B. Spiel­er, Teams oder Mod­elle) in einem Paarver­gle­ich gewin­nt. Es basiert auf der Annahme, dass jede Alter­na­tive eine inhärente “Stärke” oder Fähigkeit besitzt, die ihre Gewin­nwahrschein­lichkeit bes­timmt.

Funk­tion­sweise

  • Jede Alter­na­tive (z. B. ein Mod­ell) wird durch einen Para­me­ter dargestellt, der ihre latente Fähigkeit oder Stärke beschreibt.
  • Die Wahrschein­lichkeit, dass Alter­na­tive A gegen Alter­na­tive B gewin­nt, wird durch die fol­gende Formel berech­net: P(A gewin­nt gegen B) = s(A) / (s(A) + s(B)) Hier­bei ist:
    • s(A): die Stärke von Alter­na­tive A,
    • s(B): die Stärke von Alter­na­tive B.
  • Das Mod­ell basiert auf Paarver­gle­ichen, wobei die Ergeb­nisse genutzt wer­den, um die Stärken der Alter­na­tiv­en zu schätzen.

Eigen­schaften

  • Das Mod­ell ist ein paar­weis­es Ver­gle­ichsmod­ell, das beson­ders in Szenar­ien einge­set­zt wird, in denen es schwierig ist, eine absolute Bew­er­tung zu geben.
  • Es liefert wahrschein­lichkeits­basierte Bew­er­tun­gen und erlaubt es, die Rang­folge von Alter­na­tiv­en auf Basis der rel­a­tiv­en Stärke zu bes­tim­men.
  • Die Berech­nun­gen erfol­gen oft durch Max­i­mum-Like­li­hood-Schätzun­gen, um die Mod­ell­pa­ra­me­ter zu opti­mieren.

Ein­satzge­bi­ete

  • Sport: Bew­er­tung von Teams oder Spiel­ern (z. B. in Schachturnieren).
  • Maschinelles Ler­nen: Ver­gle­ich von KI-Mod­ellen (z. B. in Inclu­sion Are­na oder Chat­bot Are­na).
  • Psy­cholo­gie: Unter­suchung von Präferen­zen bei Exper­i­menten.
  • Rec­om­mender-Sys­teme: Bew­er­tung von Pro­duk­ten oder Dien­sten basierend auf Nutzer­präferen­zen.

Vorteile des Bradley-Ter­ry-Mod­ells

  • Sta­bil­ität: Es liefert robuste Rank­ings, ins­beson­dere bei inkon­sis­ten­ten oder unvoll­ständi­gen Ver­gle­ichs­dat­en.
  • Flex­i­bil­ität: Kann auf ver­schiedene Arten von Ver­gle­ichs­dat­en angewen­det wer­den.
  • Wach­s­tums­fähigkeit: Es ist skalier­bar und kann an große Daten­sätze angepasst wer­den.

Ein­schränkun­gen

  • Bei ein­er großen Anzahl von Alter­na­tiv­en kön­nen exhaus­tive Paarver­gle­iche (d. h. alle möglichen Kom­bi­na­tio­nen) schnell ressourcenin­ten­siv wer­den.
  • Die Annahme, dass sich die Stärke ein­er Alter­na­tive nicht ändert, ist in dynamis­chen Umge­bun­gen möglicher­weise nicht immer real­is­tisch.

In Sys­te­men wie Inclu­sion Are­na wird das Bradley-Ter­ry-Mod­ell ver­wen­det, um die Stärke ver­schieden­er KI-Mod­elle basierend auf Nutzer­präferen­zen zu ver­gle­ichen und ein sta­biles Rank­ing zu erstellen.

Bew­er­tung nach dem KI-Agen­ten — Frame­work

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert