Welcome to KI-Agenten   Klicken, um den Text zu hören Welcome to KI-Agenten

Eine kür­zlich im Wei­h­nacht­sheft des BMJ veröf­fentlichte Studie zeigt, dass führende große Sprach­mod­elle (LLMs) oder “Chat­bots” in Tests, die üblicher­weise zur Erken­nung früher Anze­ichen von Demenz ver­wen­det wer­den, Anze­ichen ein­er leicht­en kog­ni­tiv­en Beein­träch­ti­gung aufweisen. Die Forsch­er nutzten den Mon­tre­al Cog­ni­tive Assess­ment (MoCA) Test, um die kog­ni­tiv­en Fähigkeit­en promi­nen­ter LLMs wie Chat­G­PT Ver­sion 4 und 4o, Claude 3.5 “Son­net” sowie Gem­i­ni Ver­sion 1 und 1.5 zu bew­erten.

Der MoCA-Test, der ver­schiedene kog­ni­tive Funk­tio­nen wie Aufmerk­samkeit, Gedächt­nis, Sprache, visuell-räum­liche Fähigkeit­en und Exeku­tiv­funk­tio­nen bew­ertet, hat eine max­i­male Punk­tzahl von 30, wobei 26 oder mehr als nor­mal gel­ten. Die Ergeb­nisse zeigten, dass Chat­G­PT 4o mit 26 von 30 Punk­ten am besten abschnitt, gefol­gt von Chat­G­PT 4 und Claude mit 25 von 30 Punk­ten, während Gem­i­ni 1.0 mit 16 von 30 Punk­ten am schlecht­esten abschnitt.

Alle Chat­bots zeigten schlechte Leis­tun­gen bei visuell-räum­lichen Fähigkeit­en und Exeku­ti­vauf­gaben, wie dem Trail-Mak­ing-Test und dem Uhren­ze­ichen­test. Die Gem­i­ni-Mod­elle scheit­erten bei der verzögerten Abr­u­fauf­gabe. Die meis­ten Chat­bots schnit­ten jedoch gut bei Benennungs‑, Aufmerksamkeits‑, Sprach- und Abstrak­tion­sauf­gaben ab. Inter­es­san­ter­weise stellte die Studie fest, dass “ältere” Ver­sio­nen von Chat­bots ten­den­ziell schlechter in den Tests abschnei­den, was den kog­ni­tiv­en Abbau wider­spiegelt, der bei älteren men­schlichen Patien­ten beobachtet wird.

Diese Erken­nt­nis stellt die Annahme in Frage, dass kün­stliche Intel­li­genz bald men­schliche Ärzte erset­zen wird. Die Forsch­er schließen daraus, dass Neu­rolo­gen in naher Zukun­ft wahrschein­lich nicht durch LLMs erset­zt wer­den, son­dern stattdessen möglicher­weise neue, virtuelle Patien­ten behan­deln wer­den — KI-Mod­elle, die kog­ni­tive Beein­träch­ti­gun­gen aufweisen.

Diese Ergeb­nisse unter­stre­ichen sig­nifikante Schwach­stellen bei LLMs, die ihren Ein­satz in klin­is­chen Umge­bun­gen behin­dern kön­nten, ins­beson­dere bei Auf­gaben, die visuelle Abstrak­tion und Exeku­tiv­funk­tio­nen erfordern.

Quelle: Almost all lead­ing AI chat­bots show signs of cog­ni­tive decline

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Klicken, um den Text zu hören