Eine kürzlich im Weihnachtsheft des BMJ veröffentlichte Studie zeigt, dass führende große Sprachmodelle (LLMs) oder „Chatbots“ in Tests, die üblicherweise zur Erkennung früher Anzeichen von Demenz verwendet werden, Anzeichen einer leichten kognitiven Beeinträchtigung aufweisen. Die Forscher nutzten den Montreal Cognitive Assessment (MoCA) Test, um die kognitiven Fähigkeiten prominenter LLMs wie ChatGPT Version 4 und 4o, Claude 3.5 „Sonnet“ sowie Gemini Version 1 und 1.5 zu bewerten.
Der MoCA-Test, der verschiedene kognitive Funktionen wie Aufmerksamkeit, Gedächtnis, Sprache, visuell-räumliche Fähigkeiten und Exekutivfunktionen bewertet, hat eine maximale Punktzahl von 30, wobei 26 oder mehr als normal gelten. Die Ergebnisse zeigten, dass ChatGPT 4o mit 26 von 30 Punkten am besten abschnitt, gefolgt von ChatGPT 4 und Claude mit 25 von 30 Punkten, während Gemini 1.0 mit 16 von 30 Punkten am schlechtesten abschnitt.
Alle Chatbots zeigten schlechte Leistungen bei visuell-räumlichen Fähigkeiten und Exekutivaufgaben, wie dem Trail-Making-Test und dem Uhrenzeichentest. Die Gemini-Modelle scheiterten bei der verzögerten Abrufaufgabe. Die meisten Chatbots schnitten jedoch gut bei Benennungs-, Aufmerksamkeits-, Sprach- und Abstraktionsaufgaben ab. Interessanterweise stellte die Studie fest, dass „ältere“ Versionen von Chatbots tendenziell schlechter in den Tests abschneiden, was den kognitiven Abbau widerspiegelt, der bei älteren menschlichen Patienten beobachtet wird.
Diese Erkenntnis stellt die Annahme in Frage, dass künstliche Intelligenz bald menschliche Ärzte ersetzen wird. Die Forscher schließen daraus, dass Neurologen in naher Zukunft wahrscheinlich nicht durch LLMs ersetzt werden, sondern stattdessen möglicherweise neue, virtuelle Patienten behandeln werden – KI-Modelle, die kognitive Beeinträchtigungen aufweisen.
Diese Ergebnisse unterstreichen signifikante Schwachstellen bei LLMs, die ihren Einsatz in klinischen Umgebungen behindern könnten, insbesondere bei Aufgaben, die visuelle Abstraktion und Exekutivfunktionen erfordern.
Quelle: Almost all leading AI chatbots show signs of cognitive decline