Eine neue Studie von Apple-Forschern hat bedeutende Schwächen in den mathematischen Denkfähigkeiten moderner großer Sprachmodelle (LLMs) aufgedeckt. Die Studie mit dem Titel "GSM-Symbolic - Understanding the Limitations of Mathematical Reasoning in Large Language Models" zeigt, dass die Leistung dieser Modelle bei mathematischen Aufgaben stark beeinträchtigt werden kann, wenn scheinbar triviale Änderungen an den Problemstellungen vorgenommen werden.
Haupterkenntnisse der Studie
- Die Forscher entwickelten einen neuen Benchmark namens GSM-Symbolic, der auf dem bestehenden GSM8K-Datensatz basiert, aber Namen und Zahlen in den Aufgaben dynamisch verändert (Der GSM8K-Benchmark wird häufig zur Bewertung des mathematischen Denkens von Modellen bei Fragen auf Grundschulniveau verwendet. Obwohl sich die Leistung von LLMs bei GSM8K in den letzten Jahren deutlich verbessert hat, bleibt unklar, ob sich ihre Fähigkeiten zum mathematischen Denken wirklich verbessert haben, was Fragen zur Zuverlässigkeit der berichteten Metriken aufwirft)
- Bei Tests mit über 20 modernen LLMs zeigte sich, dass die Genauigkeit bei GSM-Symbolic im Vergleich zu GSM8K durchweg geringer war, mit Leistungseinbußen zwischen 0,3% und 9,2%.
- Innerhalb eines einzelnen Modells gab es Schwankungen von bis zu 15% zwischen dem besten und schlechtesten Durchlauf bei GSM-Symbolic.
- Besonders gravierend waren die Auswirkungen, wenn irrelevante Informationen zu den Aufgaben hinzugefügt wurden (GSM-NoOp Benchmark). Dies führte zu Genauigkeitsverlusten von 17,5% bis 65,7%.
Implikationen der Ergebnisse
Die Studie legt nahe, dass aktuelle LLMs nicht wirklich logisch denken, sondern eher Musterabgleiche basierend auf ihren Trainingsdaten durchführen. Dies macht sie anfällig für Fehler, wenn sie mit leicht veränderten oder ablenkenden Informationen konfrontiert werden.
Diese Erkenntnisse stellen die von Unternehmen wie OpenAI und Google beworbenen fortgeschrittenen "Denkfähigkeiten" ihrer KI-Modelle in Frage. Sie zeigen, dass die scheinbar beeindruckenden mathematischen Fähigkeiten dieser Systeme auf wackeligen Beinen stehen können.
"Illusion des Verstehens"
Kritiker monieren, dass einer der Gründe, warum OpenAIs GPT-4 bei der Textsynthese für Aufsehen gesorgt hat der ist, dass das Modell eine Größe erreicht hat, bei der es genug Informationen (in Form von Trainingsdaten) aufgenommen hat, um den Eindruck zu erwecken, dass es die Welt wirklich verstehen und modellieren kann, während in Wirklichkeit ein Schlüsselaspekt seines Erfolgs darin besteht, dass es weit mehr „weiß“ als die meisten Menschen und uns beeindrucken kann, indem es diese vorhandenen Konzepte auf neuartige Weise kombiniert. Das führe zu einer "Illusion des Verstehens"(in: Apple study exposes deep cracks in LLMs’ “reasoning” capabilities).
Künftig werden wir beobachten können, wie die Illusion des Verstehens zerbricht, wenn die neuesten „logischen“ KI-Modellen auf unerwartete Situationen stoßen.
Bereits im vergangenen Jahr hatte der bekannte Linguist Noam Chomsky kritisiert, dass ChatGPT und ähnliche Programme zwar unbegrenzt sind in dem, was sie „lernen“ (d. h. auswendig lernen) können; sie seien jedoch nicht in der Lage, das Mögliche vom Unmöglichen zu unterscheiden. Daher seien die Vorhersagen von maschinellen Lernsystemen immer oberflächlich und zweifelhaft (in: Noam Chomsky: The False Promise of ChatGPT).
Ausblick
Die Ergebnisse unterstreichen die Notwendigkeit, die tatsächlichen Fähigkeiten und Grenzen von KI-Systemen genau zu verstehen. Während LLMs in vielen Bereichen beeindruckende Leistungen zeigen, fehlt ihnen offenbar noch das tiefere Verständnis, das für zuverlässiges logisches und mathematisches Denken erforderlich ist1.
Zukünftige Forschung und Entwicklung im Bereich der KI wird sich darauf konzentrieren müssen, Systeme zu schaffen, die nicht nur Muster erkennen, sondern auch ein grundlegendes Verständnis der zugrundeliegenden Konzepte entwickeln können.
Kommentar hinzufügen
Kommentare