Getting your Trinity Audio player ready...
|
Von Ralf Keuper
Für das Training großer KI-Modelle sind in der Regel enorme Datenmengen nötig. Das führt wiederum zu hohen Kosten und Ineffizienzen. Letzteres wurde deutlich, als es einem chinesischen Startup gelang, mit DeepSeek ein Sprachmodell zu entwickeln, das mit deutlich weniger Aufwand und Daten entwickelt wurde, als die bis dahin vorherrschenden Modelle wie ChatGPT von OpenAI. Auch sonst werden fast täglich Studien oder Prototypen veröffentlicht, die in bestimmten Bereichen hohe Effizienzvorteile versprechen. Es setzt sich zunehmend die Erkenntnis durch, dass Mehr nicht immer besser ist und in vielen Fällen Weniger mehr ist.
Beispielhaft dafür ist das Konzept der schnellen und sparsamen Heuristiken, das von dem Kognitionswissenschaftler Gerd Gigerenzer und seinem Team vor einigen Jahren in dem Buch Simple Heuristics That Make Us Smart vorgestellt wurde. Darin argumentierten sie, dass durch geeignete Faustregeln (Heuristiken), die sich auf einige wesentliche Merkmale stützen und an die Umwelt angepasst sind, valide Entscheidungen getroffen werden können.
Schnelle und sparsame Heuristiken nutzen minimale Ressourcen für adaptive Entscheidungen und können Überanpassung vermeiden. Gigerenzer unterscheidet zwischen Strategien der Anpassung und der Verallgemeinerung, wobei einfache Heuristiken oft robuster sind als komplexe Modelle, da sie weniger anfällig für Überanpassung sind und sich besser an Veränderungen in der Umwelt anpassen können.
Zusammengefasst betont Gigerenzer, dass einfache, anpassungsfähige Heuristiken in der realen Welt oft effektivere Entscheidungen ermöglichen als komplexe, ressourcenintensive Modelle.
Wichtigstes Merkmal einer Strategie, die für die Verallgemeinerung verwendet werden kann, ist die Robustheit: „Je mehr Parameter ein Modell hat und je mehr Informationen (Hinweise) es verwendet, desto besser passt es zu den gegebenen Daten. Bei der Verallgemeinerung hingegen ist mehr nicht unbedingt besser. Eine rechnerisch einfache Strategie, die nur einen Teil der verfügbaren Informationen nutzt, kann robuster sein als eine rechnerisch komplexe, informationsverschlingende Strategie, die zu gut passt. Robustheit geht Hand in Hand mit Schnelligkeit und Genauigkeit und vor allem mit der Sparsamkeit von Informationen. Schnelle und sparsame Heuristiken können die Überanpassung reduzieren, indem sie das Rauschen, das vielen Hinweisen innewohnt, ignorieren und stattdessen nach der „dämpfenden Kraft“ suchen, die in den wichtigsten Hinweisen zum Ausdruck kommt. So kann die Verwendung von nur einem oder wenigen der nützlichsten Anhaltspunkte automatisch zu Robustheit führen”.
Letztlich bewegen wir uns zwischen dem Risiko der Überanpassung und dem der Unteranpassung. “Bei der Verallgemeinerung von bekannten auf unbekannte Daten gibt es jedoch kein nachweislich optimales Modell. Eine Strategie, die versucht, zu viele Informationen aus einer Trainingsmenge herauszuholen, kann bei einer Testmenge kläglich scheitern. Die Gefahr liegt in der Überanpassung des Trainingssatzes. Das Phänomen der Überanpassung lässt sich leicht erklären. Betrachten wir einen großen Datensatz, aus dem ein kleinerer Trainingssatz extrahiert wird. Wir trainieren Modelle auf dem kleineren Satz und sehen uns an, wie gut die Modelle verallgemeinert werden können, um Entscheidungen über den Trainingssatz zu treffen. Um zu verstehen, warum es zu einer Überanpassung kommt, muss man sich klarmachen, dass der Trainingsdatensatz sowohl inhärente Strukturen als auch Rauschen aufweist. Es ist die inhärente Struktur, die informal über den Trainingssatz hinaus verallgemeinert, und das ist es, worauf ein Modell aufbauen sollte. Wenn ein Modell zu flexibel ist (wie es häufig bei komplexen Modellen mit einer großen Anzahl freier Parameter der Fall ist), kann es über die inhärente Struktur hinausgehen, um das Rauschen in der Trainingsmenge zu erfassen. Dies kann zu einer erheblichen Verschlechterung der Leistung führen, wenn das Modell auf Fälle außerhalb des Trainingssatzes angewendet wird. (d. h. wenn es verallgemeinert wird). Die einfachen Modelle sind weniger anfällig für Übertreibungen, da sie parasitär sind und eine minimale Anzahl von Parametern erfordern, wodurch Anpassungsrauschen vermieden wird. Es gibt aber auch eine Grenze der Einfachheit. Die gegenteilige Gefahr ist die Unteranpassung”.
Wie können KI-Agenten mit schnellen und sparsamen Heuristiken so ausgestattet werden, dass sie die Gefahr der Unteranpassung vermeiden und dennoch so allgemein sind, dass sie in der jeweiligen Situation die richtige, d.h. in den meisten Fällen die optimale Entscheidung treffen? Statt wie Herman Simon, der in seinem Modell der begrenzten Rationalität von der Annahme ausging, dass es mit einem überschaubaren Aufwand für die Informationssuche möglich ist, eine optimale Entscheidung zu treffen, die für die jeweilige Aufgabe gut genug ist, setzt Gigerenzer auf die ökologische Rationalität. “Eine Heuristik ist in dem Maße ökologisch rational, wie sie an die Struktur der Umwelt angepasst ist. So können einfache Heuristiken und die Struktur der Umwelt Hand in Hand arbeiten, um eine realistische Alternative zum Ideal der Optimierung zu bieten, egal ob sie unbegrenzt oder eingeschränkt ist”.
In die beschriebene Richtung zielt die kürzlich vorgestellte Methode Chain of Draft (CoD). Diese ermöglicht es großen Sprachmodellen (LLMs), Probleme mit minimalem Textaufwand zu lösen — in einigen Fällen nur 7,6% der benötigten Worte im Vergleich zu bisherigen Methoden, während die Genauigkeit beibehalten oder sogar verbessert wird1Probleme mit minimalem Textaufwand lösen. Im entsprechenden Paper ist zu lesen: “.. Chain of Draft ermutigt LLMs, bei jedem Schritt prägnante, dichte Informationsausgaben zu erzeugen. Dieser Ansatz reduziert die Latenzzeit und die Rechenkosten ohne Einbußen bei der Genauigkeit, wodurch LLMs für reale Anwendungen, bei denen Effizienz von größter Bedeutung ist, praktischer werden. Die Intuition, die hinter Chain of Draft steht, ist in der Art und Weise verwurzelt, wie Menschen Gedanken externalisieren. Beim Lösen komplexer Aufgaben — sei es beim Lösen mathematischer Probleme, beim Verfassen von Aufsätzen oder beim Programmieren — notieren wir uns oft nur die entscheidenden Informationen, die uns weiterbringen. Indem wir dieses Verhalten nachahmen, können sich LLMs auf die Entwicklung von Lösungen konzentrieren, ohne den Overhead einer ausführlichen Argumentation”.
Ein anderes Beispiel ist eine neue Technik, die von Forschern der Meta AI und der University of Illinois Chicago im vergangenen Monat publiziert wurde2Smarter not Harder: Den Denkprozess von Reasoning-Modellen optimieren. Diese neue Technik trainiert Modelle, ihre Ressourcen basierend auf der Schwierigkeit der Anfrage effizienter zu nutzen. Dadurch können schnellere Antworten und eine bessere Ressourcenallokation erreicht werden. Die erste Methode, „Sequential Voting“ (SV), ermöglicht es dem Modell, den Denkprozess abzubrechen, sobald eine Antwort eine bestimmte Anzahl von Malen erscheint. Bei einfachen Anfragen wie „1+1“ könnte das Modell schnell ähnliche Antworten generieren und so Zeit und Ressourcen sparen. Die zweite Methode, „Adaptive Sequential Voting“ (ASV), verbessert SV, indem das Modell nur bei schwierigen Problemen mehrere Antworten generiert. Bei einfachen Anfragen gibt es direkt eine Antwort, was die Effizienz erhöht. Um den Bedarf an handbeschrifteten Daten zu verringern, schlagen die Forscher außerdem den „Inference Budget-Constrained Policy Optimization“ (IBPO) Algorithmus vor. Dieser verstärkende Lernalgorithmus lehrt das Modell, die Länge der Denkprozesse basierend auf der Schwierigkeit der Anfrage anzupassen. IBPO ermöglicht es den Modellen, ihre Antworten zu optimieren, während sie innerhalb eines vorgegebenen Ressourcenbudgets bleiben.