Getting your Trinity Audio player ready...
|
Von Ralf Keuper
Für das Training großer KI-Modelle sind in der Regel enorme Datenmengen nötig. Das führt wiederum zu hohen Kosten und Ineffizienzen. Letzteres wurde deutlich, als es einem chinesischen Startup gelang, mit DeepSeek ein Sprachmodell zu entwickeln, das mit deutlich weniger Aufwand und Daten entwickelt wurde, als die bis dahin vorherrschenden Modelle wie ChatGPT von OpenAI. Auch sonst werden fast täglich Studien oder Prototypen veröffentlicht, die in bestimmten Bereichen hohe Effizienzvorteile versprechen. Es setzt sich zunehmend die Erkenntnis durch, dass Mehr nicht immer besser ist und in vielen Fällen Weniger mehr ist.
Beispielhaft dafür ist das Konzept der schnellen und sparsamen Heuristiken, das von dem Kognitionswissenschaftler Gerd Gigerenzer und seinem Team vor einigen Jahren in dem Buch Simple Heuristics That Make Us Smart vorgestellt wurde. Darin argumentierten sie, dass durch geeignete Faustregeln (Heuristiken), die sich auf einige wesentliche Merkmale stützen und an die Umwelt angepasst sind, valide Entscheidungen getroffen werden können.
Schnelle und sparsame Heuristiken nutzen minimale Ressourcen für adaptive Entscheidungen und können Überanpassung vermeiden. Gigerenzer unterscheidet zwischen Strategien der Anpassung und der Verallgemeinerung, wobei einfache Heuristiken oft robuster sind als komplexe Modelle, da sie weniger anfällig für Überanpassung sind und sich besser an Veränderungen in der Umwelt anpassen können.
Zusammengefasst betont Gigerenzer, dass einfache, anpassungsfähige Heuristiken in der realen Welt oft effektivere Entscheidungen ermöglichen als komplexe, ressourcenintensive Modelle.
Wichtigstes Merkmal einer Strategie, die für die Verallgemeinerung verwendet werden kann, ist die Robustheit: „Je mehr Parameter ein Modell hat und je mehr Informationen (Hinweise) es verwendet, desto besser passt es zu den gegebenen Daten. Bei der Verallgemeinerung hingegen ist mehr nicht unbedingt besser. Eine rechnerisch einfache Strategie, die nur einen Teil der verfügbaren Informationen nutzt, kann robuster sein als eine rechnerisch…