Getting your Trinity Audio player ready...

Von Ralf Keu­per 

Für das Train­ing großer KI-Mod­elle sind in der Regel enorme Daten­men­gen nötig. Das führt wiederum zu hohen Kosten und Inef­fizien­zen. Let­zteres wurde deut­lich, als es einem chi­ne­sis­chen Start­up gelang, mit DeepSeek ein Sprach­mod­ell zu entwick­eln, das mit deut­lich weniger Aufwand und Dat­en entwick­elt wurde, als die bis dahin vorherrschen­den Mod­elle wie Chat­G­PT von Ope­nAI. Auch son­st wer­den fast täglich Stu­di­en oder Pro­to­typen veröf­fentlicht, die in bes­timmten Bere­ichen hohe Effizien­zvorteile ver­sprechen. Es set­zt sich zunehmend die Erken­nt­nis durch, dass Mehr nicht immer bess­er ist und in vie­len Fällen Weniger mehr ist.

Beispiel­haft dafür ist das Konzept der schnellen und sparsamen Heuris­tiken, das von dem Kog­ni­tion­swis­senschaftler Gerd Gigeren­z­er und seinem Team vor eini­gen Jahren in dem Buch Sim­ple Heuris­tics That Make Us Smart vorgestellt wurde. Darin argu­men­tierten sie, dass durch geeignete Faus­tregeln (Heuris­tiken), die sich auf einige wesentliche Merk­male stützen und an die Umwelt angepasst sind, valide Entschei­dun­gen getrof­fen wer­den kön­nen.

Schnelle und sparsame Heuris­tiken nutzen min­i­male Ressourcen für adap­tive Entschei­dun­gen und kön­nen Über­an­pas­sung ver­mei­den. Gigeren­z­er unter­schei­det zwis­chen Strate­gien der Anpas­sung und der Ver­all­ge­meinerung, wobei ein­fache Heuris­tiken oft robuster sind als kom­plexe Mod­elle, da sie weniger anfäl­lig für Über­an­pas­sung sind und sich bess­er an Verän­derun­gen in der Umwelt anpassen kön­nen.
Zusam­menge­fasst betont Gigeren­z­er, dass ein­fache, anpas­sungs­fähige Heuris­tiken in der realen Welt oft effek­ti­vere Entschei­dun­gen ermöglichen als kom­plexe, ressourcenin­ten­sive Mod­elle.

Wichtig­stes Merk­mal ein­er Strate­gie, die für die Ver­all­ge­meinerung ver­wen­det wer­den kann, ist die Robus­theit: „Je mehr Para­me­ter ein Mod­ell hat und je mehr Infor­ma­tio­nen (Hin­weise) es ver­wen­det, desto bess­er passt es zu den gegebe­nen Dat­en. Bei der Ver­all­ge­meinerung hinge­gen ist mehr nicht unbe­d­ingt bess­er. Eine rech­ner­isch ein­fache Strate­gie, die nur einen Teil der ver­füg­baren Infor­ma­tio­nen nutzt, kann robuster sein als eine rech­ner­isch kom­plexe, infor­ma­tionsver­schlin­gende Strate­gie, die zu gut passt. Robus­theit geht Hand in Hand mit Schnel­ligkeit und Genauigkeit und vor allem mit der Sparsamkeit von Infor­ma­tio­nen. Schnelle und sparsame Heuris­tiken kön­nen die Über­an­pas­sung reduzieren, indem sie das Rauschen, das vie­len Hin­weisen innewohnt, ignori­eren und stattdessen nach der „dämpfend­en Kraft“ suchen, die in den wichtig­sten Hin­weisen zum Aus­druck kommt. So kann die Ver­wen­dung von nur einem oder weni­gen der nüt­zlich­sten Anhalt­spunk­te automa­tisch zu Robus­theit führen”.

Let­ztlich bewe­gen wir uns zwis­chen dem Risiko der Über­an­pas­sung und dem der Unter­an­pas­sung. “Bei der Ver­all­ge­meinerung von bekan­nten auf unbekan­nte Dat­en gibt es jedoch kein nach­weis­lich opti­males Mod­ell. Eine Strate­gie, die ver­sucht, zu viele Infor­ma­tio­nen aus ein­er Train­ings­menge her­auszu­holen, kann bei ein­er Test­menge kläglich scheit­ern. Die Gefahr liegt in der Über­an­pas­sung des Train­ingssatzes. Das Phänomen der Über­an­pas­sung lässt sich leicht erk­lären. Betra­cht­en wir einen großen Daten­satz, aus dem ein kleiner­er Train­ingssatz extrahiert wird. Wir trainieren Mod­elle auf dem kleineren Satz und sehen uns an, wie gut die Mod­elle ver­all­ge­mein­ert wer­den kön­nen, um Entschei­dun­gen über den Train­ingssatz zu tre­f­fen. Um zu ver­ste­hen, warum es zu ein­er Über­an­pas­sung kommt, muss man sich klar­ma­chen, dass der Train­ings­daten­satz sowohl inhärente Struk­turen als auch Rauschen aufweist. Es ist die inhärente Struk­tur, die infor­mal über den Train­ingssatz hin­aus ver­all­ge­mein­ert, und das ist es, worauf ein Mod­ell auf­bauen sollte. Wenn ein Mod­ell zu flex­i­bel ist (wie es häu­fig bei kom­plex­en Mod­ellen mit ein­er großen Anzahl freier Para­me­ter der Fall ist), kann es über die inhärente Struk­tur hin­aus­ge­hen, um das Rauschen in der Train­ings­menge zu erfassen. Dies kann zu ein­er erhe­blichen Ver­schlechterung der Leis­tung führen, wenn das Mod­ell auf Fälle außer­halb des Train­ingssatzes angewen­det wird. (d. h. wenn es ver­all­ge­mein­ert wird). Die ein­fachen Mod­elle sind weniger anfäl­lig für Übertrei­bun­gen, da sie par­a­sitär sind und eine min­i­male Anzahl von Para­me­tern erfordern, wodurch Anpas­sungsrauschen ver­mieden wird. Es gibt aber auch eine Gren­ze der Ein­fach­heit. Die gegen­teilige Gefahr ist die Unter­an­pas­sung”.

Wie kön­nen KI-Agen­ten mit schnellen und sparsamen Heuris­tiken so aus­ges­tat­tet wer­den, dass sie die Gefahr der Unter­an­pas­sung ver­mei­den und den­noch so all­ge­mein sind, dass sie in der jew­eili­gen Sit­u­a­tion die richtige, d.h. in den meis­ten Fällen die opti­male Entschei­dung tre­f­fen? Statt wie Her­man Simon, der in seinem Mod­ell der begren­zten Ratio­nal­ität von der Annahme aus­ging, dass es mit einem über­schaubaren Aufwand für die Infor­ma­tion­ssuche möglich ist, eine opti­male Entschei­dung zu tre­f­fen, die für die jew­eilige Auf­gabe gut genug ist, set­zt Gigeren­z­er auf die ökol­o­gis­che Ratio­nal­ität. “Eine Heuris­tik ist in dem Maße ökol­o­gisch ratio­nal, wie sie an die Struk­tur der Umwelt angepasst ist. So kön­nen ein­fache Heuris­tiken und die Struk­tur der Umwelt Hand in Hand arbeit­en, um eine real­is­tis­che Alter­na­tive zum Ide­al der Opti­mierung zu bieten, egal ob sie unbe­gren­zt oder eingeschränkt ist”.

In die beschriebene Rich­tung zielt die kür­zlich vorgestellte Meth­ode Chain of Draft (CoD). Diese ermöglicht es großen Sprach­mod­ellen (LLMs), Prob­leme mit min­i­malem Tex­taufwand zu lösen — in eini­gen Fällen nur 7,6% der benötigten Worte im Ver­gle­ich zu bish­eri­gen Meth­o­d­en, während die Genauigkeit beibehal­ten oder sog­ar verbessert wird1Prob­leme mit min­i­malem Tex­taufwand lösen. Im entsprechen­den Paper ist zu lesen: “.. Chain of Draft ermutigt LLMs, bei jedem Schritt präg­nante, dichte Infor­ma­tion­saus­gaben zu erzeu­gen. Dieser Ansatz reduziert die Latenzzeit und die Rechenkosten ohne Ein­bußen bei der Genauigkeit, wodurch LLMs für reale Anwen­dun­gen, bei denen Effizienz von größter Bedeu­tung ist, prak­tis­ch­er wer­den. Die Intu­ition, die hin­ter Chain of Draft ste­ht, ist in der Art und Weise ver­wurzelt, wie Men­schen Gedanken exter­nal­isieren. Beim Lösen kom­plex­er Auf­gaben — sei es beim Lösen math­e­ma­tis­ch­er Prob­leme, beim Ver­fassen von Auf­sätzen oder beim Pro­gram­mieren — notieren wir uns oft nur die entschei­den­den Infor­ma­tio­nen, die uns weit­er­brin­gen. Indem wir dieses Ver­hal­ten nachah­men, kön­nen sich LLMs auf die Entwick­lung von Lösun­gen konzen­tri­eren, ohne den Over­head ein­er aus­führlichen Argu­men­ta­tion”.

Ein anderes Beispiel ist eine neue Tech­nik, die von Forsch­ern der Meta AI und der Uni­ver­si­ty of Illi­nois Chica­go im ver­gan­genen Monat pub­liziert wurde2Smarter not Hard­er: Den Denkprozess von Rea­son­ing-Mod­ellen opti­mieren. Diese neue Tech­nik trainiert Mod­elle, ihre Ressourcen basierend auf der Schwierigkeit der Anfrage effizien­ter zu nutzen. Dadurch kön­nen schnellere Antworten und eine bessere Ressource­nal­loka­tion erre­icht wer­den. Die erste Meth­ode, „Sequen­tial Vot­ing“ (SV), ermöglicht es dem Mod­ell, den Denkprozess abzubrechen, sobald eine Antwort eine bes­timmte Anzahl von Malen erscheint. Bei ein­fachen Anfra­gen wie „1+1“ kön­nte das Mod­ell schnell ähn­liche Antworten gener­ieren und so Zeit und Ressourcen sparen. Die zweite Meth­ode, „Adap­tive Sequen­tial Vot­ing“ (ASV), verbessert SV, indem das Mod­ell nur bei schwieri­gen Prob­le­men mehrere Antworten gener­iert. Bei ein­fachen Anfra­gen gibt es direkt eine Antwort, was die Effizienz erhöht. Um den Bedarf an handbeschrifteten Dat­en zu ver­ringern, schla­gen die Forsch­er außer­dem den „Infer­ence Bud­get-Con­strained Pol­i­cy Opti­miza­tion“ (IBPO) Algo­rith­mus vor. Dieser ver­stärk­ende Ler­nal­go­rith­mus lehrt das Mod­ell, die Länge der Denkprozesse basierend auf der Schwierigkeit der Anfrage anzu­passen. IBPO ermöglicht es den Mod­ellen, ihre Antworten zu opti­mieren, während sie inner­halb eines vorgegebe­nen Ressourcenbud­gets bleiben.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert