Getting your Trinity Audio player ready...

Unternehmen stellen häu­fig fest, dass beim Fine-Tun­ing von großen Sprach­mod­ellen (LLMs) Mod­elle einige ihrer Fähigkeit­en “vergessen” kön­nen. Dieses Phänomen, bekan­nt als “katas­trophales Vergessen”, führt dazu, dass zuvor erlernte Auf­gaben nach dem Fine-Tun­ing schlechter aus­ge­führt wer­den. Forsch­er der Uni­ver­si­ty of Illi­nois Urbana-Cham­paign haben eine neue Meth­ode entwick­elt, um dieses Prob­lem zu ver­mei­den1Researchers find that retrain­ing only small parts of AI mod­els can cut costs and pre­vent for­get­ting.

Die Meth­ode schlägt vor, nur spez­i­fis­che Teile eines Mod­ells – wie die Mul­ti-Lay­er Per­cep­tron (MLP)-Komponenten oder die Self-Atten­tion-Pro­jek­tio­nen (SA Proj) – zu retrainieren, anstatt das gesamte Mod­ell zu über­ar­beit­en. Dies reduziert nicht nur die hohen Rechenkosten, son­dern min­imiert auch den soge­nan­nten “Out­put Drift”. Ihre Exper­i­mente mit den Mod­ellen LLa­VA und Qwen 2.5‑VL zeigen, dass das “Vergessen” oft nur ein vorüberge­hen­der Effekt ist, der durch eine Ver­schiebung der Auf­gaben­verteilung entste­ht, anstatt durch echt­en Wis­sensver­lust.

Ein über­raschen­des Ergeb­nis war, dass das Fokussieren auf die Self-Atten­tion-Pro­jek­tio­nen zu ein­er guten Leis­tung bei neuen Auf­gaben führte, ohne die Leis­tung bei anderen Auf­gaben zu beein­trächti­gen. Das selek­tive Fine-Tun­ing der MLP-Kom­po­nen­ten – ins­beson­dere durch das Ein­frieren bes­timmter Para­me­ter – erwies sich eben­falls als effek­tiv, um katas­trophales Vergessen zu min­imieren.

Die Studie betont, dass diese Meth­ode nicht nur die Kosten und den Zeitaufwand für das Train­ing reduziert, son­dern auch eine repro­duzier­bare und effizien­tere Möglichkeit bietet, Mod­elle zu verbessern. Obwohl die Exper­i­mente auf visuelle Sprach­mod­elle beschränkt waren, kön­nten die Erken­nt­nisse auf andere LLMs und Modal­itäten aus­geweit­et wer­den.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert