Getting your Trinity Audio player ready...

Eine neue Studie von der Hong Kong Uni­ver­si­ty und der Uni­ver­si­ty of Cal­i­for­nia, Berke­ley, zeigt, dass Sprach­mod­elle bess­er gen­er­al­isieren, wenn sie eigene Lösun­gen entwick­eln, anstatt mit handge­fer­tigten Beispie­len trainiert zu wer­den. Dies gilt sowohl für große Sprach­mod­elle (LLMs) als auch für visuelle Sprach­mod­elle (VLMs). Die Forschung wider­legt die gängige Annahme, dass handbeschriftete Train­ings­dat­en notwendig sind, und zeigt, dass zu viele solch­er Beispiele die Gen­er­al­isierungs­fähigkeit der Mod­elle beein­trächti­gen kön­nen1Less super­vi­sion, bet­ter results: Study shows AI mod­els gen­er­al­ize more effec­tive­ly on their own.

SFT vs. RL im Mod­ell­train­ing

Tra­di­tionell wurde das überwachte Fine-Tun­ing (SFT) als Gold­stan­dard für das Train­ing von LLMs und VLMs ange­se­hen. Es umfasst die Nach­schu­lung eines vor­trainierten Mod­ells mit handge­fer­tigten Beispie­len. Rein­force­ment Learn­ing (RL) wird zunehmend als Alter­na­tive betra­chtet, bei der Mod­elle selb­st­ständig ler­nen, ohne auf handge­fer­tigte Beispiele angewiesen zu sein.

Gen­er­al­isierung vs. Mem­o­rierung

Ein zen­trales Prob­lem im maschinellen Ler­nen ist Über­an­pas­sung (Over­fit­ting), bei der Mod­elle gut auf Train­ings­dat­en, aber schlecht auf unbekan­nte Dat­en abschnei­den. Die Studie unter­sucht, wie gut RL und SFT in textuellen und visuellen Auf­gaben gen­er­al­isieren.

Die Forsch­er führten zwei Haup­tauf­gaben durch:

  • Gen­er­al­Points – bew­ertet die arith­metis­chen Fähigkeit­en eines Mod­ells.
  • V‑IRL – testet die räum­lichen Fähigkeit­en in ein­er real­is­tis­chen Nav­i­ga­tion­sumge­bung.

Ergeb­nisse

Die Ergeb­nisse zeigen, dass RL die Leis­tung auf stark abwe­ichen­den Beispie­len verbessert, während SFT dazu neigt, Train­ingsregeln zu mem­o­ri­eren und schlecht auf unbekan­nte Dat­en zu gen­er­al­isieren. SFT sta­bil­isiert jedoch die Aus­gabefor­mate der Mod­elle und ist wichtig, damit RL seine Leis­tungssteigerun­gen erre­ichen kann.

Ins­ge­samt deutet die Studie darauf hin, dass RL-basierte Ansätze ein großes ungenutztes Poten­zial bieten, ins­beson­dere in Anwen­dun­gen, in denen die Erstel­lung handge­fer­tigter Beispiele aufwendig ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert