Getting your Trinity Audio player ready...
|
Unternehmen stellen häufig fest, dass beim Fine-Tuning von großen Sprachmodellen (LLMs) Modelle einige ihrer Fähigkeiten “vergessen” können. Dieses Phänomen, bekannt als “katastrophales Vergessen”, führt dazu, dass zuvor erlernte Aufgaben nach dem Fine-Tuning schlechter ausgeführt werden. Forscher der University of Illinois Urbana-Champaign haben eine neue Methode entwickelt, um dieses Problem zu vermeiden1Researchers find that retraining only small parts of AI models can cut costs and prevent forgetting.
Die Methode schlägt vor, nur spezifische Teile eines Modells – wie die Multi-Layer Perceptron (MLP)-Komponenten oder die Self-Attention-Projektionen (SA Proj) – zu retrainieren, anstatt das gesamte Modell zu überarbeiten. Dies reduziert nicht nur die hohen Rechenkosten, sondern minimiert auch den sogenannten “Output Drift”. Ihre Experimente mit den Modellen LLaVA und Qwen 2.5‑VL zeigen, dass das “Vergessen” oft nur ein vorübergehender Effekt ist, der durch eine Verschiebung der Aufgabenverteilung entsteht, anstatt durch echten Wissensverlust.
Ein überraschendes Ergebnis war, dass das Fokussieren auf die Self-Attention-Projektionen zu einer guten Leistung bei neuen Aufgaben führte, ohne die Leistung bei anderen Aufgaben zu beeinträchtigen. Das selektive Fine-Tuning der MLP-Komponenten – insbesondere durch das Einfrieren bestimmter Parameter – erwies sich ebenfalls als effektiv, um katastrophales Vergessen zu minimieren.
Die Studie betont, dass diese Methode nicht nur die Kosten und den Zeitaufwand für das Training reduziert, sondern auch eine reproduzierbare und effizientere Möglichkeit bietet, Modelle zu verbessern. Obwohl die Experimente auf visuelle Sprachmodelle beschränkt waren, könnten die Erkenntnisse auf andere LLMs und Modalitäten ausgeweitet werden.