Besitzen Große Sprachmodelle emergente Fähigkeiten?

Veröffentlicht am 27. August 2024 um 11:50

Große Sprachmodelle werden in erster Linie durch selbstüberwachtes Lernen trainiert. Dabei lernen die Modelle, Muster und Zusammenhänge in großen Textmengen zu erkennen, ohne dass explizite Annotationen erforderlich sind. Das wiederum ermöglicht es ihnen, kontextabhängige Informationen aus den Trainingsdaten zu extrahieren. Durch sog. Free-Shot-Prompting können LLMs aus der Eingabeaufforderung lernen, ohne dass weitere Parameter hinzugefügt werden müssen. Da sie aus wenigen Beispielen lernen, können LLMs sich schnell an neue Kontexte anpassen. 

Mittlerweile steht die Behauptung im Raum, dass große Sprachmodelle, die Milliarden von Parametern enthalten und auf umfangreichen Webkorpora trainiert wurden, bestimmte Fähigkeiten erlangen, ohne dass sie spezifisch darauf trainiert wurden. Diese Fähigkeiten werden als „emergente Fähigkeiten“ bezeichnet.

Eine zentrale Herausforderung bei der Bewertung emergenter Fähigkeiten besteht laut den Autoren von Are Emergent Abilities in Large Language Models just In-Context Learning? darin, dass sie durch Modellkompetenzen beeinträchtigt werden, einschließlich des kontextbezogenen Lernens (ICL). 

Unter emergenten Fähigkeiten verstehen die Autoren, "dass LLMs eine Aufgabe oberhalb der Basislinie ausführen und zwar auf eine Art und Weise, die nicht auf der Grundlage der Leistung kleinerer Modelle vorhergesagt werden kann". Das Modell verfügt auf einmal über neu auftauchende Fähigkeiten - in diesem Fall logisch zu denken - die es zu vor nicht besessen hat - es verhält sich nicht vorhersehbar. Ein neues Verhalten, das bis dahin nicht beobachtet wurde. 

Die Autoren kommen zu dem Schluss, dass "vermeintlich emergente Fähigkeiten nicht wirklich emergent sind, sondern aus einer Kombination von kontextbezogenem Lernen, Modellgedächtnis und sprachlichem Wissen resultieren. ... Die Fähigkeit, Anweisungen zu befolgen, bedeutet nicht, dass man über logische Fähigkeiten verfügt, und, was noch wichtiger ist, sie bedeutet nicht, dass latente, potenziell gefährliche Fähigkeiten vorhanden sind". 

Quellen und weitere Informationen:

IBM and RPI researchers demystify in-context learning in large language models

Fortschritte in KI und ML: Wie In-Context Learning die Verarbeitung natürlicher Sprache verändert

In-Context Learning bei LLMs: Eine Einführung

 

Kommentar hinzufügen

Kommentare

Es gibt noch keine Kommentare.