Die rasanten Fortschritte in der künstlichen Intelligenz, insbesondere die Entwicklung von großen Sprachmodellen (Large Language Models, LLMs), die auf der Transformator-Architektur aufbauen, haben die Möglichkeiten der Verarbeitung natürlicher Sprache neu definiert. Diese Modelle zeigen nun bemerkenswerte Leistungen bei verschiedenen sprachbezogenen Aufgaben, wie z. B. bei der Texterstellung, der Beantwortung von Fragen, der Übersetzung und der Zusammenfassung, die oft mit dem menschlichen Verständnis konkurrieren. Noch interessanter ist, dass LLMs neue Fähigkeiten gezeigt haben, die über ihre Kernfunktionen hinausgehen, wie z.B. logisches Denken, Codegenerierung und Arithmetik.
Diese Übersichtsarbeit untersucht die grundlegenden Komponenten, Skalierungsmechanismen und architektonischen Strategien, die diesen Fähigkeiten zugrunde liegen. Mit dem Schwerpunkt auf Modellen wie GPT und LLaMA analysieren wir die Auswirkungen des exponentiellen Daten- und Rechenwachstums auf die LLM-Leistung und gehen dabei auch auf die mit der Skalierung verbundenen Kompromisse ein. Wir untersuchen auch LLM-Anwendungen in verschiedenen Sektoren wie Gesundheitswesen, Finanzen, Bildung und Recht, um ihre Anpassungsfähigkeit und ihr Potenzial zur Lösung domänenspezifischer Herausforderungen hervorzuheben. Im Mittelpunkt dieser Arbeit stehen die Fragen, wie LLMs über verschiedene Aufgaben hinweg verallgemeinern, Planungs- und Argumentationsfähigkeiten aufweisen und ob diese neu entstehenden Fähigkeiten systematisch hervorgerufen oder verbessert werden können.
Insbesondere geben wir Einblicke in die CoT- (Chain of Thought) und PoT- (Plan of Thought) Fähigkeiten innerhalb von LLMs, wobei wir uns darauf konzentrieren, wie Pre-Training-Daten ihre Entstehung beeinflussen. Außerdem untersuchen wir LLM-modulo-Frameworks, die externe Systeme integrieren und es LLMs ermöglichen, komplexe, dynamische Aufgaben zu bewältigen. Durch die Analyse dieser Faktoren zielt dieses Papier darauf ab, die laufende Diskussion über die Fähigkeiten und Grenzen von LLMs zu fördern und ihre verantwortungsvolle Entwicklung und Anwendung in neuartigen und zunehmend komplexen Umgebungen zu unterstützen.
Quelle: A Survey on Large Language Models with some Insights on their Capabilities and Limitations