Getting your Trinity Audio player ready...
|
Reasoning-Modelle wie OpenAI o1 und DeepSeek-R1 haben ein Problem: Sie neigen dazu, übermäßig nachzudenken. Bei einfachen Fragen, wie „Was ist 1+1?“, benötigen sie mehrere Sekunden, um zu antworten. Ideal wäre es, wenn KI-Modelle erkennen könnten, wann eine direkte Antwort angebracht ist und wann sie mehr Zeit für das Nachdenken aufwenden sollten1Not every AI prompt deserves multiple seconds of thinking: how Meta is teaching models to prioritize.
Eine neue Technik, die von Forschern der Meta AI und der University of Illinois Chicago vorgestellt wurde, trainiert Modelle, ihre Ressourcen basierend auf der Schwierigkeit der Anfrage effizienter zu nutzen. Dadurch können schnellere Antworten und eine bessere Ressourcenallokation erreicht werden2Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization.
Kernprobleme
Große Sprachmodelle (LLMs) verbessern ihre Leistung bei komplexen Fragen häufig durch längere Denkprozesse, bekannt als „Chain-of-Thought“ (CoT). Der Erfolg dieser Methode hat zur Entwicklung von Techniken geführt, die das Modell anregen, länger über das Problem nachzudenken und mehrere Antworten zu generieren, um die beste auszuwählen.
Ein gängiger Ansatz ist das „Majority Voting“ (MV), bei dem das Modell mehrere Antworten generiert und die am häufigsten wiederkehrende auswählt. Dieses Verfahren hat jedoch den Nachteil, dass das Modell jede Anfrage als schwieriges Problem behandelt und unnötige Ressourcen aufwendet.
Effizientere Ansätze
Die neue Studie schlägt mehrere Trainingsmethoden vor, um die Effizienz der Modelle zu steigern. Die erste Methode, „Sequential Voting“ (SV), ermöglicht es dem Modell, den Denkprozess abzubrechen, sobald eine Antwort eine bestimmte Anzahl von Malen erscheint. Bei einfachen Anfragen wie „1+1“ könnte das Modell schnell ähnliche Antworten generieren und so Zeit und Ressourcen sparen.
Die zweite Methode, „Adaptive Sequential Voting“ (ASV), verbessert SV, indem das Modell nur bei schwierigen Problemen mehrere Antworten generiert. Bei einfachen Anfragen gibt es direkt eine Antwort, was die Effizienz erhöht.
Verstärkendes Lernen (Reinforcement Learning)
Um den Bedarf an handbeschrifteten Daten zu verringern, schlagen die Forscher den „Inference Budget-Constrained Policy Optimization“ (IBPO) Algorithmus vor. Dieser verstärkende Lernalgorithmus lehrt das Modell, die Länge der Denkprozesse basierend auf der Schwierigkeit der Anfrage anzupassen. IBPO ermöglicht es den Modellen, ihre Antworten zu optimieren, während sie innerhalb eines vorgegebenen Ressourcenbudgets bleiben.
Die Ergebnisse zeigen, dass IBPO die Effizienz verbessert, sodass Modelle bei festgelegten Ressourcen besser abschneiden als andere Ansätze.
Fazit
Die Forschungsergebnisse kommen zu einem Zeitpunkt, an dem viele KI-Modelle an ihre Grenzen stoßen. Unternehmen suchen nach qualitativ hochwertigen Trainingsdaten und experimentieren mit alternativen Methoden zur Verbesserung ihrer Modelle. Verstärkendes Lernen bietet eine vielversprechende Lösung, da es dem Modell ermöglicht, eigene Lösungen zu finden, wodurch es oft innovative Antworten entdecken kann, die Menschen nicht in Betracht gezogen haben.
Anmerkung:
Das hat m.E. große Ähnlichkeit mit den »Simple Heuristics«3Simple Heuristics That Make Us Smart von Gerd Gigerenzer. Dazu demnächst mehr.