Große Sprachmodelle wie GPT‑4 sind für die lokale Bereitstellung zu umfangreich. Ein Grund dafür ist, dass ein großer Teil der Modellgröße allgemeine Informationen über die Welt in den parametrierbaren Speicher aufnimmt, die für spezialisierte Anwendungen möglicherweise nicht notwendig sind. Diese implizite Speicherung von Trainingsdaten korreliert mit „emergenten“ Phänomenen in großen Sprachmodellen, wie kontextuellem Lernen und komplexem Denken.
In einer Studie haben Forscher der Berkeley University den Versuch unternommen, kleine Sprachmodelle (SLM) zu entwickeln, die in der Lage sind, komplexe Schlussfolgerungen zu ziehen und sicher sowie privat am Rand (Edge) eingesetzt werden können. Ein Schwerpunkt liegt darauf, kleinen Open-Source-Modellen präzise Funktionsaufrufe zu ermöglichen, die für agentenbasierte Systeme entscheidend sind. Es wurde festgestellt, dass herkömmliche kleine Modelle wie TinyLLaMA‑1.1B und Wizard‑2–7B in ihrer Fähigkeit, Funktionsaufrufe korrekt zu erstellen, eingeschränkt sind.
Die Lösung besteht darin, diese Modelle mit hochwertigen Datensätzen zu verfeinern, die speziell für Funktionsaufrufe und ‑planung kuratiert wurden. Ein Beispiel für eine Anwendung ist ein lokales agentenbasiertes System für Apples MacBook, das alltägliche Aufgaben der Benutzer löst. Die Agenten sind mit verschiedenen Funktionen ausgestattet, die mit Mac-Anwendungen interagieren können.
Um die Leistung der verfeinerten Modelle zu bewerten, wird eine Erfolgsquote definiert, die prüft, ob die richtigen Funktionen ausgewählt und in der richtigen Reihenfolge aufgerufen werden. Zudem wird ein Directed Acyclic Graph (DAG) zur Überprüfung der Abhängigkeiten zwischen den Funktionen verwendet. Der Einsatz von Quantisierung wird als Lösung vorgeschlagen, um den Speicherbedarf und die Latenz zu reduzieren.
Letztlich zeigt die Studie, dass es möglich ist, ein kleines Sprachmodell zu trainieren und es für ein semantisches System zu verwenden, das Benutzeranfragen verarbeitet. Durch die Optimierung des Prompt-Formats und die Quantisierung kann die Ressourcennutzung während der Inferenz reduziert werden. Die finalen Modelle erreichten Erfolgsraten, die die von GPT-4-Turbo übertreffen.
Quantisierung von KI-Modellen
Im Text wird Quantisierung als eine Methode beschrieben, um die Speicherkapazität und den Ressourcenverbrauch von KI-Modellen zu reduzieren. Hierbei werden die Modellparameter in einer geringeren Bit-Präzision gespeichert.
Dies hat mehrere Vorteile:
- Reduzierung der Speicherkapazität: Kleinere Datenmengen benötigen weniger Speicherplatz.
- Schnelleres Laden: Weniger Speicherbedarf führt dazu, dass die Modellgewichte schneller in den Arbeitsspeicher geladen werden können.
- Geringere Latenz: Durch die Reduzierung des Speicherverbrauchs können die Inferenzzeiten verkürzt werden, was die Gesamtleistung des Modells verbessert.
Quantisierung ermöglicht es, Modelle effizienter zu betreiben, insbesondere auf Geräten mit begrenzten Ressourcen, wie z. B. Consumer-Laptops.