Große Sprach­mod­elle wie GPT‑4 sind für die lokale Bere­it­stel­lung zu umfan­gre­ich. Ein Grund dafür ist, dass ein großer Teil der Mod­ell­größe all­ge­meine Infor­ma­tio­nen über die Welt in den para­me­trier­baren Spe­ich­er aufn­immt, die für spezial­isierte Anwen­dun­gen möglicher­weise nicht notwendig sind. Diese implizite Spe­icherung von Train­ings­dat­en kor­re­liert mit „emer­gen­ten“ Phänome­nen in großen Sprach­mod­ellen, wie kon­textuellem Ler­nen und kom­plex­em Denken.

In ein­er Studie haben Forsch­er der Berke­ley Uni­ver­si­ty den Ver­such unter­nom­men, kleine Sprach­mod­elle (SLM) zu entwick­eln, die in der Lage sind, kom­plexe Schlussfol­gerun­gen zu ziehen und sich­er sowie pri­vat am Rand (Edge) einge­set­zt wer­den kön­nen. Ein Schw­er­punkt liegt darauf, kleinen Open-Source-Mod­ellen präzise Funk­tion­saufrufe zu ermöglichen, die für agen­ten­basierte Sys­teme entschei­dend sind. Es wurde fest­gestellt, dass herkömm­liche kleine Mod­elle wie TinyLLaMA‑1.1B und Wizard‑2–7B in ihrer Fähigkeit, Funk­tion­saufrufe kor­rekt zu erstellen, eingeschränkt sind.

Die Lösung beste­ht darin, diese Mod­elle mit hochw­er­ti­gen Daten­sätzen zu ver­fein­ern, die speziell für Funk­tion­saufrufe und ‑pla­nung kuratiert wur­den. Ein Beispiel für eine Anwen­dung ist ein lokales agen­ten­basiertes Sys­tem für Apples Mac­Book, das alltägliche Auf­gaben der Benutzer löst. Die Agen­ten sind mit ver­schiede­nen Funk­tio­nen aus­ges­tat­tet, die mit Mac-Anwen­dun­gen inter­agieren kön­nen.

Um die Leis­tung der ver­fein­erten Mod­elle zu bew­erten, wird eine Erfol­gsquote definiert, die prüft, ob die richti­gen Funk­tio­nen aus­gewählt und in der richti­gen Rei­hen­folge aufgerufen wer­den. Zudem wird ein Direct­ed Acyclic Graph (DAG) zur Über­prü­fung der Abhängigkeit­en zwis­chen den Funk­tio­nen ver­wen­det. Der Ein­satz von Quan­tisierung wird als Lösung vorgeschla­gen, um den Spe­icherbe­darf und die Latenz zu reduzieren.

Let­ztlich zeigt die Studie, dass es möglich ist, ein kleines Sprach­mod­ell zu trainieren und es für ein seman­tis­ches Sys­tem zu ver­wen­den, das Benutzer­an­fra­gen ver­ar­beit­et. Durch die Opti­mierung des Prompt-For­mats und die Quan­tisierung kann die Ressourcennutzung während der Inferenz reduziert wer­den. Die finalen Mod­elle erre­icht­en Erfol­gsrat­en, die die von GPT-4-Tur­bo übertr­e­f­fen.

Quan­tisierung von KI-Mod­ellen

Im Text wird Quan­tisierung als eine Meth­ode beschrieben, um die Spe­icherka­paz­ität und den Ressourcenver­brauch von KI-Mod­ellen zu reduzieren. Hier­bei wer­den die Mod­ell­pa­ra­me­ter in ein­er gerin­geren Bit-Präzi­sion gespe­ichert.

Dies hat mehrere Vorteile:

  • Reduzierung der Spe­icherka­paz­ität: Kleinere Daten­men­gen benöti­gen weniger Spe­icher­platz.
  • Schnelleres Laden: Weniger Spe­icherbe­darf führt dazu, dass die Mod­ell­gewichte schneller in den Arbeitsspe­ich­er geladen wer­den kön­nen.
  • Gerin­gere Latenz: Durch die Reduzierung des Spe­icherver­brauchs kön­nen die Inferenzzeit­en verkürzt wer­den, was die Gesamtleis­tung des Mod­ells verbessert.

Quan­tisierung ermöglicht es, Mod­elle effizien­ter zu betreiben, ins­beson­dere auf Geräten mit begren­zten Ressourcen, wie z. B. Con­sumer-Lap­tops.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert