Welcome to KI-Agenten   Klicken, um den Text zu hören Welcome to KI-Agenten

Von Ralf Keu­per

Bis­lang galt in der KI-Branche die Maxime, dass Quan­tität im Zweifel wichtiger ist als Qual­ität. Die Daten­men­gen für das Train­ing der KI-Mod­elle kön­nen nicht groß genug sein, was wiederum immer leis­tungs­fähigere Chips und weit­ere Hard­ware erfordert, die in großen Rechen­zen­tren, für die Mil­liar­den-Investi­tio­nen nötig sind, betrieben wer­den. Die großen Tech­nolo­giekonz­erne haben erst kür­zlich mil­liar­den­schwere Investi­tion­spro­gramme in KI und Rechen­zen­tren angekündigt. Das Haup­tau­gen­merk hat sich mit der Zeit einzig auf die rein tech­nol­o­gis­che Ebene ver­schoben. Dabei geri­et die Frage aus dem Blick, ob nicht auch andere, effek­ti­vere Wege mit deut­lich weniger Aufwand zum Ziel führen. Dafür ist jedoch nötig, den Schw­er­punkt auf Fra­gen der Organ­i­sa­tion und des Designs zu leg­en und einen Schritt zurück zu gehen — also in gewiss­er Weise in die the­o­retis­che Ebene (Abstrak­tion) zu wech­seln. Bezugspunk­te existieren zu alt bekan­nten The­o­rien aus der VWL und BWL wie Prin­ci­pal-Agent-The­o­rie und die Transak­tion­skos­ten­the­o­rie1man erset­ze die Dichotomie Markt-Hier­ar­chie durch Closed Source-Open Source .

Arbeit­steilung und Spezial­isierung 

In der Organ­i­sa­tions­forschung ist die Auf­gaben­teilung, die Delegierung von Tätigkeit­en an Spezial­is­ten, ein Weg, die Effizienz in einem Unternehmen zu erhöhen. Anderen­falls konzen­tri­ert sich alle Entschei­dungs­ge­walt an der Spitze, die mit der Fülle an Auf­gaben und der Ver­ar­beitung sich z.T. wider­sprechen­der Infor­ma­tio­nen schnell über­fordert ist. Diesem Prinzip fol­gt der Mix­ture of Experts — Ansatz im Maschinellen Ler­nen. Bei dieser Meth­ode wird ein großes neu­ronales Net­zw­erk in mehrere spezial­isierte Teil­net­ze aufgeteilt, die als “Experten” beze­ich­net wer­den. Die Vorteile beste­hen darin, dass Rechenkosten und Spe­icherbe­darf, beson­ders bei großen Mod­ellen, reduziert und die Entwick­lung von Mod­ellen mit Mil­liar­den von Para­me­tern bei gle­ichzeit­iger Beibehal­tung der Effizienz ermöglicht wer­den.

Kollek­tive Intel­li­genz 

Von nicht zu unter­schätzen­der Bedeu­tung für den Erfolg und die Effizienz von DeepSeek und ver­gle­ich­bar­er Mod­ell wie Tülu 3 405B ist die Nutzung der kollek­tiv­en Intel­li­genz in Gestalt des Open Source-Ansatzes. So stellt Tülu 3 405B nicht nur den gesamten Infra­struk­tur-Code, son­dern auch die Train­ings­dat­en, Mod­ell­gewichte und Evaluierungsmeth­o­d­en zur Ver­fü­gung. Dieser voll­ständig offene Ansatz ermöglicht es Nutzern, die gesamte Pipeline von der Date­nauswahl bis zur Evaluierung anzu­passen2Ai2 stellt neues Open-Source-KI-Mod­ell Tülu 3 405B vor.

Rechen- und Lern­ver­fahren

Weit­ere wichtige Ele­mente sind die die Mul­ti-Head Latent Atten­tion (MLA) Tech­nik, die redun­dante Berech­nun­gen reduziert und die Aufmerk­samkeit auf Schlüs­sel­muster konzen­tri­ert, was die Effizienz weit­er steigert und das reine Rein­force­ment Learn­ing, mit dem DeepSeek R1 auss­chließlich trainiert wurde, ohne vorheriges Super­vised Fine-Tun­ing. Dies ermöglicht autonomes Ler­nen und Opti­mierung des Schlussfol­gerns bei gle­ichzeit­iger drastis­ch­er Reduzierung der Train­ingskosten. Die effiziente Para­me­ter­nutzung spielt eben­falls eine wichtige Rolle: Mit ins­ge­samt 671 Mil­liar­den Para­me­tern, von denen nur etwa 37 Mil­liar­den pro Token aktiv sind, liefert das Mod­ell eine außergewöhn­liche Leis­tung bei gle­ichzeit­iger Ressourcenef­fizienz.

Inno­va­tion durch Kom­bi­na­tion 

Das Beispiel DeepSeek zeigt auch, das durch die geschick­te Kom­bi­na­tion von KI-Mod­ellen, Rechen- und Lern­ver­fahren und eben­so wie durch intel­li­gentes Sys­temde­sign und mod­erne Organ­i­sa­tion Inno­va­tio­nen geschaf­fen wer­den kön­nen, wie sie durch die Ver­wen­dung nur einiger dieser Fak­toren nicht möglich sind. In der Ökonomie wäre als Ver­gle­ich bzw. Analo­gie die Durch­set­zung neuer Kom­bi­na­tio­nen von Pro­duk­tions­fak­toren nach Joseph Schum­peter zu nen­nen.

Ket­ten effizien­ter Agen­ten ersten große Mod­elle 

Für Kiara Nirgh­in fol­gt aus dem “DeepSeek-Schock”, dass effiziente Architek­turen, die auf KI-Agen­ten set­zen, den Vor­rang haben. Anstelle mas­siv­er Mod­elle soll­ten Ket­ten spezial­isiert­er KI-Agen­ten zum Ein­satz kom­men. Die Unternehmen sollen in Sys­teme investieren, die sowohl die Leis­tung als auch die Umweltauswirkun­gen opti­mieren und eine Infra­struk­tur auf­bauen, welche die iter­a­tive Entwick­lung durch den Men­schen im Kreis­lauf unter­stützt3Clever archi­tec­ture over raw com­pute: DeepSeek shat­ters the ‘big­ger is bet­ter’ approach to AI devel­op­ment.

Statt wie heute noch zu fra­gen “Wie viel Rechen­leis­tung kön­nen wir uns leis­ten?“ find­et eine Ver­lagerung auf die Frage „Wie intel­li­gent und damit ökonomisch kön­nen wir unsere Sys­teme gestal­ten?“ statt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Klicken, um den Text zu hören