Getting your Trinity Audio player ready...

KI-Agen­ten in der Unternehmenswelt: Aktuelle Entwick­lun­gen und Trends


CoAct 1: Hybrides Sys­tem für effiziente KI-Inter­ak­tion

Forsch­er von Sales­force und der Uni­ver­si­ty of South­ern Cal­i­for­nia haben mit CoAct 1 ein neues Sys­tem entwick­elt, das die Vorteile von GUI-Inter­ak­tion und pro­gram­ma­tis­ch­er Steuerung kom­biniert. Dieses hybride Sys­tem verbessert die Effizienz und Zuver­läs­sigkeit von KI-Agen­ten erhe­blich, indem es GUI-basierte Auf­gaben mit präzisem Code-Han­dling ergänzt1CoAct‑1: Ein Mul­ti-Agen­ten-Sys­tem für effiziente und zuver­läs­sige Automa­tisierung von Com­put­er­auf­gaben.

Kern­punk­te:

  • Prob­lem bei GUI-Agents:
    • GUI-Agents, die auf Vision-Lan­guage-Mod­ellen basieren, sind oft fehler­an­fäl­lig bei kom­plex­en Work­flows, da sie auf visuelle Nav­i­ga­tion und Klicks angewiesen sind. Dies führt zu Prob­le­men wie Ambi­gu­i­tät und hoher Fehler­an­fäl­ligkeit bei lan­gen Auf­gaben­ket­ten.
  • Lösung mit CoAct 1:
    CoAct 1 kom­biniert drei spezial­isierte Agen­ten:
    • Orches­tra­tor: Bricht Auf­gaben in Teilauf­gaben herunter und delegiert sie.
    • Pro­gram­mer: Führt Back­end-Auf­gaben durch Code (z. B. Python, Bash) aus.
    • GUI Oper­a­tor: Hand­habt visuelle Inter­ak­tio­nen wie Klicks und Nav­i­ga­tion.
      Diese Arbeit­steilung reduziert die Anzahl der benötigten Schritte und min­imiert Fehlerquellen.
  • Ergeb­nisse:
    • CoAct 1 erzielte auf dem OSWorld-Bench­mark eine Erfol­gsrate von 60,76% (neuer Spitzen­wert).
    • Es benötigt durch­schnit­tlich 10,15 Schritte pro Auf­gabe, deut­lich weniger als GUI-basierte Sys­teme (z. B. 15,22 Schritte bei GTA 1).
    • Beson­ders effizient bei OS-Lev­el- und Mul­ti-App-Auf­gaben, wo Code die GUI-Inter­ak­tion erset­zt.

Ein­satzmöglichkeit­en:

  • Automa­tisierung in Bere­ichen wie Kun­denser­vice, Buch­hal­tung, Mar­ket­ing und kom­plex­en Mul­ti-Tool-Prozessen.
  • Ide­al für Szenar­ien, in denen API-Zugriffe begren­zt sind.

Her­aus­forderun­gen:

  • Robus­theit: Anpas­sung an real­is­tis­che Unternehmen­su­mge­bun­gen mit unvorherse­hbaren UIs.
  • Sicher­heit: Schutz vor schädlichem Code durch Sand­box­ing und men­schliche Kon­trollmech­a­nis­men.
  • Human-in-the-Loop: Men­schliche Auf­sicht bleibt für kri­tis­che Auf­gaben uner­lässlich.

Faz­it:

CoAct 1 ist ein bedeu­ten­der Fortschritt für die Automa­tion von Com­put­er­auf­gaben, indem es GUI-Inter­ak­tio­nen und pro­gram­ma­tis­che Effizienz verbindet. Es bietet viel Poten­zial für Anwen­dun­gen in der Prax­is, jedoch bleiben Sicher­heits- und Robus­theits­fra­gen zen­trale Her­aus­forderun­gen.

Mol­moAct 7B: Fortschritt in der Robotik

Das Allen Insti­tute for AI (Ai2) hat mit Mol­moAct 7B ein neues Open-Source-Mod­ell entwick­elt, das Robot­ern ermöglicht, in 3D-Räu­men zu “denken” und physis­che Entschei­dun­gen zu tre­f­fen. Im Gegen­satz zu herkömm­lichen Vision-Lan­guage-Action-Mod­ellen (VLAs) kann Mol­moAct räum­lich begrün­dete Wahrnehmungsto­ken erzeu­gen, die Geome­trien kodieren und Dis­tanzen zwis­chen Objek­ten berech­nen2Mol­moAct 7B: Fortschritt in der Ver­schmelzung von KI und Robotik.

Eigen­schaften von Mol­moAct:

  • 3D-Raum-Ver­ständ­nis: Pla­nen und Han­deln in physis­ch­er Umge­bung.
  • Flex­i­bil­ität: Anpass­bar an ver­schiedene Robot­er­typen (z. B. mech­a­nis­che Arme, humanoide Robot­er) mit min­i­malem Fein­tun­ing.
  • Erfol­gsrate: 72,1 % bei Auf­gaben­bench­marks, bess­er als Mod­elle von Google, Microsoft und Nvidia.

Anwen­dun­gen:

  • Mol­moAct kann in unstruk­turi­erten Umge­bun­gen wie Haushal­ten einge­set­zt wer­den, wo sich Bedin­gun­gen ständig ändern. Es bietet eine Grund­lage für effizien­tere und flex­i­blere Robotik.

Bedeu­tung und Her­aus­forderun­gen:

  • Experten wie Alan Fern von der Ore­gon State Uni­ver­si­ty sehen Mol­moAct als wichti­gen Fortschritt in der 3D-physikalis­chen Mod­el­lierung, jedoch bleibt die Kom­plex­ität real­er Szenar­ien eine Her­aus­forderung. Die Offen­heit der Dat­en und der Apache 2.0 Lizen­zierung erle­ichtert die Weit­er­en­twick­lung durch Forsch­er und Entwick­ler.

Faz­it:

Während physis­che KI noch in den Kinder­schuhen steckt, ermöglichen LLM-basierte Ansätze eine schnellere Entwick­lung intel­li­gen­ter Robot­er. Unternehmen wie Google, Meta und Nvidia exper­i­men­tieren weit­er, um die Vision ein­er all­ge­meinen physis­chen Intel­li­genz zu ver­wirk­lichen.

KI als Part­ner für Pro­duk­t­man­ag­er

Kün­stliche Intel­li­genz spielt eine immer wichtigere Rolle für Pro­duk­t­man­ag­er (PMs), indem sie Auf­gaben von Mark­t­analy­sen bis zur UX-Gestal­tung unter­stützt3KI-Agen­ten für das Pro­duk­t­man­age­ment.

Ansätze:

Aug­men­ta­tion:

  • KI arbeit­et als Assis­tent für Recherche, Date­n­analyse, UX-Design und Ideen­find­ung. Tools wie Gem­i­ni GEMs oder Claude Projects ermöglichen spezial­isierte Mini-Agen­ten für spez­i­fis­che Auf­gaben.

Automa­tisierung:

  • Wiederkehrende Auf­gaben wie Mark­t­berichte oder Bug-Track­ing kön­nen durch autonome Agen­ten voll­ständig automa­tisiert wer­den.

Frame­works:

  • Klare Zielfor­mulierung und Erfol­gsmes­sung (z. B. durch das 4‑Ach­sen-Mod­ell: tech­nis­che, men­schliche, zeitliche und kon­textbe­zo­gene Bew­er­tung).
  • Men­schliche Aus­rich­tung: Agen­ten sollen Nutzer unter­stützen, nicht erset­zen.

Schlüs­sel­prinzip­i­en:

  • Men­schzen­tri­erte Gestal­tung.
  • Ganzheitliche Bew­er­tung von Effizienz, Flex­i­bil­ität und Nutzer­fre­undlichkeit.
  • Zukun­ft­sori­en­tierung: PMs soll­ten sich auf agen­tengestützte Sys­teme vor­bere­it­en.

KI im Steuer- und Prü­fungswe­sen

Die DHBW Villin­gen-Schwen­nin­gen hat ein neues Fach “Dig­i­tal­isierung im Steuer- und Prü­fungswe­sen” einge­führt, das Studierende auf die verän­derten Anforderun­gen der Branche vor­bere­it­et4Die stille Rev­o­lu­tion in der Steuer­ber­atung.

Opti­mistis­ch­er Ansatz:

  • KI erset­zt Men­schen nicht, son­dern wird ein unverzicht­bar­er Assis­tent. Studierende ler­nen, wie Algo­rith­men bei Recherchen, Textzusam­men­fas­sun­gen und Rou­tineauf­gaben unter­stützen.

Her­aus­forderun­gen:

  • Automa­tisierung reduziert den Beratungs­be­darf in Bere­ichen, die durch Rou­tineauf­gaben geprägt sind.
  • Bera­tende Kom­pe­ten­zen gewin­nen an Bedeu­tung, da KI Grund­la­ge­nar­beit­en übern­immt.

Zukun­ft:

  • Die Kom­bi­na­tion von Tech­nikkom­pe­tenz und Soft Skills wird entschei­dend. Fach­wis­sen allein reicht nicht mehr aus.

GPT‑5: Fortschritt und Infra­struk­tur­falle

GPT‑5 bringt deut­liche tech­nis­che Verbesserun­gen, wird aber durch fehlende Infra­struk­tur aus­ge­bremst5GPT‑5: Der Sport­wa­gen auf der Schot­ter­piste.

Vorteile:

  • Verbesserte Kon­textfen­ster (bis zu 128.000 Tokens).
  • Gerin­gere Kosten: $1,25/Million Input-Tokens und $10/Million Out­put-Tokens.
  • 65% weniger Hal­luz­i­na­tio­nen.

Prob­lem:

  • Intel­li­gente Agen­ten benöti­gen eine robuste dig­i­tale Infra­struk­tur (z. B. naht­los­er Daten­bankzu­gang, Stan­dards für Agen­tenkom­mu­nika­tion).
  • Fehlende Stan­dards und hohe Skalierungskosten set­zen Gren­zen.

Empfehlung:

  • Pilot­pro­jek­te mit GPT‑5 und neue Gov­er­nance-Struk­turen, um Effizienz und Inte­gra­tion zu verbessern.

Dig­i­tal Iden­ti­ty Rights Frame­work (DIRF): Schutz dig­i­taler Iden­titäten

DIRF bietet einen umfassenden Rah­men, um dig­i­tale Iden­titäten vor Miss­brauch zu schützen6Wenn die Mas­chine uns kopiert: Die neue Bedro­hung für unsere dig­i­tale Iden­tität.

Ziele:

  • Ein­willi­gung und Eigen­tum an Ver­hal­tens­dat­en.
  • Rück­ver­fol­gbarkeit und Schutz vor unbefugtem Klo­nen.
  • Faire Mon­e­tarisierung dig­i­taler Iden­titäten.

Tech­nis­che Umset­zung:

  • DIRF ermöglicht Trans­parenz, Echtzeitüberwachung und Audi­tier­barkeit. Erste Tests zeigen eine Durch­set­zungs­ge­nauigkeit von über 90%.

Zukun­ft:

  • Weit­er­en­twick­lung hin zu zus­tim­mungs­ges­teuerten Iden­titäts­gen­er­a­toren und per­sis­ten­ter Klon­erken­nung.

Open-Source vs. geschlossene KI-Mod­elle

Eine Studie zeigt, dass Open-Source-Mod­elle oft inef­fizien­ter sind als geschlossene Sys­teme7Effizienz schlägt Intel­li­genz: Warum Open-Source-KI-Mod­elle teuer wer­den kön­nen.

Ergeb­nisse:

  • Open-Source-Mod­elle benöti­gen bis zu 10-mal mehr Tokens, was die Kosten langfristig erhöht.
  • Geschlossene Mod­elle wie OpenAI’s o4-mini sind stark auf Token-Effizienz opti­miert.

Empfehlung:

Unternehmen soll­ten Token-Effizienz neben Genauigkeit als zen­tralen Fak­tor betra­cht­en und ihre KI-Strate­gien entsprechend anpassen.

Total Cost of Own­er­ship (TCO) bei KI

Die TCO-Berech­nung ist entschei­dend für die langfristige Wirtschaftlichkeit von KI-Sys­te­men8Total Cost of Own­er­ship in der verteil­ten KI – zwis­chen Effizienz, Flex­i­bil­ität und Vielfalt.

Schw­er­punk­te:

  • Berück­sich­ti­gung aller Kosten (Anschaf­fung, Betrieb, Skalierung).
  • Ver­mei­dung von Sunk Costs durch offene Stan­dards und mod­u­lare Architek­turen.

Strate­gie:

  • Investi­tio­nen in grundle­gende Kom­pe­ten­zen und Flex­i­bil­ität sich­ern die Anpas­sungs­fähigkeit.

GEPA: Effiziente Opti­mierung von KI-Mod­ellen

GEPA (Genet­ic-Pare­to) verbessert die Opti­mierung großer Sprach­mod­elle durch genetis­che Prompt-Evo­lu­tion und sprach­basiertes Feed­back9GEPA: Neuar­tige Opti­mierungsmeth­ode für effizien­tere und kostengün­stigere KI-Sys­teme.

Vorteile:

  • Bis zu 35-mal weniger Testläufe.
  • 15-fache Kostenre­duk­tion bei Opti­mierung.
  • Kürzere Entwick­lungszeit­en.

Ergeb­nisse:

  • GEPA erzielte bis zu 19% höhere Leis­tung und erhöhte Zuver­läs­sigkeit in KI-Sys­te­men.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert