Getting your Trinity Audio player ready...

Forsch­er von Sales­force und der Uni­ver­si­ty of South­ern Cal­i­for­nia haben mit CoAct‑1 ein neues Sys­tem entwick­elt, das die Vorteile von GUI-Inter­ak­tion und pro­gram­ma­tis­ch­er Steuerung kom­biniert1Salesforce’s new CoAct‑1 agents don’t just point and click — they write code to accom­plish tasks faster and with greater suc­cess rates. Dieses hybride Sys­tem verbessert die Effizienz und Zuver­läs­sigkeit von KI-Agen­ten erhe­blich, indem es GUI-basierte Auf­gaben mit präzisem Code-Han­dling ergänzt.

Kern­punk­te:

Prob­lem bei GUI-Agents:

  • GUI-Agents, die auf Vision-Lan­guage-Mod­ellen basieren, sind oft fehler­an­fäl­lig bei kom­plex­en Work­flows, da sie auf visuelle Nav­i­ga­tion und Klicks angewiesen sind. Dies führt zu Prob­le­men wie Ambi­gu­i­tät und hoher Fehler­an­fäl­ligkeit bei lan­gen Auf­gaben­ket­ten.

Lösung mit CoAct‑1:

CoAct‑1 kom­biniert drei spezial­isierte Agen­ten:

  • Orches­tra­tor: Bricht Auf­gaben in Teilauf­gaben herunter und delegiert sie.
  • Pro­gram­mer: Führt Back­end-Auf­gaben durch Code (z. B. Python, Bash) aus.
  • GUI Oper­a­tor: Hand­habt visuelle Inter­ak­tio­nen wie Klicks und Nav­i­ga­tion.

Diese Arbeit­steilung reduziert die Anzahl der benötigten Schritte und min­imiert Fehlerquellen.

Ergeb­nisse:

  • CoAct‑1 erzielte auf dem OSWorld-Bench­mark eine Erfol­gsrate von 60,76% (neuer Spitzen­wert).
  • Es benötigt durch­schnit­tlich 10,15 Schritte pro Auf­gabe, deut­lich weniger als GUI-basierte Sys­teme (z. B. 15,22 Schritte bei GTA‑1).
  • Beson­ders effizient bei OS-Lev­el- und Mul­ti-App-Auf­gaben, wo Code die GUI-Inter­ak­tion erset­zt.

Ein­satzmöglichkeit­en:

  • Automa­tisierung in Bere­ichen wie Kun­denser­vice, Buch­hal­tung, Mar­ket­ing und kom­plex­en Mul­ti-Tool-Prozessen.
  • Ide­al für Szenar­ien, in denen API-Zugriffe begren­zt sind.

Her­aus­forderun­gen:

  • Robus­theit: Anpas­sung an real­is­tis­che Unternehmen­su­mge­bun­gen mit unvorherse­hbaren UIs.
  • Sicher­heit: Schutz vor schädlichem Code durch Sand­box­ing und men­schliche Kon­trollmech­a­nis­men.
  • Human-in-the-Loop: Men­schliche Auf­sicht bleibt für kri­tis­che Auf­gaben uner­lässlich.

Faz­it:

CoAct‑1 ist ein bedeu­ten­der Fortschritt für die Automa­tion von Com­put­er­auf­gaben, indem es GUI-Inter­ak­tio­nen und pro­gram­ma­tis­che Effizienz verbindet. Es bietet viel Poten­zial für Anwen­dun­gen in der Prax­is, jedoch bleiben Sicher­heits- und Robus­theits­fra­gen zen­trale Her­aus­forderun­gen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert