Getting your Trinity Audio player ready...
|
Forscher von Salesforce und der University of Southern California haben mit CoAct‑1 ein neues System entwickelt, das die Vorteile von GUI-Interaktion und programmatischer Steuerung kombiniert1Salesforce’s new CoAct‑1 agents don’t just point and click — they write code to accomplish tasks faster and with greater success rates. Dieses hybride System verbessert die Effizienz und Zuverlässigkeit von KI-Agenten erheblich, indem es GUI-basierte Aufgaben mit präzisem Code-Handling ergänzt.
Kernpunkte:
Problem bei GUI-Agents:
- GUI-Agents, die auf Vision-Language-Modellen basieren, sind oft fehleranfällig bei komplexen Workflows, da sie auf visuelle Navigation und Klicks angewiesen sind. Dies führt zu Problemen wie Ambiguität und hoher Fehleranfälligkeit bei langen Aufgabenketten.
Lösung mit CoAct‑1:
CoAct‑1 kombiniert drei spezialisierte Agenten:
- Orchestrator: Bricht Aufgaben in Teilaufgaben herunter und delegiert sie.
- Programmer: Führt Backend-Aufgaben durch Code (z. B. Python, Bash) aus.
- GUI Operator: Handhabt visuelle Interaktionen wie Klicks und Navigation.
Diese Arbeitsteilung reduziert die Anzahl der benötigten Schritte und minimiert Fehlerquellen.
Ergebnisse:
- CoAct‑1 erzielte auf dem OSWorld-Benchmark eine Erfolgsrate von 60,76% (neuer Spitzenwert).
- Es benötigt durchschnittlich 10,15 Schritte pro Aufgabe, deutlich weniger als GUI-basierte Systeme (z. B. 15,22 Schritte bei GTA‑1).
- Besonders effizient bei OS-Level- und Multi-App-Aufgaben, wo Code die GUI-Interaktion ersetzt.
Einsatzmöglichkeiten:
- Automatisierung in Bereichen wie Kundenservice, Buchhaltung, Marketing und komplexen Multi-Tool-Prozessen.
- Ideal für Szenarien, in denen API-Zugriffe begrenzt sind.
Herausforderungen:
- Robustheit: Anpassung an realistische Unternehmensumgebungen mit unvorhersehbaren UIs.
- Sicherheit: Schutz vor schädlichem Code durch Sandboxing und menschliche Kontrollmechanismen.
- Human-in-the-Loop: Menschliche Aufsicht bleibt für kritische Aufgaben unerlässlich.
Fazit:
CoAct‑1 ist ein bedeutender Fortschritt für die Automation von Computeraufgaben, indem es GUI-Interaktionen und programmatische Effizienz verbindet. Es bietet viel Potenzial für Anwendungen in der Praxis, jedoch bleiben Sicherheits- und Robustheitsfragen zentrale Herausforderungen.