Getting your Trinity Audio player ready...
|
Große Sprachmodelle (LLMs) haben die Softwareentwicklung bereits ein Stück weit verändert. Dennoch sollten Unternehmen vorsichtig sein, menschliche Softwareingenieure vollständig durch LLMs zu ersetzen. Trotz der Behauptung von OpenAI-CEO Sam Altman, dass Modelle “niedrigstufige” Ingenieure ersetzen können, zeigt eine neue Studie von OpenAI-Forschern, dass LLMs nicht in der Lage sind, die zugrunde liegenden Probleme bei Bugs zu erkennen und oft Fehler machen1AI can fix bugs—but can’t find them: OpenAI’s study highlights limits of LLMs in software engineering.
Die Forscher entwickelten einen Benchmark namens SWE-Lancer, um zu testen, wie gut LLMs reale Aufgaben aus der Freelance-Softwareentwicklung bewältigen können. Sie ließen drei Modelle — OpenAIs GPT-4o und o1 sowie Anthropic’s Claude‑3.5 Sonnet — 1.488 Aufgaben von der Plattform Upwork bearbeiten, die insgesamt 1 Million USD ausmachten. Die Aufgaben wurden in individuelle Beiträge (z. B. Fehlerbehebung) und Managementaufgaben unterteilt.
Die Ergebnisse zeigen, dass die Modelle zwar bei der Fehlerbehebung helfen können, jedoch nicht auf dem Niveau sind, um eigenständig Einnahmen zu generieren. Claude 3.5 Sonnet war das am besten abschneidende Modell und löste 26,2 % der individuellen Aufgaben, erzielte jedoch nur 208.050 USD und viele Lösungen waren fehlerhaft.
Die Tests verdeutlichen, dass die Modelle zwar bei der Lokalisierung von Problemen schnell sind, jedoch oft die zugrunde liegenden Ursachen nicht erkennen. In Managementaufgaben, die technisches Verständnis erforderten, schnitten die Modelle besser ab. Insgesamt zeigen die Tests, dass KI-Modelle einige “niedrigstufige” Programmierprobleme lösen können, jedoch menschliche Ingenieure nicht ersetzen können — zumindest noch nicht.