Getting your Trinity Audio player ready...

Große Sprach­mod­elle (LLMs) haben die Soft­wa­reen­twick­lung bere­its ein Stück weit verän­dert. Den­noch soll­ten Unternehmen vor­sichtig sein, men­schliche Soft­warein­ge­nieure voll­ständig durch LLMs zu erset­zen. Trotz der Behaup­tung von Ope­nAI-CEO Sam Alt­man, dass Mod­elle “niedrigstu­fige” Inge­nieure erset­zen kön­nen, zeigt eine neue Studie von Ope­nAI-Forsch­ern, dass LLMs nicht in der Lage sind, die zugrunde liegen­den Prob­leme bei Bugs zu erken­nen und oft Fehler machen1AI can fix bugs—but can’t find them: OpenAI’s study high­lights lim­its of LLMs in soft­ware engi­neer­ing.

Die Forsch­er entwick­el­ten einen Bench­mark namens SWE-Lancer, um zu testen, wie gut LLMs reale Auf­gaben aus der Free­lance-Soft­wa­reen­twick­lung bewälti­gen kön­nen. Sie ließen drei Mod­elle — Ope­nAIs GPT-4o und o1 sowie Anthropic’s Claude‑3.5 Son­net — 1.488 Auf­gaben von der Plat­tform Upwork bear­beit­en, die ins­ge­samt 1 Mil­lion USD aus­macht­en. Die Auf­gaben wur­den in indi­vidu­elle Beiträge (z. B. Fehler­be­he­bung) und Man­age­men­tauf­gaben unterteilt.

Die Ergeb­nisse zeigen, dass die Mod­elle zwar bei der Fehler­be­he­bung helfen kön­nen, jedoch nicht auf dem Niveau sind, um eigen­ständig Ein­nah­men zu gener­ieren. Claude 3.5 Son­net war das am besten abschnei­dende Mod­ell und löste 26,2 % der indi­vidu­ellen Auf­gaben, erzielte jedoch nur 208.050 USD und viele Lösun­gen waren fehler­haft.

Die Tests verdeut­lichen, dass die Mod­elle zwar bei der Lokalisierung von Prob­le­men schnell sind, jedoch oft die zugrunde liegen­den Ursachen nicht erken­nen. In Man­age­men­tauf­gaben, die tech­nis­ches Ver­ständ­nis erforderten, schnit­ten die Mod­elle bess­er ab. Ins­ge­samt zeigen die Tests, dass KI-Mod­elle einige “niedrigstu­fige” Pro­gram­mier­prob­leme lösen kön­nen, jedoch men­schliche Inge­nieure nicht erset­zen kön­nen — zumin­d­est noch nicht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert