Getting your Trinity Audio player ready...

Trotz beein­druck­ender Fähigkeit­en in Finanzfra­gen scheit­ern die meis­ten Large Lan­guage Mod­els daran, in realen Märk­ten prof­ita­bel zu han­deln. Der neue STOCK­BENCH-Bench­mark offen­bart eine unbe­queme Wahrheit: Wis­sen über Finanzen bedeutet noch lange nicht, dass man erfol­gre­ich investieren kann.


Die Fasz­i­na­tion für kün­stliche Intel­li­genz im Finanzwe­sen ist nicht neu. Seit Jahren ver­sprechen Entwick­ler, dass selb­stler­nende Algo­rith­men die Märk­te durch­schauen und prof­itable Han­delsentschei­dun­gen tre­f­fen kön­nen. Doch während Large Lan­guage Mod­els (LLMs) wie GPT oder Claude in sta­tis­chen Finanzprü­fun­gen glänzen, stellt sich die entschei­dende Frage: Kön­nen diese Sys­teme auch in der rauen Real­ität dynamis­ch­er Märk­te beste­hen? Eine aktuelle Forschungsar­beit liefert mit STOCKBENCH erst­mals einen real­is­tis­chen Maßstab – und die Ergeb­nisse sind ernüchternd1STOCKBENCH: CAN LLM AGENTS TRADE STOCKS PROFITABLY IN REAL-WORLD MARKETS?.

Die Lücke zwis­chen The­o­rie und Prax­is

Bish­erige Bench­marks im Finanzbere­ich konzen­tri­erten sich primär auf Wis­sens­fra­gen: Kann ein Mod­ell Finanzbe­griffe erk­lären? Ver­ste­ht es Jahresab­schlüsse? Solche Tests erfassen jedoch nicht die Kom­plex­ität real­er Investi­tion­sentschei­dun­gen. Märk­te sind keine sta­tis­chen Prü­fungs­bö­gen, son­dern lebendi­ge Sys­teme, in denen sich Preise, Stim­mungen und Fun­da­men­tal­dat­en kon­tinuier­lich verän­dern. STOCKBENCH wurde entwick­elt, um genau diese Lücke zu schließen.

Der Bench­mark basiert auf drei fun­da­men­tal­en Prinzip­i­en: Erstens erhal­ten die KI-Agen­ten real­is­tis­che Mark­t­in­for­ma­tio­nen – tägliche Kurse, Unternehmensfun­da­men­tal­dat­en und Nachricht­e­nar­tikel. Zweit­ens müssen sie über einen mehrmonati­gen Zeitraum hin­weg kon­tinuier­lich Entschei­dun­gen tre­f­fen, ob sie Aktien kaufen, verkaufen oder hal­ten. Drit­tens – und dies ist beson­ders clever – ver­wen­det STOCKBENCH aktuelle Dat­en aus dem Jahr 2025, die außer­halb des Train­ingszeitraums mod­ern­er LLMs liegen. Damit wird sichergestellt, dass die Mod­elle nicht ein­fach auswendig gel­ernte Muster repro­duzieren, son­dern tat­säch­lich analysieren und entschei­den müssen.

Ernüchternde Ergeb­nisse im Härtetest

Die Forsch­er testeten eine Vielzahl mod­ern­ster Mod­elle, darunter pro­pri­etäre Sys­teme wie GPT‑5 und Claude‑4 sowie Open-Source-Alter­na­tiv­en. Das Szenario: Han­del mit 20 hochgewichteten Aktien des Dow Jones Indus­tri­al Aver­age über mehrere Monate. Als Ver­gle­ichs­maßstab diente die sim­pel­ste aller Strate­gien – Buy and Hold, also ein­fach kaufen und hal­ten. Diese pas­sive Strate­gie erzielte eine Ren­dite von 0,4 Prozent.

Das ernüchternde Ergeb­nis: Die meis­ten LLM-Agen­ten kämpften damit, selb­st diese beschei­dene Base­line kon­sis­tent zu übertr­e­f­fen. Während einige Mod­elle phasen­weise höhere Ren­diten zeigten, fehlte es an Kon­stanz. Pos­i­tiv her­vorzuheben ist allerd­ings das Risiko­man­age­ment: Alle getesteten Mod­elle wiesen einen gerin­geren max­i­malen Draw­down auf als die Base­line – sie ver­loren in schlecht­en Phasen also weniger Geld. Dies deutet darauf hin, dass die Sys­teme zumin­d­est in der Lage sind, Ver­lus­trisiken zu begren­zen, auch wenn die Gewin­nerzielung prob­lema­tisch bleibt.

Beson­ders auf­schlussre­ich ist die Diskrepanz zwis­chen the­o­retis­chem Wis­sen und prak­tis­ch­er Anwen­dung. Mod­elle, die in sta­tis­chen Finanz-Wis­senstests bril­lierten, ver­sagten in der dynamis­chen Han­delssim­u­la­tion. Die Fähigkeit, Konzepte zu erk­lären, bedeutet offen­bar nicht, dass man diese auch gewinnbrin­gend anwen­den kann – eine Lek­tion, die auch men­schliche Inve­storen schmer­zlich ler­nen müssen.

Wenn die Kom­plex­ität steigt, bricht die Per­for­mance ein

Eine detail­lierte Analyse offen­bart weit­ere Schwach­stellen. Sobald die Anzahl der zu han­del­nden Aktien von fünf auf dreißig erhöht wurde, ver­schlechterte sich die Per­for­mance der Agen­ten drama­tisch. Die Skalierung der Entschei­dungs­find­ung stellt offen­sichtlich eine erhe­bliche Her­aus­forderung dar. Je mehr Vari­ablen zu berück­sichti­gen sind, desto über­fordert scheinen die Sys­teme.

Abla­tion­sstu­di­en – also Tests, bei denen sys­tem­a­tisch bes­timmte Infor­ma­tion­squellen ent­fer­nt wur­den – zeigten zudem, wie abhängig die Mod­elle von umfassenden Dat­en sind. Sowohl Nachricht­e­nar­tikel als auch Fun­da­men­tal­dat­en erwiesen sich als entschei­dend. Ohne diese Inputs brach die Per­for­mance kon­sis­tent ein. Dies unter­stre­icht, dass LLM-Agen­ten nicht aus rein­er “Intu­ition” han­deln, son­dern stark von der Qual­ität und Voll­ständigkeit ihrer Infor­ma­tions­ba­sis abhän­gen.

Beson­ders prob­lema­tisch erwies sich das Ver­hal­ten in ver­schiede­nen Mark­t­phasen. Während die Agen­ten in Bul­len­märk­ten – also Phasen steigen­der Kurse – teil­weise die Base­line übertr­e­f­fen kon­nten, ver­sagten sie in Bären­märk­ten fast voll­ständig. Ger­ade in schwieri­gen Zeit­en, wenn antizyk­lis­ches Denken und Ner­ven­stärke gefragt sind, zeigen die aktuellen Sys­teme gravierende Schwächen.

Ein Werkzeug für die Zukun­ft

STOCKBENCH ist mehr als nur ein weit­er­er Bench­mark. Es ist ein Real­itätscheck für die KI-Forschung im Finanzbere­ich. Die Ergeb­nisse demon­stri­eren, dass der Weg von beein­druck­enden Chat­bots zu prof­itablen Han­del­sagen­ten noch weit ist. Aktuelle LLMs mögen in der Lage sein, Finanz­nachricht­en zusam­men­z­u­fassen oder Anlages­trate­gien zu erk­lären, doch die kon­sis­tente, prof­itable Nav­i­ga­tion kom­plex­er Mark­tbe­din­gun­gen über­steigt ihre derzeit­i­gen Fähigkeit­en.

Die Forsch­er stellen STOCKBENCH als Open-Source-Ressource zur Ver­fü­gung und pla­nen, den Bench­mark kon­tinuier­lich mit neuen Dat­en zu aktu­al­isieren. Dies schafft einen wertvollen Stan­dard für zukün­ftige Entwick­lun­gen. Vielle­icht wer­den kom­mende Gen­er­a­tio­nen von KI-Sys­te­men tat­säch­lich ler­nen, was derzeit noch fehlt: die Fähigkeit, in unsicheren, dynamis­chen Umge­bun­gen nicht nur zu analysieren, son­dern auch klug zu han­deln.

Bis dahin bleibt die Botschaft klar: Wer sein Geld an der Börse anle­gen möchte, sollte nicht blind auf KI-Agen­ten ver­trauen. Die kün­stliche Intel­li­genz mag vieles kön­nen – aber den Markt zu schla­gen gehört bis­lang nicht zuver­läs­sig dazu.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert