Während deutsche Unternehmen noch mit ein­fachen RAG-Pipelines exper­i­men­tieren, markiert ADORE einen Par­a­dig­men­wech­sel: von lin­ear­er Retrieval-Logik zu struk­turi­ertem Evi­denz­man­age­ment. Die eigentliche Inno­va­tion liegt nicht in der Agen­tenorch­estierung, son­dern in der Frage, die das Sys­tem beant­worten kann – „Woher weiß ich das?” statt nur „Was weiß ich?”. 


I. Das Ver­sprechen und seine Vorgeschichte

Enter­prise-RAG ist zum Fetisch der Dig­i­tal­isierungsabteilun­gen gewor­den. Vek­tor­suche, Chunk-Embed­dings, Prompt-Tun­ing – die Mechanik ist ver­standen, die Tool­chains sind aus­gereift, die Proof-of-Con­cepts stapeln sich. Und doch: Die meis­ten Sys­teme scheit­ern nicht an tech­nis­ch­er Kom­plex­ität, son­dern an epis­temis­ch­er Naiv­ität. Sie ver­wech­seln Infor­ma­tion­sre­trieval mit Wis­senskon­struk­tion.

ADORE – „Agen­tic Deep Research and Orches­tra­tion Engine” – adressiert genau dieses Prob­lem. Nicht durch mehr Para­me­ter, nicht durch bessere Embed­dings, son­dern durch eine architek­tonis­che Neuord­nung: Die Tren­nung von Evi­den­za­kku­mu­la­tion und Wis­sens­ge­nese. Was auf den ersten Blick wie ein weit­eres Mul­ti-Agen­ten-Frame­work aussieht, ist bei genauerem Hin­se­hen ein Sys­tem mit klar­er epis­te­mol­o­gis­ch­er Posi­tion.

II. Die drei Schwächen klas­sis­ch­er RAG-Architek­turen

Die Kri­tik an „retrieve-then-generate”-Pipelines ist nicht neu, aber ADORE for­muliert sie präzise:
Ober­fläch­lichkeit. Klas­sis­che RAG-Sys­teme opti­mieren auf Speed und Kosten­ef­fizienz. Das Ergeb­nis: plau­si­ble, aber flache Antworten. Für FAQ-Automa­tion aus­re­ichend, für strate­gis­che Entschei­dungs­grund­la­gen unbrauch­bar.

Intrans­parenz. Woher stammt eine konkrete Aus­sage im gener­ierten Report? Klas­sis­che Sys­teme kön­nen das nicht beant­worten – die Gener­ierung ist black box, die Quellen sind besten­falls als Fußnoten appendiert, nicht aber struk­turell mit Claims verknüpft.

Unkon­trol­lierte Voll­ständigkeit. Wann ist genug recher­chiert? Klas­sis­che Sys­teme stop­pen nach N Iter­a­tio­nen oder K retrieval calls. Nicht weil die Frage beant­wortet ist, son­dern weil das Bud­get erschöpft ist. Das ist Prozess­logik, keine Wis­senslogik — was aber nicht unbe­d­ingt falsch sein muss, wie die Forschun­gen von Gerd Gigeren­z­er zu den sog. Sim­ple Heuris­tics zeigen1Sim­ple Heuris­tics That Make Us Smart.

III. Mem­o­ry Bank als epis­temis­che Infra­struk­tur

Die zen­trale Inno­va­tion von ADORE ist die Mem­o­ry Bank – ein Claim-Evi­dence-Graph, der nicht ein­fach Chunks sam­melt, son­dern struk­turi­erte Wis­sens­frag­mente mit expliziten Belegket­ten spe­ichert. Jed­er Claim ist mit konkreter Evi­denz verknüpft, jede Evi­denz ist ein­er Quelle zuge­ord­net, jed­er Abschnitt hat zuge­lassene Evi­denz-Sub­sets.

Das klingt tech­nisch, ist aber konzep­tionell radikal: Das Sys­tem darf nicht „impro­visieren”. Die „mem­o­ry-locked syn­the­sis” erzwingt, dass jede Aus­sage im finalen Report auf doku­men­tierte Evi­denz zurück­führbar ist. Kein Hal­luzinieren, kein Inter­polieren, kein „plau­si­bel klin­gen­des Rauschen”.

Diese architek­tonis­che Diszi­plin löst das Ver­trauen­sprob­lem gen­er­a­tiv­er Sys­teme. Nicht durch bessere Mod­elle, son­dern durch struk­turelle Con­straints. Die Mem­o­ry Bank ist weniger Wis­sensspe­ich­er als vielmehr epis­temis­che Fire­wall.

IV. Evi­dence-Cov­er­age als Qual­itätsmetrik

Der zweite Mech­a­nis­mus ist sub­til­er: Evidence-coverage–guided exe­cu­tion. Statt fix­er Retrieval-Schleifen führt ADORE einen reflex­iv­en Loop ein: Nach jedem Retrieval-Schritt wird geprüft, welche Teile der Out­line noch unzure­ichend belegt sind. Lück­en wer­den iden­ti­fiziert, Queries wer­den gezielt nachgeschärft, weit­ere Quellen wer­den erschlossen.

Das Sys­tem stoppt nicht nach X Iter­a­tio­nen, son­dern wenn vordefinierte Cov­er­age-Kri­te­rien erfüllt sind. Das ist näher an men­schlichem Research-Ver­hal­ten: Man recher­chiert, bis man die Frage beant­worten kann, nicht bis die Zeit abge­laufen ist.

Hier zeigt sich der Unter­schied zwis­chen Prozes­sop­ti­mierung und Wis­sensar­chitek­tur. Klas­sis­che RAG-Sys­teme opti­mieren Latenz und Token-Effizienz. ADORE opti­miert epis­temis­che Voll­ständigkeit. Das kostet mehr, dauert länger, ist kom­plex­er – aber es liefert, was Enter­prise-Kon­text tat­säch­lich braucht: belast­bare Grund­la­gen für Entschei­dun­gen.

V. Agen­tenorch­estierung als Arbeit­steilung

Die Mul­ti-Agen­ten-Architek­tur – Ground­ing Agent, Plan­ning Agent, Exe­cu­tion Agent, Report Gen­er­a­tion Agent – ist weniger tech­nis­che Spiel­erei als funk­tionale Dif­feren­zierung:

  • Ground­ing Agent: Klärung der Anfrage, Scope-Def­i­n­i­tion
  • Plan­ning Agent: Struk­turierung als edi­tier­bare Out­line
  • Exe­cu­tion Agent: Iter­a­tives Retrieval mit Query-Evo­lu­tion
  • Report Gen­er­a­tion: Mem­o­ry-locked Syn­the­sis

Diese Arbeit­steilung spiegelt die Phasen men­schlich­er Research-Arbeit. Der Unter­schied: Das Sys­tem doku­men­tiert expliz­it, was in jed­er Phase passiert. Jed­er Schritt ist nachvol­lziehbar, jede Entschei­dung ist pro­tokol­liert.

Das ist keine bloße Trans­parenz-Kos­metik. Es ist die Voraus­set­zung für Audit­ing. In reg­ulierten Branchen – Finance, Health­care, Legal – ist Nachvol­lziehbarkeit keine Nice-to-have-Fea­ture, son­dern Com­pli­ance-Anforderung.

VI. Die Bench­mark-Frage und die PR-Schere

Die Evaluierungsergeb­nisse sind beein­druck­end: RACE-Score 52,65 (Platz 1 Deep­Re­search Bench), Win-Rate 77% im Head-to-Head, 28% über Human Base­line im Enter­prise-Bench­mark.

Aber hier begin­nt die kri­tis­che Frage.

Was genau wurde gemessen? Voll­ständigkeit? Präzi­sion? Sprach­liche Qual­ität? Nüt­zlichkeit für tat­säch­liche Entschei­dun­gen? Die Bench­marks messen, was mess­bar ist – nicht notwendig, was rel­e­vant ist.

Die PR-Schere – die Lücke zwis­chen kom­mu­niziert­er Leis­tungs­fähigkeit und oper­a­tiv­er Real­ität – öffnet sich genau hier. ADORE mag bessere Reports schreiben als Wet­tbe­wer­ber. Aber schreibt es Reports, die bessere Entschei­dun­gen ermöglichen? Funk­tion­iert es robust mit unstruk­turi­erten Enter­prise-Dat­en? Wie ver­hält es sich bei wider­sprüch­lichen Quellen, bei Zeit­druck, bei unklaren Fragestel­lun­gen?

VII. Epis­temis­che Architek­tur als Par­a­dig­ma

ADORE ist weniger ein Pro­dukt als ein Architek­tur-Par­a­dig­ma. Die eigentliche Inno­va­tion liegt nicht in der tech­nis­chen Umset­zung, son­dern in der konzep­tionellen Entschei­dung: Wis­sen ist nicht das, was ein LLM gener­iert, son­dern das, was struk­turi­ert doku­men­tiert und nachvol­lziehbar belegt ist.

Diese Posi­tion hat Kon­se­quen­zen:

  • Langsamkeit als Qual­itätsmerk­mal: Gute Research braucht Zeit. Sys­teme, die das nicht akzep­tieren, liefern schlechte Research.
  • Kom­plex­ität als Notwendigkeit: Epis­temis­che Diszi­plin ist nicht ein­fach. Sys­teme, die das ver­schleiern, sind unser­iös.
  • Doku­men­ta­tion als Kern­funk­tion: Was nicht doku­men­tiert ist, ist nicht passiert. Sys­teme, die das ignori­eren, sind nicht audi­tier­bar.

IX. Offene Fra­gen

Drei Fra­gen bleiben:

Erstens: Kosten­struk­tur. Ein Mul­ti-Agen­ten-Sys­tem mit iter­a­tivem Retrieval ist teuer. Wann recht­fer­tigt Qual­ität den Aufwand? Wo ist „gut genug” bess­er als „sys­tem­a­tisch voll­ständig”?

Zweit­ens: Robus­theit. Wie ver­hält sich ADORE, wenn der Plan­ning Agent eine sub­op­ti­male Out­line erstellt? Wenn Retrieval keine rel­e­vante Evi­denz find­et? Wenn Quellen wider­sprüch­lich sind?

Drit­tens: Inte­gra­tion. Wie lässt sich ADORE in beste­hende Enter­prise-Infra­struk­turen ein­bet­ten? Welche Daten­quellen kann es erschließen? Welche Com­pli­ance-Anforderun­gen kann es erfüllen?

X. Faz­it: Epis­te­molo­gie vor Tech­nolo­gie

ADORE zeigt, dass die Zukun­ft von Enter­prise-AI nicht in besseren Mod­ellen liegt, son­dern in besseren Architek­turen. Architek­turen, die epis­temis­che Diszi­plin erzwin­gen. Architek­turen, die Nachvol­lziehbarkeit struk­turell garantieren. Architek­turen, die Wis­senskon­struk­tion als mehrstu­fi­gen, doku­men­tierten Prozess ver­ste­hen.

Das ist keine tech­nis­che Inno­va­tion. Es ist eine konzep­tionelle Neuaus­rich­tung. Von „Was kann das Mod­ell?” zu „Was darf das Sys­tem?”. Von Opti­mierung auf Plau­si­bil­ität zu Opti­mierung auf Nach­weis­barkeit. Von gen­er­a­tiv­er Beliebigkeit zu struk­turi­ert­er Evi­denz.

Ob ADORE sich durch­set­zt, wird weniger von Bench­marks abhän­gen als von der Frage, ob Unternehmen bere­it sind, Kom­plex­ität als Preis für Qual­ität zu akzep­tieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert