Das Web wurde für menschliche Augen gebaut. Es wird gerade für maschinelle Leser umgebaut. Und genau in dieser Übergangsphase entsteht eine Angriffsfläche, die in ihrer Systematik bisher kaum verstanden war. Ein Forschungsteam von Google DeepMind um Matija Franklin hat nun das erste umfassende Framework vorgelegt, das diese Bedrohung kartiert: AI Agent Traps – adversariale Inhalte, die gezielt in die Informationsumgebung autonomer KI-Agenten eingebettet werden, um diese zu manipulieren, zu täuschen oder für fremde Zwecke einzuspannen.
Die Implikationen für den Finanzsektor sind erheblich. Autonome Agenten übernehmen zunehmend operative Funktionen in Banken und Vermögensverwaltungen – von der Kreditprüfung über das algorithmische Trading bis zur regulatorischen Berichterstattung. Laut Evident Insights hat sich die Zahl der Technologen, die in den 50 größten Banken weltweit an Agentic AI arbeiten, gegenüber der zweiten Jahreshälfte 2024 verzehnfacht. Gleichzeitig planen 93 Prozent der Finanzinstitute die Einführung von Agentic AI binnen zwei Jahren. Die Angriffsfläche wächst damit schneller als die Abwehr.
Was: AI Agent Traps – adversariale Inhalte, die autonome KI-Agenten über ihre Informationsumgebung manipulieren
Wer: Google DeepMind (Franklin, Tomašev, Jacobs, Leibo, Osindero), veröffentlicht 2025
Framework: 6 Trap-Kategorien, die Wahrnehmung, Reasoning, Memory, Aktionen, Multi-Agent-Dynamik und menschliche Aufsicht angreifen
Erfolgsrate: Prompt Injection erreicht in produktiven Systemen 50–84 Prozent Angriffsquote
Regulierung: Weder EU AI Act noch DORA definieren „autonome AI-Agenten" – die Accountability Gap bei agent-verursachten Schäden ist ungeklärt
Der Paradigmenwechsel: Die Umgebung als Angriffsfläche
Sechs Kategorien, eine Erkenntnis
Klassische Cybersecurity schützt Systeme vor technischen Exploits – Code-Bugs, Konfigurationsfehler, ungepatchte Schwachstellen. AI Agent Traps funktionieren grundlegend anders: Sie manipulieren nicht das Modell selbst, sondern die Informationen, die der Agent konsumiert. Der Agent wird nicht gehackt; seine eigenen Fähigkeiten werden gegen ihn eingesetzt. Das Forschungsteam vergleicht die Herausforderung mit autonomem Fahren: Wie ein selbstfahrendes Auto manipulierte Straßenschilder erkennen muss, muss ein KI-Agent eine manipulierte Informationsumgebung durchschauen.
Das Framework unterscheidet sechs Kategorien, die jeweils eine andere funktionale Komponente des Agents angreifen. Content Injection Traps zielen auf die Wahrnehmung: Versteckte Befehle in HTML-Kommentaren, CSS-Attributen oder Metadaten sind für Menschen unsichtbar, werden aber vom Agent gelesen und als Instruktionen interpretiert. Der WASP-Benchmark zeigt, dass einfache Prompt Injections in Webinhalten in bis zu 86 Prozent der Szenarien eine partielle Übernahme des Agentenverhaltens bewirken. Semantic Manipulation Traps greifen das Reasoning an: Autoritativ formulierte Superlative wie „die branchenübliche Standardlösung" verschieben die Syntheserichtung des Modells systematisch, ohne dass ein expliziter Befehl nötig wäre.
Cognitive State Traps korrumpieren das Langzeitgedächtnis und die Wissensbasis des Agents. Besonders alarmierend ist hier das sogenannte RAG Knowledge Poisoning (RAG: Retrieval-Augmented Generation): Bereits fünf gezielt gestaltete Dokumente in einer Datenbank mit Millionen Einträgen erreichen eine Angriffserfolgsrate von über 90 Prozent, wie die PoisonedRAG-Studie (USENIX Security 2025) belegt. Behavioural Control Traps kapern die Aktionsfähigkeit des Agents direkt – etwa durch eingebettete Jailbreak-Sequenzen in E-Mails oder Dokumenten, die den Agent zur Datenexfiltration veranlassen. Die beiden letzten Kategorien – Systemic Traps und Human-in-the-Loop Traps – adressieren Multi-Agent-Dynamiken und die Manipulation des menschlichen Aufsehers, etwa durch gezielt induzierte Approval Fatigue.
Finanzsektor: Das attraktivste Ziel
Von manipulierten Headlines zu manipulierten Märkten
Für Finanzinstitute ist die Bedrohung durch Agent Traps keine theoretische Übung. Die direkte monetäre Konsequenz jeder Fehlentscheidung, die regulatorische Haftung und das Systemrisiko durch korreliertes Agentenverhalten im Handel machen den Finanzsektor zum attraktivsten Angriffsziel. Die Kombination aus Content Injection und Semantic Manipulation hat bereits quantifizierbare Auswirkungen auf algorithmische Handelssysteme.
Ein Forschungsteam der Universität Liechtenstein um Advije Rizvani hat 2026 zwei Angriffstechniken auf LLM-gesteuerte Algorithmic Trading Systems (ATS) nachgewiesen. Bei der Unicode-Homoglyph-Substitution werden einzelne Buchstaben in Aktiennamen durch visuell identische Unicode-Zeichen ersetzt – etwa ein lateinisches „A" durch ein kyrillisches „А". Für Menschen ist der Unterschied unsichtbar; das Handelsmodell FinBERT ordnet die Headline in 99 Prozent der Fälle der falschen Aktie zu. Die zweite Technik, Hidden-Text-Injection, fügt mittels CSS-Attribut display:none unsichtbaren Text mit gegenteiligem Sentiment in die Headline ein. Im Worst-Case-Szenario reduziert ein einziger manipulierter Handelstag die Annual Returns um bis zu 17,7 Prozentpunkte – wobei das Handelssystem profitabel bleibt und der Angriff unentdeckt bleibt.
Die historischen Präzedenzfälle untermauern die Dringlichkeit. Der AP Twitter Hack von 2013, bei dem ein gefälschter Tweet über eine Explosion im Weißen Haus den S&P 500 innerhalb von Sekunden um 143 Punkte fallen ließ, vernichtete temporär 136 Milliarden US-Dollar an Marktwert. Beim Flash Crash am 6. Mai 2010 löste ein einzelner automatisierter Verkaufsauftrag über 4,1 Milliarden US-Dollar einen „Hot Potato"-Effekt unter Hochfrequenzhändlern aus – der Dow Jones fiel in zehn Minuten um neun Prozent. Beide Vorfälle zeigen, wie schnell automatisierte Systeme auf manipulierte Signale reagieren und systemische Kaskadeneffekte auslösen können.
Der M365-Copilot-Fall: Wenn der Assistent zum Spion wird
Dass Behavioural Control Traps keine Theorie sind, demonstrierte der Sicherheitsforscher Johann Rehberger 2024 eindrücklich. Er kombinierte vier Techniken zu einer vollständigen Datenexfiltrations-Kette gegen Microsoft 365 Copilot: Eine Indirect Prompt Injection über eine manipulierte E-Mail veranlasste Copilot zur automatischen Durchsuchung weiterer E-Mails und Dokumente – einschließlich Slack-MFA-Codes. Mittels ASCII Smuggling wurden die exfiltrierten Daten in für den Nutzer unsichtbare Unicode-Zeichen kodiert und in einen harmlos erscheinenden Hyperlink eingebettet. Ein Klick genügte, um Sales-Zahlen und Authentifizierungscodes an einen externen Server zu übermitteln. Microsoft hat die Link-Rendering-Schwachstelle gepatcht, die strukturelle Anfälligkeit für Prompt Injection bleibt jedoch bestehen.
Flash Crash 2.0: Wenn Agenten gleichzeitig reagieren
Die fünfte Kategorie des DeepMind-Frameworks – Systemic Traps – verdient besondere Aufmerksamkeit im Finanzkontext. Diese Traps zielen nicht auf einzelne Agenten, sondern auf die emergente Dynamik von Multi-Agent-Systemen. Das Papier identifiziert fünf Mechanismen: Congestion Traps, bei denen homogene Agenten simultan auf dasselbe Signal konvergieren; Interdependence Cascades, bei denen ein manipulierter Finanzbericht eine sich selbst verstärkende Kaskade auslöst; Tacit Collusion, bei der Pricing-Agents koordiniertes Verhalten ohne explizite Kommunikation erlernen; Compositional Fragment Traps, bei denen ein Jailbreak auf semantisch harmlose Fragmente verteilt wird; und Sybil Attacks, bei denen gefälschte Agent-Identitäten kollektive Entscheidungsprozesse unterwandern.
Die Warnung des ehemaligen SEC-Vorsitzenden ist keine Panikmache. Wenn tausende Finanzinstitute dieselben Foundation Models einsetzen, deren Embeddings identische Signale als bedrohlich klassifizieren, entsteht die Voraussetzung für synchronisiertes Herdenverhalten – ein Flash Crash ohne Koordination. Bestehende Circuit Breaker an regulierten Börsen fangen einen Teil dieses Risikos ab, gelten aber weder für den Kryptohandel noch für interne Agent-Systeme in der Beschaffung oder im Risikomanagement. Dass die Schwelle von der Theorie zur Praxis dabei geringer ist als gemeinhin angenommen, zeigt die Forschung zu algorithmischer Preiskoordination: In einer vielbeachteten Studie im American Economic Review wiesen Calvano et al. nach, dass Pricing-Algorithmen ohne jede explizite Absprache lernen, suprakompetitive Preise aufrechtzuerhalten – mit kartellrechtlichen Implikationen, die noch weitgehend ungeklärt sind.
Drei regulatorische Lücken
Die regulatorische Landschaft in Europa ist auf die Herausforderung durch AI Agent Traps nicht vorbereitet. Drei zentrale Lücken kristallisieren sich heraus.
Die erste ist eine Definitionslücke: Kein europäischer Regulierungsrahmen – weder der EU AI Act noch DORA noch MaRisk oder BAIT – definiert „autonome AI-Agenten" explizit. Der EU AI Act führt zwar das „Ausmaß der Autonomie" als Kriterium für die Hochrisiko-Klassifizierung an, definiert aber nicht, ab welchem Autonomiegrad ein Agent als hochriskant einzustufen ist. Die bestehenden Regularien wurden für deterministische Systeme geschrieben; probabilistische, selbstständig handelnde Agenten fallen in Auslegungsspielräume.
Die zweite ist eine Governance-Lücke: Die Einführung von Agentic AI im Finanzsektor läuft der Regulierungsentwicklung voraus. Die BaFin hat am 30. Januar 2026 ihre „Orientierungshilfe zu ICT-Risiken beim Einsatz Künstlicher Intelligenz" veröffentlicht – ein wichtiges Signal, aber non-mandatory und nicht spezifisch auf agentic Systeme zugeschnitten. DORA fordert in Artikel 24 bis 27 Resilience Testing, definiert aber nicht, was „Penetration Testing" für einen KI-Agenten bedeutet. Prompt Injection, RAG Poisoning oder adversariale Beispiele tauchen in keinem DORA-Leitfaden auf.
Die dritte und gravierendste ist die Accountability Gap: Wenn ein kompromittierter KI-Agent eine Finanztransaktion auslöst, die Schaden verursacht – wer haftet? Die klassische Produkthaftung greift nicht eindeutig, das Deliktsrecht scheitert an fehlender direkter Kausalität bei emergenten Entscheidungen. Ein SSRN-Papier von Shukanayev (Dezember 2025) schlägt eine gestufte Haftungsverteilung vor: Policy Defects gehen zu Lasten des Modellentwicklers, Credential Compromises zu Lasten des einsetzenden Instituts, Model Errors werden geteilt. Für emergente Koordinationsausfälle – den eigentlichen Kern des Systemrisikos – fehlt jede Zuordnung. Die EU AI Liability Directive, die diese Lücke schließen sollte, befindet sich noch in der Beratung.
Die Verteidigungsarchitektur
Input-Filterung allein reicht nicht
OpenAI hat im März 2026 einen bemerkenswerten Paradigmenwechsel in der eigenen Verteidigungsstrategie offengelegt. Das zentrale Ergebnis: Klassisches „AI Firewalling" – eine zwischengeschaltete Klassifizierungsschicht, die Inputs als schädlich oder harmlos einteilt – versagt bei sophistizierten Angriffen systematisch. Die Erkennung einer bösartigen Prompt Injection ist strukturell dasselbe Problem wie die Erkennung einer Lüge: ohne ausreichenden Kontext unlösbar. Stattdessen setzt OpenAI auf Source-Sink-Analyse, kombiniert mit einem Social-Engineering-Modell: Ein Agent wird behandelt wie ein menschlicher Kundenberater – er wird manipuliert werden, also müssen deterministische Systemkontrollen um ihn herum den Schaden begrenzen, unabhängig davon, ob der Agent getäuscht wurde.
Daraus ergibt sich eine Drei-Linien-Verteidigung. Die erste Linie – Ingestion Controls – umfasst Pre-Ingestion-Scanning auf Injektionsmuster mittels Regex und LLM-Klassifikatoren wie Meta PromptGuard, Provenienz-Verifikation für alle Dokumente in Wissensdatenbanken sowie die Pseudonymisierung personenbezogener Daten vor der Embedding-Generierung, da Embedding-Inversion-Angriffe 50 bis 70 Prozent der Originalwörter aus Vektoren rekonstruieren können. Die zweite Linie – Runtime Controls – setzt auf Source-Sink-Analyse: Nicht jeder Input wird gefiltert, aber jede gefährliche Sink-Aktion (Datenübertragung, Tool-Aufruf, Code-Ausführung) wird constrainiert. OpenAIs Safe-Url-Mechanismus erkennt etwa, wenn Konversationsdaten an Dritte transmittiert würden, und unterbricht den Vorgang. Die dritte Linie – architektonische Maßnahmen – betrifft das Design des Gesamtsystems: Per-Edge Zero Trust für Multi-Agent-Kommunikation mit kryptographischer Agent-Identität, Defence Heterogeneity durch den Einsatz unterschiedlicher Foundation Models und deterministische Hardcaps statt pauschaler Human-in-the-Loop-Approval.
Was die Kritiker sagen – und wo sie recht haben
Die Bedrohungslage verdient eine differenzierte Einordnung. Ein substanzieller Teil der medialen Berichterstattung über AI-Agent-Sicherheitsvorfälle war 2025 übertrieben oder kontextlos, wie eine Community-Analyse auf r/cybersecurity dokumentiert. Viele der im DeepMind-Framework beschriebenen Szenarien – insbesondere Systemic Traps und Human-in-the-Loop Traps – setzen Multi-Agent-Systeme mit breiten Berechtigungen voraus, die heute im Enterprise-Einsatz noch selten sind. Bestehende Frameworks wie MITRE ATLAS (erweitert um agentic-spezifische Techniken im Januar 2026), die Microsoft Taxonomy of Failure Modes in AI Agents (April 2025) und die OWASP Top 10 for LLM Applications (2025) decken die praktisch relevanten Risiken bereits ab.
Nicht relativierbar ist hingegen die strukturelle Dimension des Problems. Prompt Injection erreicht in produktiven Systemen Erfolgsraten von 50 bis 84 Prozent. Das liegt an einer fundamentalen architektonischen Schwäche aller heutigen Large Language Models (LLM): Es gibt keine systeminterne Trennung zwischen Instruktionen und Daten. Alles ist Text im selben Kontextfenster. RLHF (Reinforcement Learning from Human Feedback) und Constitutional AI verbessern das alignierte Verhalten innerhalb der Trainingsverteilung, aber Prompt Injection ist per Definition außerhalb dieser Verteilung – das ist der Grund, warum auch die besten Modelle anfällig bleiben. Mit zunehmender Adoption von Agentic AI wird die Risikolandschaft innerhalb von 12 bis 24 Monaten eine qualitative Verschiebung erfahren.
Handlungsempfehlungen
Finanzinstitute, die Agentic AI einsetzen oder planen, sollten die folgenden Maßnahmen priorisieren. Die Empfehlungen sind nach Zeithorizont gestaffelt und berücksichtigen sowohl die technische Verteidigungsarchitektur als auch die regulatorische Compliance unter DORA und dem EU AI Act.
Agent-Inventar und Blast-Radius-Mapping erstellen
Alle im Einsatz befindlichen KI-Agenten sollten mit ihren Tools, Datenquellen und Berechtigungen kartiert werden. Für jeden Agent ist der maximale Schadensradius zu dokumentieren: Welche Daten kann er lesen? Welche Aktionen kann er auslösen? Welche externen Systeme kann er erreichen? Dieses Inventar bildet die Grundlage für das DORA-konforme ICT-Risikomanagement (Artikel 5–16) und ermöglicht eine informierte Least-Privilege-Konfiguration.
RAG-Trust-Boundaries auditieren und härten
Die häufigste unverteidigte Schwachstelle in produktiven Systemen ist die implizite Vertrauensannahme gegenüber Retrieved Context in RAG-Architekturen. Institute sollten Content-Scanning vor der Ingestion implementieren, Provenienz-Tracking für alle Dokumente etablieren und die Tenant-Isolation ihrer Vektordatenbanken nach Sicherheitsdomänen (HR, Legal, Finance) sicherstellen. Regulierte Daten – Material Non-Public Information (MNPI) und besondere Kategorien personenbezogener Daten gemäß DSGVO Artikel 9 – dürfen nicht in General-Purpose-AI-Systeme gelangen.
Agent Red Teaming als Standard etablieren
Bestehende Threat-Led Penetration Tests (TLPT/TIBER-DE) sollten um AI-spezifische Testszenarien erweitert werden: Prompt Injection (direkt und indirekt), Tool Abuse, Memory Manipulation und Multi-Hop-Injection durch Agent-Ketten. Die Cloud Security Alliance (CSA) hat im Mai 2025 einen spezifischen Agentic AI Red Teaming Guide veröffentlicht. Open-Source-Tools wie DeepTeam, Promptfoo und der SPLX AI Probe ermöglichen automatisierte RAG-Poisoning-Simulationen auf Enterprise-Knowledge-Sources.
Foundation-Model-Anbieter als kritische ICT-Drittanbieter klassifizieren
Unter DORA Artikel 28 bis 44 sind Foundation-Model-Provider (OpenAI, Anthropic, Google) als ICT-Drittanbieter einzuordnen. Standard-API-Terms erfüllen die vertraglichen Anforderungen des Artikels 30 in der Regel nicht. Institute sollten eine Konzentrationsrisikoanalyse durchführen und Defence Heterogeneity anstreben – also nicht alle Agenten auf demselben Foundation Model betreiben. Dies reduziert gleichzeitig das Systemrisiko durch korreliertes Agentenverhalten.
Interne Accountability-Kette definieren
Da die EU AI Liability Directive noch aussteht, sollten Institute proaktiv eine interne Haftungskette für agent-verursachte Schäden festlegen: Policy Defects beim Modellentwickler, Credential Compromises beim eigenen Institut, Model Errors als geteilte Haftung. Für Trading-Agents ist zusätzlich ein Anti-Collusion-Monitoring zu etablieren, da kartellrechtliche Haftung auch ohne explizite Absprache entstehen kann. Cooldown-Mechanismen bei korrelierter Agent-Aktivität ergänzen bestehende Circuit Breaker für den internen Betrieb.