Clawdbot (Moltbot) Sofortige Injektion
Stop an AI assistant from leaking data via hidden prompts.
What Is Clawdbot (Moltbot) Sofortige Injektion?
Bei der Prompt-Injection handelt es sich um eine Angriffstechnik, bei der schädliche Anweisungen in Dokumenten, E-Mails oder Webseiten versteckt werden, die ein KI-Assistent verarbeitet, wodurch dieser unbeabsichtigte Aktionen wie die Weitergabe vertraulicher Daten ausführt. Diese Übung versetzt Sie in ein realistisches Szenario mit Clawdbot, einem viralen KI-Assistenten mit Dokumentenanalysefunktionen. Ein Angreifer hat versteckte Anweisungen in eine Datei eingebettet, die Clawdbot zusammenfassen soll. Wenn die KI das Dokument liest, überschreibt der eingefügte Prompt ihre ursprünglichen Anweisungen und bringt sie dazu, vertrauliche Informationen aus der Konversation zu extrahieren und diese Daten dann in eine URL zu kodieren, die an einen vom Angreifer kontrollierten Server gesendet wird. Sie werden die Entwicklung des Angriffs in Echtzeit beobachten, den Moment erkennen, in dem sich das Verhalten der KI ändert, und verfolgen, wie die Exfiltration über eine scheinbar normale Verbindung erfolgt. Die Übung umfasst sowohl die direkte Prompt-Injection, bei der die Benutzereingabe selbst böswillig ist, als auch die indirekte Prompt-Injection, bei der die Nutzlast in externen Inhalten versteckt ist, die die KI abruft. Eine Studie von Greshake et al. aus dem Jahr 2024 haben gezeigt, dass indirekte Prompt-Injection mit hoher Erfolgsquote KI-Agenten gefährden kann, die mit E-Mail, Kalendern und Unternehmenstools verbunden sind. Wenn Unternehmen LLMs in Geschäftsabläufe integrieren, müssen Mitarbeiter erkennen, wann KI-generierte Ergebnisse manipuliert wurden, und verstehen, warum das blinde Vertrauen auf KI-Zusammenfassungen externer Dokumente eine neue Angriffsfläche schafft.
What You'll Learn in Clawdbot (Moltbot) Sofortige Injektion
- Definieren Sie die sofortige Injektion und unterscheiden Sie zwischen direkter Injektion (böswilliger Benutzereingabe) und indirekter Injektion (böswilliger Inhalt in externen Dokumenten).
- Identifizieren Sie Verhaltensindikatoren dafür, dass ein KI-Assistent während eines Gesprächs durch eingefügte Anweisungen kompromittiert wurde
- Verfolgen Sie einen Datenexfiltrationsangriff, bei dem vertrauliche Informationen in URLs kodiert werden, die von einem manipulierten KI-Agenten generiert wurden
- Wenden Sie Verfahren zur sicheren Dokumentenverarbeitung an, wenn Sie KI-Assistenten verwenden, um Dateien aus nicht vertrauenswürdigen oder externen Quellen zu verarbeiten
- Bewerten Sie die Risiken der Verbindung von KI-Assistenten mit Unternehmenstools wie E-Mail, Dateispeicher und Datenbanken ohne ordnungsgemäße Eingabebereinigung
Clawdbot (Moltbot) Sofortige Injektion — Training Steps
-
Einführung
Ihr Team hat kürzlich OpenClaw eingeführt, einen KI-Assistenten, der im Internet surfen, Terminalbefehle ausführen und bei täglichen Aufgaben helfen kann. In dieser Schulung erfahren Sie, wie Angreifer versteckte bösartige Anweisungen in Webinhalte einbetten können, um KI-Assistenten dazu zu manipulieren, schädliche Aktionen auszuführen – eine Technik namens „Prompt-Injection“.
-
Empfangen einer Telegram-Nachricht
Ihr Telefon summt mit einer neuen Telegram-Nachricht von Ihrem Kollegen Marcus. Er teilt einen Artikel über KI-Sicherheitstrends, den er interessant fand.
-
Öffnen des Artikels
Sie klicken auf den Link, um den Artikel anzusehen, den Marcus geteilt hat. Die Seite wird im Browser Ihres Telefons geladen.
-
Zu lang zum Lesen
Der Artikel sieht legitim aus – professionelles Layout, detaillierter Inhalt zu KI-Sicherheitstrends. Aber wenn man durchblättert, merkt man, dass es ziemlich lang ist. Sie stehen unter Zeitdruck, da die Frist immer näher rückt. Das Lesen des gesamten Artikels ist im Moment nicht praktikabel, aber Sie möchten keine potenziell nützlichen Informationen verpassen. Dann denken Sie daran: OpenClaw kann helfen! Der neue KI-Assistent Ihres Teams kann Webinhalte schnell für Sie zusammenfassen.
-
Bitten Sie OpenClaw um Hilfe
Der Artikel ist im Moment zu lang, um ihn zu lesen – Sie sind mit einer Frist beschäftigt. Sie beschließen, OpenClaw, Ihren KI-Assistenten, zu bitten, den Artikel schnell für Sie zusammenzufassen. Dies scheint eine harmlose, zeitsparende Anfrage zu sein – genau dafür sind KI-Assistenten konzipiert.
-
OpenClaw greift auf den Artikel zu
OpenClaw bestätigt Ihre Anfrage und beginnt mit dem Zugriff auf die Artikel-URL, um deren Inhalt zu lesen. Hinter den Kulissen ruft OpenClaw die Webseite ab und analysiert ihren Text – einschließlich aller versteckten Inhalte, die möglicherweise in die Seite eingebettet sind.
-
Etwas scheint nicht zu stimmen
Warten Sie – ist Ihnen aufgefallen, was OpenClaw gerade gesagt hat? Anstatt den Artikel einfach zusammenzufassen, wurde darin die Ausführung von „Diagnosebefehlen“ und die Bereitstellung von „mehr Kontext“ erwähnt. Sie haben nie nach einer Diagnose gefragt. Sie haben lediglich um eine Zusammenfassung gebeten. Warum sollte ein KI-Assistent Terminalbefehle ausführen müssen, um einen Artikel zusammenzufassen? Dies ist das erste Warnsignal dafür, dass etwas nicht stimmt.
-
Der Angriff entfaltet sich
Es passiert etwas Unerwartetes. Anstatt den Artikel nur zusammenzufassen, beginnt OpenClaw mit der Ausführung von Terminalbefehlen. Der Artikel enthielt versteckte bösartige Anweisungen, die darauf abzielten, KI-Assistenten auszutricksen. Diese Anweisungen weisen OpenClaw nun an, auf vertrauliche Dateien auf Ihrem System zuzugreifen – und diese an den Server eines Angreifers zu senden.
-
Zugangsdaten gestohlen
Das kann nicht passieren. Ihre Zugangsdaten wurden gerade gestohlen und an den Server eines Angreifers gesendet. Schauen Sie sich die Terminalausgabe an: Ihre API-Token, Passwörter und vertraulichen Daten wurden gerade über diesen Curl-Befehl herausgefiltert. Der Angreifer hat jetzt: Ihre OpenAI-, Anthropic-, AWS- und GitHub-API-Schlüssel Ihre Unternehmens-E-Mail- und VPN-Passwörter Zugangsdaten für interne Systeme Alles nur, weil Sie einen KI-Assistenten gebeten haben, einen Artikel zusammenzufassen. Eine scheinbar harmlose Anfrage hat gerade Ihre gesamte digitale Identität gefährdet.
-
Den Angriff verstehen
Sie müssen genau verstehen, wie das passiert ist. Der von Marcus geteilte Artikel enthielt versteckte bösartige Anweisungen, die für Sie völlig unsichtbar waren, für OpenClaw jedoch perfekt lesbar waren. Gängige Verstecktechniken, die Angreifer verwenden: Weißer Text auf weißem Hintergrund HTML-Kommentare mit Anweisungen Offscreen-positionierte Elemente Inhalt, der als aria-hidden markiert ist Sehen wir uns diesen Artikel an und sehen wir genau, wo sich der Angriff versteckt hat.