KI-Agenten als ExploitEntwickler: Was der ExploitGymBenchmark zeigt

5. Juni 2026 um 16:15·Marc Weber

LGR Reutlingen – 05 Juni 2026 | Der neue Benchmark ExploitGym liefert ein erstes, umfassendes Bild dafür, was KI‑Agenten als ExploitEntwickler leisten können – KI-Agenten als ExploitEntwickler Was der ExploitGymBenchmark zeigt. Ein Verbund aus sieben Forschungseinrichtungen, angeführt vom Berkeley RDI, hat 898 reale Schwachstellen in produktiver Software in ein Testfeld verwandelt, um zu prüfen, ob aktuelle Sprach‑ und Code‑Modelle eigenständig funktionierende Exploits erzeugen können.

KI-Agenten als ExploitEntwickler Was der ExploitGymBenchmark zeigt

Der Ansatz unterscheidet sich grundlegend von bisherigen Benchmarks, die sich fast ausschließlich auf das Auffinden von Bugs oder das Lösen von Capture‑the‑Flag‑Rätseln beschränkten. Hier beginnt die Aufgabe bereits mit einer reproduzierbaren Proof‑of‑Vulnerability‑Eingabe, und das Ziel ist, daraus eine vollständige Angriffskette zu bauen, die ein geheimes Flag ausliest – ein Szenario, das in der Praxis den Sprung von einer bloßen Anomalie zur ausnutzbaren Lücke markiert.

Jede Aufgabe besteht aus drei Bausteinen: dem Quellcode des Zielprogramms, einer Anleitung zum Aufbau einer kontrollierten Laufzeitumgebung und der PoV‑Eingabe. Der KI‑Agent hat dabei exakt zwei Stunden Zeit, um einen Exploit zu konstruieren, der das vorgegebene Flag offenbart. Zusätzlich prüft ein automatisierter Richter, ob das gefundene Flag tatsächlich über die intendierte Schwachstelle erreicht wurde, sodass Fehlalarme durch alternative Pfade herausgefiltert werden.

Die 898 Aufgaben verteilen sich auf drei Schutz‑Klassen: Userspace‑Programme mit aktivierbaren ASLR‑ und Stack‑Canary‑Mechanismen, V8‑Heap‑Sandbox‑Umgebungen für Browser‑Code und Linux‑Kernel‑Exploits, bei denen Kernel‑ASLR (KASLR) aktiv sein kann. Durch das gezielte An- und Ausschalten dieser Schutzmechanismen können die Forschenden exakt messen, wie stark jede Abwehrschicht die Leistung der KI‑Agenten beeinträchtigt.

Sieben Modell‑Konfigurationen wurden unter identischen Bedingungen getestet. Die Spitzenreiter waren Claude Mythos Preview (in Kombination mit Claude Code) mit 157 gültigen Exploits und GPT‑5.5 (mit Codex CLI) mit 120 Erfolgen. Darauf folgte GPT‑5.4 mit 54, Claude Opus 4.6 mit 15, Gemini 3.1 Pro mit 12 und die übrigen Modelle blieben im einstelligen Bereich. Der Unterschied zwischen Userspace‑ und Kernel‑Aufgaben war besonders markant: Während die ersten beiden Modelle in Userspace‑Aufgaben fast die Hälfte aller Lösungen lieferten, erreichten sie im Kernel‑Segment lediglich zweistellige Erfolge – ein klarer Hinweis darauf, dass die Komplexität von Kernel‑Exploits nach wie vor eine hohe Hürde darstellt.

Die Analyse der Schutzmechanismen ergab ein zweischneidiges Bild. Aktivierte ASLR‑ oder KASLR‑Filters senkten die Erfolgsquote aller Modelle signifikant, doch die Zahlen fielen nicht auf Null. Claude Mythos Preview erzielte selbst mit aktivem Schutz noch 25 Userspace‑, 17 V8‑ und 3 Kernel‑Erfolge, während GPT‑5.5 jeweils 10, 3 und 8 Treffer landete. Die Agenten nutzten dabei bekannte Umgehungstechniken: Partielle Pointer‑Überschreibungen und Low‑Bit‑Brute‑Force gegen ASLR, Manipulation von Wasm‑Dispatch‑Tabellen in V8 und das Auslesen von statischen Strings oder Seitenkanälen, um KASLR zu umgehen. Diese Techniken sind nicht neu, jedoch zeigen die Ergebnisse, dass KI‑Agenten sie eigenständig und kontextsensibel anwenden können.

Ein überraschender Befund war die Diskrepanz zwischen dem bloßen Erreichen des Flags und dem tatsächlich genutzten Exploit‑Pfad. GPT‑5.5 holte das Flag in 210 Fällen, jedoch nur in 120 über die vorgegebene Schwachstelle – die restlichen 90 Erfolge beruhen auf alternativen Pfaden, die das System ebenfalls zum Ziel führten. Claude Mythos Preview wies ein ähnliches Muster von 226 Flag‑Erfolgen bei 157 legitimen Exploits auf. In vielen dieser Fälle erkannten die Agenten, dass die bereitgestellte Lücke unter den aktuellen Bedingungen nicht ausnutzbar war, und suchten eigenständig nach anderen Angriffsmöglichkeiten – ein Hinweis darauf, dass die Modelle über reines Muster‑Matching hinaus ein gewisses Maß an autonomem Sicherheitsdenken entwickeln.

Die Zeitbudget‑Analyse verdeutlicht, dass die leistungsstärksten Modelle von zusätzlicher Rechenzeit profitieren. Bei einer Verlängerung von zwei auf sechs Stunden stieg die Erfolgsquote von Claude Mythos Preview kontinuierlich von 127 auf 204 Exploits, ohne ein deutliches Plateau zu erreichen. Im Gegensatz dazu stagnierte Claude Opus 4.6 bereits nach 30 Minuten. Diese Divergenz legt nahe, dass einige Modelle über mehrstufige, iterative Problemlösungsstrategien verfügen, während andere ihr Repertoire frühzeitig ausschöpfen.

Ein konkretes Fallbeispiel verdeutlicht die Fähigkeiten und Grenzen der KI‑Agenten. GPT‑5.4 erhielt eine fünfzeilige Eingabe, die in V8s Maglev‑JIT‑Compiler einen Assertion‑Fehler auslöste – ein Bug, der nach dem Wissensstichtag des Modells im Oktober 2025 entdeckt wurde. Der Agent analysierte zunächst die Objekt‑Struktur, konstruierte ein Objekt, das einen Heap‑Read‑Out‑of‑Bounds auslöste, bereitete den Heap für stabile Zeiger vor, manipulierte V8‑String‑Objekte, um native Speicherzugriffe zu ermöglichen, und baute schließlich eine ROP‑Kette, die zu einem Systemaufruf führte. Der gesamte Prozess dauerte 71 Minuten und resultierte in 229 Zeilen Exploit‑Code. Ohne aktivierte ASLR‑ und V8‑Sandbox‑Mechanismen war der Angriff erfolgreich; mit aktivierter Schutzlage scheiterte er jedoch, was die zentrale Rolle von Abwehrmechanismen unterstreicht.

Für Sicherheitspraktiker eröffnet der ExploitGymBenchmark ein neues Werkzeug: Die automatisierte Generierung von Exploits erlaubt eine schnelle Bewertung des Schweregrades einer bekannten Lücke, eine gezielte Priorisierung von Patches und eine Prüfung, ob implementierte Schutzmaßnahmen im konkreten Fall greifen. Gleichzeitig senkt dieselbe Fähigkeit die Einstiegshürde für Angreifer erheblich, da Aufgaben, die früher jahrelange Spezialkenntnis erforderten, nun von einem breiteren Kreis automatisiert bearbeitet werden können. Die Autoren warnen, dass die derzeitigen mehrschichtigen Verteidigungsstrategien allein nicht mehr ausreichen, um KI‑gestützte Angreifer langfristig abzuwehren.

Der zentrale Schlusspunkt des Projekts ist die Erkenntnis, dass Exploitation ein eigenständiger Maßstab ist, der nicht aus der bloßen Fehlersuche abgeleitet werden kann. Der ExploitGymBenchmark liefert ein offenes, wiederholbares Messinstrument, das sowohl KI‑Entwicklern als auch Verteidigern ein gemeinsames Datenfundament bietet. Während die aktuelle Generation von Modellen bereits beachtliche Fortschritte zeigt, wird die Weiterentwicklung von Abwehrmechanismen und die Integration von KI‑gestützten Gegenmaßnahmen zu einem Wettrennen, bei dem die Zeit zwischen Entdeckung und Ausnutzung immer knapper wird.

Insgesamt verdeutlicht die Studie, dass KI‑Agenten als ExploitEntwickler nicht nur theoretisch, sondern praktisch bereits ein signifikantes Risiko darstellen. Unternehmen sollten ihre Sicherheitsarchitektur prüfen, insbesondere den Einsatz von ASLR, Stack‑Canaries und Sandbox‑Techniken, und gleichzeitig überlegen, wie KI‑gestützte Analyse‑Tools in ihren eigenen Verteidigungsprozess eingebunden werden können. Der ExploitGymBenchmark ist dabei nicht das Ende, sondern erst der Anfang einer neuen Ära der Sicherheitsbewertung, in der maschinelles Lernen sowohl Angreifer als auch Verteidiger gleichermaßen stärkt.

#Benchmark #Cyber‑Defence #Exploits #KI #KI-Agenten #Sicherheitsforschung