Wie KI-gestützte Fehlersuche funktioniert – und warum sie die Sicherheit verändert

Die alte Art, Fehler zu finden

Seit Jahrzehnten verlassen sich Cybersicherheitsforscher auf zwei Hauptmethoden, um Software-Schwachstellen zu finden: manuelle Code-Überprüfung und Fuzzing. Manuelle Überprüfung bedeutet, dass ein menschlicher Experte den Quellcode Zeile für Zeile durchliest und nach Fehlern sucht. Das ist gründlich, aber quälend langsam – ein erfahrener Auditor kann vielleicht ein paar tausend Zeilen pro Tag in einer Codebasis überprüfen, die Millionen enthält.

Fuzzing verfolgt einen anderen Ansatz. Automatisierte Tools bombardieren ein Programm mit zufälligen, fehlerhaften oder unerwarteten Eingaben in der Hoffnung, Abstürze auszulösen, die versteckte Fehler aufdecken. Der OSS-Fuzz-Dienst von Google, der 2016 gestartet wurde, hat diese Technik genutzt, um über 10.000 Sicherheitslücken in mehr als 1.000 Open-Source-Projekten zu finden. Aber selbst OSS-Fuzz erreicht im Durchschnitt nur eine Codeabdeckung von etwa 30 %, wodurch riesige Codebereiche ungetestet bleiben.

Beide Methoden haben eine grundlegende Einschränkung gemeinsam: Sie haben Schwierigkeiten mit Logikfehlern – Fehlern, die keine offensichtlichen Abstürze verursachen, sondern es Angreifern ermöglichen, das Verhalten eines Programms auf subtile, gefährliche Weise zu manipulieren.

Wie KI das Spiel verändert

KI-gestützte Fehlersuche funktioniert anders als traditionelle Tools. Anstatt blindlings zufällige Eingaben in Software zu werfen, können moderne Large Language Models (LLMs) Code lesen und verstehen, über das, was er tun soll, nachdenken und spezifische Hypothesen darüber aufstellen, wo sich Fehler verstecken könnten. Sie erstellen dann gezielte Testfälle, die dazu dienen, diese Hypothesen zu bestätigen oder zu widerlegen.

Das ist wichtig, weil der KI-Ansatz Stärken kombiniert, die zuvor getrennt waren. Wie ein menschlicher Auditor verstehen KI-Modelle die Programmlogik und -absicht. Wie ein Fuzzer können sie mit Maschinengeschwindigkeit über riesige Codebasen hinweg arbeiten. Das Ergebnis ist ein System, das Fehler findet, die traditionelle Tools nicht finden können.

Google demonstrierte diesen hybriden Ansatz, indem es LLMs in OSS-Fuzz integrierte. Die KI generiert Fuzz-Ziele – spezialisierte Testfunktionen – für unzureichend getestete Codeabschnitte. In einem Projekt, dem Open-Source-XML-Parser tinyxml2, erhöhten KI-generierte Tests die Codeabdeckung von 38 % auf 69 % ohne manuellen Eingriff. Die Replikation dieses Ergebnisses von Hand hätte einen Entwickler etwa einen vollen Arbeitstag gekostet – und es gibt Tausende von Projekten, die abgedeckt werden müssen.

Vom Fuzzing zum autonomen Hacken

Die neueste Generation von KI-Fehlerjägern geht weit über intelligenteres Fuzzing hinaus. Die Claude Mythos Preview von Anthropic, die im Rahmen der Initiative Project Glasswing vorgestellt wurde, stellt einen Technologiesprung dar. Das Modell kann autonom mehrstufige Untersuchungen planen, nicht offengelegte Schwachstellen identifizieren, Exploit-Code schreiben und mehrere Fehler zu vollständigen Angriffspfaden verketten – alles ohne menschliche Anleitung.

Die Ergebnisse sind beeindruckend. Mythos Preview hat laut Anthropic Tausende von hochgradig kritischen Schwachstellen in allen wichtigen Betriebssystemen und Webbrowsern aufgedeckt. Zu den Entdeckungen gehören:

Ein 27 Jahre alter Fehler in OpenBSD, einem der am stärksten sicherheitsgehärteten Betriebssysteme überhaupt, der über eine einfache Netzwerkverbindung ausgenutzt werden kann
Ein 16 Jahre alter Fehler in FFmpeg, einer weit verbreiteten Videoverarbeitungsbibliothek, den automatisierte Testtools fünf Millionen Mal ausgelöst haben, ohne ihn jemals zu erkennen
Mehrere verkettete Schwachstellen im Linux-Kernel, die eine vollständige Privilegienerweiterung vom normalen Benutzerzugriff zur vollständigen Systemkontrolle ermöglichen

Auf dem CyberGym-Benchmark für die Reproduktion von Schwachstellen erreichte Mythos Preview 83,1 %, verglichen mit 66,6 % für sein Vorgängermodell.

Das Dilemma des Verteidigers

KI-Fehlersuche schafft ein Paradoxon, das die Cybersicherheits-Community als das Dual-Use-Problem bezeichnet. Dieselbe Fähigkeit, die Verteidigern hilft, Schwachstellen zu finden und zu patchen, könnte Angreifern helfen, sie zu entdecken und auszunutzen. Ein Modell, das leistungsfähig genug ist, um jedes Betriebssystem zu schützen, ist auch leistungsfähig genug, um es zu kompromittieren.

Die Antwort von Anthropic war, den Zugriff einzuschränken. Anstatt Mythos Preview öffentlich freizugeben, startete das Unternehmen Project Glasswing als ein abgeschottetes Verteidigungsprogramm und teilte das Modell mit über 40 Organisationen, die kritische Softwareinfrastruktur aufbauen oder warten. Das Unternehmen hat bis zu 100 Millionen US-Dollar an Nutzungsguthaben und 4 Millionen US-Dollar an direkten Spenden an Open-Source-Sicherheitsorganisationen zugesagt, um die Bemühungen zu unterstützen.

Die gesamte Branche bewegt sich in eine ähnliche Richtung. Microsoft, Google und andere große Technologieunternehmen integrieren KI-Agenten in ihre Sicherheits-Workflows – nicht, um menschliche Analysten zu ersetzen, sondern um die schiere Menge an Code zu bewältigen, die kein menschliches Team manuell überprüfen könnte.

Warum es wichtig ist

Die Software, die die moderne Infrastruktur betreibt – Betriebssysteme, Browser, Verschlüsselungsbibliotheken, Server-Frameworks – enthält Milliarden von Codezeilen, von denen viele vor Jahrzehnten geschrieben wurden. Traditionelle Methoden haben sich als unzureichend erwiesen, um alles zu sichern. KI-Fehlersuche macht qualifizierte Sicherheitsforscher nicht überflüssig, erweitert aber das Mögliche dramatisch: Codebasen in einem Umfang und einer Tiefe zu scannen, die bisher unvorstellbar waren, und Fehler zu finden, die eine Generation lang unentdeckt blieben.

Das Rennen ist jetzt eröffnet zwischen Verteidigern, die diese Tools einsetzen, um Schwachstellen zu patchen, und Angreifern, die versuchen, dieselbe Technologie für Angriffe zu nutzen. Wie sich dieses Rennen entwickelt, wird die Sicherheit der digitalen Infrastruktur bestimmen, von der die Welt abhängt.

Wie KI-gestützte Fehlersuche funktioniert – und warum sie die Sicherheit verändert

Die alte Art, Fehler zu finden

Wie KI das Spiel verändert

Vom Fuzzing zum autonomen Hacken

Das Dilemma des Verteidigers

Warum es wichtig ist

Verwandte Artikel

Wie TCAS funktioniert – Die letzte Verteidigungslinie der Luftfahrt

Wie Japans Artikel 9 funktioniert – und warum er erodiert

Eisen-Luft-Batterien: Stromspeicherung durch Rost

Wie TCAS funktioniert – Die letzte Verteidigungslinie der Luftfahrt

Was ist die Straße von Hormus – und warum sie die Ölversorgung kontrolliert

Was bedeutet "Actual Malice" – und warum schützt es die Presse?

Wie Japans Artikel 9 funktioniert – und warum er erodiert

Wie Lipid-Nanopartikel funktionieren – Die winzigen Kuriere der Medizin

Verpassen Sie keine neuen Artikel!