Anthropic: 16 KI-Agenten bauten in 2 Wochen einen C-Compiler

agentsautomationenterpriseproductivity

Wie 16 Claude-Agenten 100.000 Zeilen Produktionscode schrieben

Anthropic-Forscher Nicholas Carlini führte ein Experiment durch, das dem Multi-Agenten-Codierparadigma konkrete Zahlen gibt: 16 Claude-Agenten, die zwei Wochen lang parallel arbeiteten, erzeugten von Grund auf einen Rust-basierten C-Compiler. Das Ergebnis – 100.000 Zeilen Code – kann den Linux-Kernel, PostgreSQL, FFmpeg, Redis, QEMU kompilieren und lässt sogar Doom laufen.

Die Kosten: 20.000 Dollar in API-Tokens über knapp 2.000 Claude Code-Sitzungen, wobei fast 2 Milliarden Eingabe-Tokens und 140 Millionen Ausgabe-Tokens verbraucht wurden.

Die Kernerkenntnis – Testen als Koordination: “Claude will work autonomously to solve whatever problem I give it. So it’s important that the task verifier is nearly perfect, otherwise Claude will solve the wrong problem.” (Claude löst jedes Problem, das ich ihm gebe, autonom. Deshalb muss der Aufgaben-Verifizierer nahezu perfekt sein – sonst löst Claude das falsche Problem.) Carlinis Durchbruch war die Verwendung von GCC als „bekannt-gut funktionierendes Orakel” – ein Referenz-Compiler, gegen den die Agenten ihre Ausgabe verifizieren konnten. Dadurch wurde eine mehrdeutige kreative Aufgabe in ein überprüfbares Ingenieurproblem umgewandelt, das Agenten eigenständig lösen konnten.

Parallele Arbeit über git-basiertes Sperren: Die 16 Agenten traten sich nicht gegenseitig in die Quere, dank eines einfachen Koordinationsmechanismus: einem git-basierten Sperrsystem, das jedem Agenten eindeutige Kompilierungsaufgaben zuwies. Kein zentraler Orchestrator, kein komplexes Kommunikationsprotokoll – nur isolierte Aufgaben mit einem gemeinsamen Verifikationsstandard.

Was der Compiler erreicht:

  • Besteht 99 % der GCC-Torture-Test-Suite
  • Kompiliert Linux 6.9 für x86-, ARM- und RISC-V-Architekturen
  • Erstellt praxiserprobte Software: PostgreSQL, FFmpeg, Redis, SQLite, QEMU
  • Clean-Room-Implementierung ohne Internetzugang – abhängig nur von Rusts Standardbibliothek

Warum Multi-Agenten-Koordination der Schlüssel ist

  • Parallelität schlägt serielle Arbeit – 16 gleichzeitig arbeitende Agenten vollbrachten in zwei Wochen, wofür ein einzelner Agent Monate bräuchte. Das Muster: in unabhängige, überprüfbare Aufgaben zerlegen und parallel ausführen.
  • Verifikation statt Überwachung – Anstatt die Agenten bei der Arbeit zu beobachten, baute Carlini automatisierte Verifikation. Die Agenten benötigten keine menschliche Kontrolle, weil das Test-Orakel Fehler automatisch erkannte.
  • Die Wirtschaftlichkeit ist beeindruckend – 20.000 Dollar und zwei Wochen für einen 100.000-Zeilen-Compiler. Zum Vergleich: GCC wurde von Tausenden von Ingenieuren über 37 Jahre hinweg entwickelt. Das Ergebnis ist nicht so optimiert, aber es funktioniert.
  • Agenten brauchen Grenzen, keine Mikrosteuerung – Jeder Agent hatte einen klaren Aufgabenbereich (bestimmte Kompilierungsdateien), einen Verifikationsmechanismus (GCC-Orakel) und Isolation (git-Sperren). Dies ist das aufkommende Muster für Agent-Orchestrierung: klare Aufgaben, automatisierte Prüfungen, minimaler Koordinationsaufwand.

Was das für KI-gestützte Organisationen bedeutet

Dies ist nicht nur eine Compiler-Geschichte – es ist ein Beweis dafür, wie KI-Teams in der Praxis funktionieren werden. Das von Carlini demonstrierte Muster (parallele spezialisierte Agenten, automatisierte Verifikation, git-basierte Koordination) ist dieselbe Architektur, die Multi-Agenten-Geschäftsabläufe antreibt: Jeder Agent besitzt eine Funktion, Verifikation sichert Qualität, und das System skaliert durch Hinzufügen weiterer Agenten – nicht durch mehr menschliche Aufsicht.

Auch die Einschränkungen sind wichtig: Der erzeugte Code ist nicht effizient, und einige Randfälle benötigen weiterhin GCC. Dies spiegelt wider, was Organisationen beim Einsatz von KI-Mitarbeitern erleben – sie erledigen 80 % der Arbeit zuverlässig, während Menschen die verbleibenden 20 % abdecken, die Urteilsvermögen und Optimierung erfordern.