Anthropic: 16 AI agentů postavilo C kompilátor za 2 týdny
Jak 16 agentů Claude napsalo 100 000 řádků produkčního kódu
Výzkumník Anthropic Nicholas Carlini provedl experiment, který dává multi-agentnímu programovacímu paradigmatu konkrétní čísla: 16 agentů Claude pracujících paralelně po dobu dvou týdnů vytvořilo od základu kompilátor jazyka C napsaný v Rustu. Výsledek — 100 000 řádků kódu — umí zkompilovat jádro Linuxu, PostgreSQL, FFmpeg, Redis, QEMU a dokonce spustit Doom.
Náklady: 20 000 dolarů za API tokeny v téměř 2 000 sezeních Claude Code, přičemž bylo spotřebováno téměř 2 miliardy vstupních tokenů a 140 milionů výstupních tokenů.
Klíčový poznatek — testování jako koordinace: “Claude will work autonomously to solve whatever problem I give it. So it’s important that the task verifier is nearly perfect, otherwise Claude will solve the wrong problem.” (Claude bude autonomně pracovat na řešení jakéhokoli problému, který mu zadám. Proto je zásadní, aby ověřovatel úkolů byl téměř dokonalý – jinak Claude vyřeší špatný problém.) Carliniho průlom spočíval v použití GCC jako „spolehlivého orákula” — referenčního kompilátoru, vůči kterému agenti ověřovali své výstupy. Tím se nejasný tvůrčí úkol proměnil ve verifikovatelný inženýrský problém, který agenti mohli řešit nezávisle.
Paralelní práce pomocí git-based zamykání: 16 agentů si vzájemně nepřekáželo díky jednoduchému koordinačnímu mechanismu: systému zamykání na základě gitu, který každému agentovi přidělil odlišné kompilační výzvy. Žádný centrální orchestrátor, žádný složitý komunikační protokol — jen izolované úkoly se sdíleným standardem ověřování.
Čeho kompilátor dosáhl:
- Projde 99 % sady torture testů GCC
- Kompiluje Linux 6.9 pro architektury x86, ARM a RISC-V
- Sestaví reálný software: PostgreSQL, FFmpeg, Redis, SQLite, QEMU
- Implementace v čistém prostoru bez přístupu k internetu — závisí pouze na standardní knihovně Rustu
Proč je koordinace více agentů klíčovým prvkem
- Paralelismus překoná sériovou práci — 16 agentů pracujících současně zvládlo za dva týdny to, co by jednomu agentovi trvalo měsíce. Vzor: rozložte na nezávislé, ověřitelné úkoly a spusťte je souběžně.
- Ověřování místo dohledu — Namísto sledování práce agentů Carlini vybudoval automatizované ověřování. Agenti nepotřebovali lidskou kontrolu, protože testovací orákulum chyby zachytilo automaticky.
- Ekonomika je pozoruhodná — 20 000 dolarů a dva týdny pro kompilátor o 100 000 řádcích. Pro srovnání, GCC stavěly tisíce inženýrů po dobu 37 let. Výsledek není tak optimalizovaný, ale funguje.
- Agenti potřebují hranice, ne mikromanagement — Každý agent měl jasný rozsah (konkrétní kompilační soubory), ověřovací mechanismus (GCC orákulum) a izolaci (git zamykání). Toto je nově vznikající vzor pro orchestraci agentů: jasné úkoly, automatizované kontroly, minimální koordinační režie.
Co to znamená pro organizace poháněné umělou inteligencí
Nejde jen o příběh kompilátoru — je to důkaz toho, jak budou týmy AI fungovat v produkci. Vzor, který Carlini demonstroval (paralelní specializovaní agenti, automatizované ověřování, koordinace na základě gitu), je stejná architektura, která pohání multi-agentní obchodní pracovní postupy: každý agent vlastní jednu funkci, ověřování zajišťuje kvalitu a systém se škáluje přidáváním dalších agentů, nikoli větším lidským dohledem.
Omezení jsou také důležitá: vygenerovaný kód není efektivní a některé okrajové případy stále vyžadují GCC. To odráží to, co organizace pozorují při nasazování zaměstnanců AI — spolehlivě zvládají 80 % práce, zatímco lidé pokrývají zbývajících 20 %, které vyžadují úsudek a optimalizaci.