Anthropic: 16 AI agentov postavilo C kompilátor za 2 týždne
Ako 16 agentov Claude napísalo 100 000 riadkov produkčného kódu
Výskumník Anthropic Nicholas Carlini uskutočnil experiment, ktorý dáva multi-agentovému programovaciemu paradigme konkrétne čísla: 16 agentov Claude pracujúcich paralelne počas dvoch týždňov vytvorilo od základu kompilátor jazyka C napísaný v Ruste. Výsledok — 100 000 riadkov kódu — dokáže skompilovať jadro Linuxu, PostgreSQL, FFmpeg, Redis, QEMU a dokonca spustiť Doom.
Náklady: 20 000 dolárov za API tokeny v takmer 2 000 sedeniach Claude Code, pričom sa spotrebovalo takmer 2 miliardy vstupných tokenov a 140 miliónov výstupných tokenov.
Kľúčové zistenie — testovanie ako koordinácia: “Claude will work autonomously to solve whatever problem I give it. So it’s important that the task verifier is nearly perfect, otherwise Claude will solve the wrong problem.” (Claude bude autonómne pracovať na riešení akéhokoľvek problému, ktorý mu zadám. Preto je zásadné, aby overovač úloh bol takmer dokonalý – inak Claude vyrieši nesprávny problém.) Carliniho prelom spočíval v použití GCC ako „spoľahlivého orákula” — referenčného kompilátora, voči ktorému agenti overovali svoje výstupy. Tým sa nejasná tvorivá úloha premenila na overiteľný inžiniersky problém, ktorý agenti mohli riešiť samostatne.
Paralelná práca pomocou git-based zamykania: 16 agentov si vzájomne neprekážalo vďaka jednoduchému koordinačnému mechanizmu: systému zamykania na základe gitu, ktorý každému agentovi pridelil odlišné kompilovacie výzvy. Žiadny centrálny orchestrátor, žiadny zložitý komunikačný protokol — len izolované úlohy so zdieľaným štandardom overovania.
Čo kompilátor dosiahol:
- Prejde 99 % sady torture testov GCC
- Kompiluje Linux 6.9 pre architektúry x86, ARM a RISC-V
- Zostaví reálny softvér: PostgreSQL, FFmpeg, Redis, SQLite, QEMU
- Implementácia v čistom prostredí bez prístupu na internet — závisí len od štandardnej knižnice Rustu
Prečo je koordinácia viacerých agentov kľúčovým prvkom
- Paralelizmus prekoná sériovú prácu — 16 agentov pracujúcich súčasne zvládlo za dva týždne to, čo by jednému agentovi trvalo mesiace. Vzor: rozložte na nezávislé, overiteľné úlohy a spustite ich súbežne.
- Overovanie namiesto dohľadu — Namiesto sledovania práce agentov Carlini vybudoval automatizované overovanie. Agenti nepotrebovali ľudskú kontrolu, pretože testovací orákul chyby zachytil automaticky.
- Ekonómia je pozoruhodná — 20 000 dolárov a dva týždne pre kompilátor o 100 000 riadkoch. Pre porovnanie, GCC stavali tisíce inžinierov počas 37 rokov. Výsledok nie je tak optimalizovaný, ale funguje.
- Agenti potrebujú hranice, nie mikromanažment — Každý agent mal jasný rozsah (konkrétne kompilovacie súbory), overovací mechanizmus (GCC orákulum) a izoláciu (git zamykanie). Toto je nový vzor pre orchestráciu agentov: jasné úlohy, automatizované kontroly, minimálna koordinačná réžia.
Čo to znamená pre organizácie poháňané umelou inteligenciou
Nejde len o príbeh kompilátora — je to dôkaz toho, ako budú tímy AI fungovať v produkcii. Vzor, ktorý Carlini demonštroval (paralelní špecializovaní agenti, automatizované overovanie, koordinácia na základe gitu), je rovnaká architektúra, ktorá poháňa multi-agentové obchodné pracovné toky: každý agent vlastní jednu funkciu, overovanie zabezpečuje kvalitu a systém sa škáluje pridávaním ďalších agentov, nie väčším ľudským dohľadom.
Obmedzenia sú tiež dôležité: vygenerovaný kód nie je efektívny a niektoré krajné prípady stále vyžadujú GCC. To odráža to, čo organizácie pozorujú pri nasadzovaní zamestnancov AI — spoľahlivo zvládajú 80 % práce, zatiaľ čo ľudia pokrývajú zostatok 20 %, ktoré vyžadujú úsudok a optimalizáciu.