Anthropic: 16 agentes de IA construyeron un compilador C en 2 semanas

agentsautomationenterpriseproductivity

Cómo 16 agentes Claude escribieron 100.000 líneas de código de producción

El investigador de Anthropic Nicholas Carlini realizó un experimento que pone cifras concretas al paradigma de codificación multi-agente: 16 agentes Claude, trabajando en paralelo durante dos semanas, produjeron desde cero un compilador C basado en Rust. El resultado — 100.000 líneas de código — puede compilar el kernel de Linux, PostgreSQL, FFmpeg, Redis, QEMU e incluso hace correr Doom.

El costo: 20.000 dólares en tokens de API a lo largo de casi 2.000 sesiones de Claude Code, consumiendo cerca de 2.000 millones de tokens de entrada y 140 millones de tokens de salida.

La clave — las pruebas como coordinación: “Claude will work autonomously to solve whatever problem I give it. So it’s important that the task verifier is nearly perfect, otherwise Claude will solve the wrong problem.” (Claude trabajará de forma autónoma para resolver cualquier problema que le plantee. Por eso es fundamental que el verificador de tareas sea casi perfecto; de lo contrario, Claude resolverá el problema equivocado.) El avance de Carlini fue usar GCC como un “oráculo de referencia conocido” — un compilador de referencia contra el que los agentes podían verificar sus resultados. Esto convirtió una tarea creativa ambigua en un problema de ingeniería verificable que los agentes podían resolver de forma independiente.

Trabajo paralelo mediante bloqueo basado en git: Los 16 agentes no se pisaron el trabajo mutuamente gracias a un mecanismo de coordinación simple: un sistema de bloqueo basado en git que asignaba desafíos de compilación distintos a cada agente. Sin orquestador central, sin protocolo de comunicación complejo — solo tareas aisladas con un estándar de verificación compartido.

Lo que logra el compilador:

  • Pasa el 99 % de la suite de pruebas de tortura de GCC
  • Compila Linux 6.9 en arquitecturas x86, ARM y RISC-V
  • Construye software del mundo real: PostgreSQL, FFmpeg, Redis, SQLite, QEMU
  • Implementación de sala limpia sin acceso a internet — depende únicamente de la biblioteca estándar de Rust

Por qué la coordinación multi-agente es la clave

  • El paralelismo supera el trabajo en serie — 16 agentes trabajando simultáneamente lograron en dos semanas lo que un solo agente tardaría meses en hacer. El patrón: descomponer en tareas independientes y verificables, y ejecutarlas de forma concurrente.
  • Verificación en lugar de supervisión — En vez de vigilar a los agentes mientras trabajan, Carlini construyó verificación automatizada. Los agentes no necesitaban revisión humana porque el oráculo de pruebas detectaba errores automáticamente.
  • La economía es llamativa — 20.000 dólares y dos semanas para un compilador de 100.000 líneas. Para contexto, GCC fue construido por miles de ingenieros a lo largo de 37 años. El resultado no es tan optimizado, pero funciona.
  • Los agentes necesitan límites, no microgestión — Cada agente tenía un alcance claro (archivos de compilación específicos), un mecanismo de verificación (oráculo GCC) y aislamiento (bloqueo git). Este es el patrón emergente para la orquestación de agentes: tareas claras, verificaciones automatizadas, mínima sobrecarga de coordinación.

Qué significa esto para las organizaciones impulsadas por IA

Esta no es solo una historia de compiladores — es una prueba de concepto de cómo los equipos de IA operarán en producción. El patrón que Carlini demostró (agentes especializados en paralelo, verificación automatizada, coordinación basada en git) es la misma arquitectura que impulsa los flujos de trabajo empresariales multi-agente: cada agente posee una función, la verificación garantiza la calidad, y el sistema escala añadiendo más agentes, no más supervisión humana.

Las limitaciones también importan: el código generado no es eficiente, y algunos casos extremos todavía necesitan GCC. Esto refleja lo que las organizaciones observan al desplegar empleados de IA — manejan el 80 % del trabajo de forma confiable, mientras los humanos cubren el 20 % restante que requiere criterio y optimización.