Anthropic:16个AI智能体用2周时间构建了一个C编译器

agentsautomationenterpriseproductivity

16个Claude智能体如何编写了10万行生产代码

Anthropic研究员Nicholas Carlini进行了一项实验,为多智能体编码范式提供了具体数据:16个Claude智能体并行工作两周,从零开始生成了一个基于Rust的C编译器。成果——10万行代码——可以编译Linux内核、PostgreSQL、FFmpeg、Redis、QEMU,甚至能运行Doom。

成本: 在近2,000次Claude Code会话中消耗了价值2万美元的API令牌,消耗了近20亿个输入令牌和1.4亿个输出令牌。

核心洞察——测试即协调: “Claude will work autonomously to solve whatever problem I give it. So it’s important that the task verifier is nearly perfect, otherwise Claude will solve the wrong problem.”(Claude会自主解决我交给它的任何问题。因此,任务验证器必须近乎完美,否则Claude会解决错误的问题。)Carlini的突破在于将GCC用作”已知正确的参考标准”——智能体可以用这个参考编译器验证自己的输出结果。这将一个模糊的创意任务转变为可验证的工程问题,让智能体能够独立解决。

基于git锁定的并行工作: 16个智能体之所以没有相互干扰,得益于一个简单的协调机制:基于git的锁定系统,为每个智能体分配了不同的编译任务。没有中央调度器,没有复杂的通信协议——只有共享验证标准的独立任务。

编译器实现的功能:

  • 通过GCC压力测试套件的99%
  • 在x86、ARM和RISC-V架构上编译Linux 6.9
  • 构建真实世界软件:PostgreSQL、FFmpeg、Redis、SQLite、QEMU
  • 无网络访问的洁净室实现——仅依赖Rust标准库

为什么多智能体协调是关键

  • 并行优于串行 — 16个智能体同时工作,在两周内完成了单个智能体需要数月才能完成的工作。模式是:分解为独立的、可验证的任务并并发执行。
  • 验证优于监督 — Carlini没有监视智能体的工作,而是构建了自动化验证。智能体不需要人工审查,因为测试参考标准会自动捕获错误。
  • 经济性令人震惊 — 花费2万美元、用时两周,完成了一个10万行的编译器。相比之下,GCC由数千名工程师历经37年构建。生成的代码优化程度不及GCC,但能正常工作。
  • 智能体需要边界,而非微观管理 — 每个智能体都有明确的范围(特定的编译文件)、验证机制(GCC参考标准)和隔离(git锁定)。这是智能体编排的新兴模式:清晰的任务、自动化检查、最小的协调开销。

这对AI驱动的组织意味着什么

这不仅仅是一个编译器的故事——它证明了AI团队在生产环境中的运作方式。Carlini展示的模式(并行专业化智能体、自动化验证、基于git的协调)与驱动多智能体业务工作流的架构相同:每个智能体负责一个功能,验证确保质量,系统通过增加更多智能体而非更多人工监督来扩展规模。

局限性同样重要:生成的代码效率不高,某些边缘情况仍需要GCC。这与组织在部署AI员工时看到的情况相呼应——他们可靠地处理80%的工作,而需要判断和优化的剩余20%则由人类负责。