Anthropic：16个AI智能体用2周时间构建了一个C编译器

2026-02-09 Anthropic Engineering

agentsautomationenterpriseproductivity

16个Claude智能体如何编写了10万行生产代码

Anthropic研究员Nicholas Carlini进行了一项实验，为多智能体编码范式提供了具体数据：16个Claude智能体并行工作两周，从零开始生成了一个基于Rust的C编译器。成果——10万行代码——可以编译Linux内核、PostgreSQL、FFmpeg、Redis、QEMU，甚至能运行Doom。

成本： 在近2,000次Claude Code会话中消耗了价值2万美元的API令牌，消耗了近20亿个输入令牌和1.4亿个输出令牌。

核心洞察——测试即协调： “Claude will work autonomously to solve whatever problem I give it. So it’s important that the task verifier is nearly perfect, otherwise Claude will solve the wrong problem.”（Claude会自主解决我交给它的任何问题。因此，任务验证器必须近乎完美，否则Claude会解决错误的问题。）Carlini的突破在于将GCC用作”已知正确的参考标准”——智能体可以用这个参考编译器验证自己的输出结果。这将一个模糊的创意任务转变为可验证的工程问题，让智能体能够独立解决。

基于git锁定的并行工作： 16个智能体之所以没有相互干扰，得益于一个简单的协调机制：基于git的锁定系统，为每个智能体分配了不同的编译任务。没有中央调度器，没有复杂的通信协议——只有共享验证标准的独立任务。

编译器实现的功能：

通过GCC压力测试套件的99%
在x86、ARM和RISC-V架构上编译Linux 6.9
构建真实世界软件：PostgreSQL、FFmpeg、Redis、SQLite、QEMU
无网络访问的洁净室实现——仅依赖Rust标准库

为什么多智能体协调是关键

并行优于串行 — 16个智能体同时工作，在两周内完成了单个智能体需要数月才能完成的工作。模式是：分解为独立的、可验证的任务并并发执行。
验证优于监督 — Carlini没有监视智能体的工作，而是构建了自动化验证。智能体不需要人工审查，因为测试参考标准会自动捕获错误。
经济性令人震惊 — 花费2万美元、用时两周，完成了一个10万行的编译器。相比之下，GCC由数千名工程师历经37年构建。生成的代码优化程度不及GCC，但能正常工作。
智能体需要边界，而非微观管理 — 每个智能体都有明确的范围（特定的编译文件）、验证机制（GCC参考标准）和隔离（git锁定）。这是智能体编排的新兴模式：清晰的任务、自动化检查、最小的协调开销。

这对AI驱动的组织意味着什么

这不仅仅是一个编译器的故事——它证明了AI团队在生产环境中的运作方式。Carlini展示的模式（并行专业化智能体、自动化验证、基于git的协调）与驱动多智能体业务工作流的架构相同：每个智能体负责一个功能，验证确保质量，系统通过增加更多智能体而非更多人工监督来扩展规模。

局限性同样重要：生成的代码效率不高，某些边缘情况仍需要GCC。这与组织在部署AI员工时看到的情况相呼应——他们可靠地处理80%的工作，而需要判断和优化的剩余20%则由人类负责。