Anthropic:16のAIエージェントが2週間でCコンパイラを構築

agentsautomationenterpriseproductivity

16のClaudeエージェントが10万行のプロダクションコードを書いた方法

Anthropicの研究者Nicholas Carliniは、マルチエージェント・コーディングパラダイムに具体的な数値を与える実験を行いました。16のClaudeエージェントが2週間にわたって並列で作業し、Rustベースのゼロからのコンパイラを生み出しました。その成果物——10万行のコード——はLinuxカーネル、PostgreSQL、FFmpeg、Redis、QEMUをコンパイルでき、Doomまで動作させられます。

コスト: APIトークン費用として2万ドル(約2,000回のClaude Codeセッション)、入力トークン約20億個と出力トークン約1億4,000万個を消費しました。

核心的な洞察——テストによる調整: “Claude will work autonomously to solve whatever problem I give it. So it’s important that the task verifier is nearly perfect, otherwise Claude will solve the wrong problem.”(Claudeは与えられた問題を自律的に解決しようとします。そのため、タスク検証器がほぼ完璧でなければ、Claudeは間違った問題を解いてしまいます。)Carliniのブレークスルーは、GCCを「既知の正解オラクル」として使用することでした。エージェントが自分の出力を検証できる参照コンパイラです。これにより、あいまいな創造的タスクが、エージェントが独立して解決できる検証可能なエンジニアリング問題に変換されました。

gitベースのロッキングによる並列作業: 16のエージェントが互いの作業を妨げなかったのは、シンプルな調整メカニズムのおかげです。gitベースのロッキングシステムが各エージェントに異なるコンパイルの課題を割り当てました。中央オーケストレーターも、複雑な通信プロトコルも不要——共通の検証基準を持つ独立したタスクのみです。

コンパイラの達成内容:

  • GCCのトーチャーテストスイートの99%をパス
  • x86、ARM、RISC-Vアーキテクチャ向けにLinux 6.9をコンパイル
  • 実用的なソフトウェアをビルド:PostgreSQL、FFmpeg、Redis、SQLite、QEMU
  • インターネットアクセスなしのクリーンルーム実装——Rustの標準ライブラリのみに依存

マルチエージェント調整がカギとなる理由

  • 並列処理は逐次処理に勝る — 16のエージェントが同時に作業することで、単一エージェントなら数ヶ月かかる作業を2週間で完了させました。パターンは:独立した検証可能なタスクに分解し、並列実行する。
  • 検証 > 監督 — エージェントの作業を監視するのではなく、Carliniは自動化された検証を構築しました。テストオラクルが自動でエラーを検知するため、エージェントに人間のレビューは不要でした。
  • 経済性は驚くべきもの — 10万行のコンパイラに2万ドルと2週間。参考までに、GCCは数千人のエンジニアが37年かけて構築しました。生成されたコードは最適化されていませんが、機能します。
  • エージェントには境界が必要であり、マイクロマネジメントは不要 — 各エージェントは明確なスコープ(特定のコンパイルファイル)、検証メカニズム(GCCオラクル)、分離(gitロッキング)を持っていました。これがエージェントオーケストレーションの新興パターンです:明確なタスク、自動チェック、最小限の調整オーバーヘッド。

AIを活用する組織にとっての意味

これは単なるコンパイラの話ではありません——AIチームが本番環境でどのように動作するかの証明です。Carliniが示したパターン(並列専門エージェント、自動化された検証、gitベースの調整)は、マルチエージェントのビジネスワークフローを動かすのと同じアーキテクチャです。各エージェントが機能を担い、検証が品質を保証し、システムはより多くの人間の監督ではなくエージェントを追加することでスケールします。

制限も重要です。生成されたコードは効率的ではなく、一部のエッジケースではまだGCCが必要です。これは、組織がAI従業員を導入する際に見られるものを反映しています——業務の80%を確実に処理し、判断や最適化が必要な残りの20%は人間が対応します。