Anthropic 的 AI 模型以最少監督建構 C 編譯器

在部署自主 AI 代理的趨勢下，Anthropic 和 OpenAI 最近都推出了多代理工具。Anthropic 特別希望強調其雄心勃勃的 AI 編碼計劃。然而，像 AI 進步常見的一樣，有重要的考量需要注意。

Anthropic 研究員尼古拉斯·卡爾里尼於週四在部落格文章中透露，他監督了一項實驗，使用公司 16 個 Claude Opus 4.6 AI 模型實例，這些實例被賦予任務，共同從零開始建立一個 C 編譯器，基於共享的代碼庫並且只有基本的監督。

在為期兩週的大約 2,000 次 Claude Code 會話中，API 成本總計約 $20,000，AI 模型代理成功產生一個 100,000 行的 Rust 編譯器。此編譯器能建構可引導的 Linux 6.9 核心，適用於 x86、ARM 和 RISC-V 架構。

卡爾里尼屬於 Anthropic 的防護小組，且具有 Google Brain 和 DeepMind 的背景，利用了 Claude Opus 4.6 的一項名為“代理團隊”的功能。在此框架下，每個實例在其 Docker 容器中獨立運作。它們共享一個 Git 存儲庫，通過鎖文件申領任務並自主推送更新。沒有集中編排；每個代理根據即時需求選擇任務並獨立解決衝突。

最終的編譯器已在 GitHub 上公開，能編譯數個重要的開源項目，像是 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU。它成功通過了 99% 的 GCC 折磨測試套件，並尤其編譯並執行了遊戲 Doom，這被卡爾里尼形容為“開發者的終極試金石”。

需注意的是，一個 C 編譯器幾乎代表了半自主 AI 編碼的理想情境：其規格是已經確立的，全面的測試已經到位，且有可靠的參考編譯器可供驗證。相比之下，大多數真實世界的軟件專案並不具備這些條件。通常，挑戰不在於產生通過測試的代碼，而是定義那些測試應該是什麼。