Anthropic 的 AI 代理成功構建可啟動的 Linux 編譯器

在通向 AI 驅動軟體開發的重要一歩中，Anthropic 通過發布多代理工具展示了其 AI 代理的能力，這與 OpenAI 的類似舉措並駕齊驅。Anthropic 宣布了一個雄心勃勃的實驗，展示其 AI 在代碼任務中的驚人能力，儘管這伴隨著 AI 典型操作的若干事先聲明。

在星期四，Anthropic 的研究員 Nicholas Carlini 在一篇博客文章中詳細介紹了他如何利用 16 個 Claude Opus 4.6 AI 模型實例在幾乎沒有指導的情況下合作處理單一代碼庫。分配的任務是從頭開始開發一個 C 編譯器。

在為期兩週的時間內，涉及近 2,000 個會話，並產生了大約 $20,000 的 API 費用後，這些 AI 代理生產出了一個 100,000 行的基於 Rust 的編譯器。這個編譯器可以構建一個可啟動的 Linux 6.9 核心，與 x86、ARM 和 RISC-V 架構兼容。

Carlini 是 Anthropic 保護團隊成員，曾在 Google Brain 和 DeepMind 任職，他利用了 Claude Opus 4.6 新引入的功能“代理團隊”。實際上，每個 AI 實例在一個獨立的 Docker 容器中運行，訪問共享的 Git 存儲庫，通過鎖文件自我分配任務，然後將完成的代碼更新到主存儲庫。沒有集中協調；每個實例都自主識別並解決最緊迫的問題。即便在合併衝突發生時，AI 模型也能獨立解決。

生成的編譯器現可在 GitHub 上獲得，其能力已通過編譯諸如 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU 等多個重要開源專案得到證明。它成功通過了 99% 的 GCC 折磨測試集，並且值得注意的是，成功編譯並運行了 Doom，Carlini 將其稱為“開發者的終極試金石”。

然而，重要的是要承認，創建一個 C 編譯器對於半自主的 AI 編碼努力來說特別合適：這項任務受益於已建立、明確的規範、現有的全面測試集以及一個知名的參考編譯器作為比較。相較之下，大多數現實世界的軟體專案缺乏這些明確的優勢。主要挑戰通常不僅是編寫通過測試的代碼，而在於首先確定應該是什麼測試。