在部署自主 AI 代理的趨勢下,Anthropic 和 OpenAI 最近都推出了多代理工具。Anthropic 特別希望強調其雄心勃勃的 AI 編碼計劃。然而,像 AI 進步常見的一樣,有重要的考量需要注意。
Anthropic 研究員尼古拉斯·卡爾里尼於週四在部落格文章中透露,他監督了一項實驗,使用公司 16 個 Claude Opus 4.6 AI 模型實例,這些實例被賦予任務,共同從零開始建立一個 C 編譯器,基於共享的代碼庫並且只有基本的監督。
在為期兩週的大約 2,000 次 Claude Code 會話中,API 成本總計約 $20,000,AI 模型代理成功產生一個 100,000 行的 Rust 編譯器。此編譯器能建構可引導的 Linux 6.9 核心,適用於 x86、ARM 和 RISC-V 架構。
卡爾里尼屬於 Anthropic 的防護小組,且具有 Google Brain 和 DeepMind 的背景,利用了 Claude Opus 4.6 的一項名為“代理團隊”的功能。在此框架下,每個實例在其 Docker 容器中獨立運作。它們共享一個 Git 存儲庫,通過鎖文件申領任務並自主推送更新。沒有集中編排;每個代理根據即時需求選擇任務並獨立解決衝突。
最終的編譯器已在 GitHub 上公開,能編譯數個重要的開源項目,像是 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU。它成功通過了 99% 的 GCC 折磨測試套件,並尤其編譯並執行了遊戲 Doom,這被卡爾里尼形容為“開發者的終極試金石”。
需注意的是,一個 C 編譯器幾乎代表了半自主 AI 編碼的理想情境:其規格是已經確立的,全面的測試已經到位,且有可靠的參考編譯器可供驗證。相比之下,大多數真實世界的軟件專案並不具備這些條件。通常,挑戰不在於產生通過測試的代碼,而是定義那些測試應該是什麼。