Anthropic 的 AI 代理成功構建可啟動的 Linux 編譯器

在通向 AI 驅動軟體開發的重要一歩中,Anthropic 通過發布多代理工具展示了其 AI 代理的能力,這與 OpenAI 的類似舉措並駕齊驅。Anthropic 宣布了一個雄心勃勃的實驗,展示其 AI 在代碼任務中的驚人能力,儘管這伴隨著 AI 典型操作的若干事先聲明。

在星期四,Anthropic 的研究員 Nicholas Carlini 在一篇博客文章中詳細介紹了他如何利用 16 個 Claude Opus 4.6 AI 模型實例在幾乎沒有指導的情況下合作處理單一代碼庫。分配的任務是從頭開始開發一個 C 編譯器。

在為期兩週的時間內,涉及近 2,000 個會話,並產生了大約 $20,000 的 API 費用後,這些 AI 代理生產出了一個 100,000 行的基於 Rust 的編譯器。這個編譯器可以構建一個可啟動的 Linux 6.9 核心,與 x86、ARM 和 RISC-V 架構兼容。

Carlini 是 Anthropic 保護團隊成員,曾在 Google Brain 和 DeepMind 任職,他利用了 Claude Opus 4.6 新引入的功能“代理團隊”。實際上,每個 AI 實例在一個獨立的 Docker 容器中運行,訪問共享的 Git 存儲庫,通過鎖文件自我分配任務,然後將完成的代碼更新到主存儲庫。沒有集中協調;每個實例都自主識別並解決最緊迫的問題。即便在合併衝突發生時,AI 模型也能獨立解決。

生成的編譯器現可在 GitHub 上獲得,其能力已通過編譯諸如 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU 等多個重要開源專案得到證明。它成功通過了 99% 的 GCC 折磨測試集,並且值得注意的是,成功編譯並運行了 Doom,Carlini 將其稱為“開發者的終極試金石”。

然而,重要的是要承認,創建一個 C 編譯器對於半自主的 AI 編碼努力來說特別合適:這項任務受益於已建立、明確的規範、現有的全面測試集以及一個知名的參考編譯器作為比較。相較之下,大多數現實世界的軟體專案缺乏這些明確的優勢。主要挑戰通常不僅是編寫通過測試的代碼,而在於首先確定應該是什麼測試。

← 返回新聞