在本週 AI 技術的進展中,Anthropic 和 OpenAI 都推出了多代理工具,其中 Anthropic 展示了一些大膽的 AI 編碼實驗。然而,這些 AI 的進展伴隨著不可避免的警告。
週四,Anthropic 的研究員 Nicholas Carlini 發布了一篇博客文章,解釋了一項引人入勝的實驗,該實驗中 16 個 Anthropic 的 Claude Opus 4.6 AI 模型實例投放在一個聯合代碼庫中,指導極少。他們的使命:從零開始開發一個 C 編譯器。
在兩週的時間中,進行了將近 2,000 次 Claude 代碼會話,花費了約 20,000 美元的 API 費用,據報導,這些 AI 代理創建了一個使用 Rust 的 100,000 行的編譯器。這個編譯器能夠在 x86、ARM 和 RISC-V 架構上構建可啟動的 Linux 6.9 內核。
Carlini 是 Anthropic 安全團隊的資深研究科學家,曾在 Google Brain 和 DeepMind 工作,他利用了 Claude Opus 4.6 的新功能,稱為「代理團隊」。在運行過程中,每個 Claude 實例在自己的 Docker 容器中運作,訪問共享的 Git 存儲庫,通過創建鎖定文件選擇任務,然後將最終代碼上傳融合。在沒有中心控制代理的情況下,這些實例自主運行,獨立確定和解決他們認為最重要的問題。他們甚至自己解決合併衝突。
完成的編譯器現在已在 GitHub 上可用,能夠編譯眾多開源項目,如 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU。它在 GCC 折磨測試套件上具有 99% 的成功率,按照 Carlini 的說法,通過了「開發者的終極試金石測試」——編譯和運行 Doom。
需要強調的是,創建一個 C 編譯器幾乎是一個對半自主 AI 模型編碼的最佳任務。規範已經確立並且明確定義,擁有現成的全面測試套件和一個公認的參考編譯器可用作比較。相對而言,多數真實世界軟件項目缺乏這些結構化優勢。主要挑戰通常不在於編寫可以通過測試的代碼,而在於確定初始應進行哪些測試。