Anthropic 揭示合作 AI 努力構建 C 編譯器

在本週 AI 技術的進展中，Anthropic 和 OpenAI 都推出了多代理工具，其中 Anthropic 展示了一些大膽的 AI 編碼實驗。然而，這些 AI 的進展伴隨著不可避免的警告。

週四，Anthropic 的研究員 Nicholas Carlini 發布了一篇博客文章，解釋了一項引人入勝的實驗，該實驗中 16 個 Anthropic 的 Claude Opus 4.6 AI 模型實例投放在一個聯合代碼庫中，指導極少。他們的使命：從零開始開發一個 C 編譯器。

在兩週的時間中，進行了將近 2,000 次 Claude 代碼會話，花費了約 20,000 美元的 API 費用，據報導，這些 AI 代理創建了一個使用 Rust 的 100,000 行的編譯器。這個編譯器能夠在 x86、ARM 和 RISC-V 架構上構建可啟動的 Linux 6.9 內核。

Carlini 是 Anthropic 安全團隊的資深研究科學家，曾在 Google Brain 和 DeepMind 工作，他利用了 Claude Opus 4.6 的新功能，稱為「代理團隊」。在運行過程中，每個 Claude 實例在自己的 Docker 容器中運作，訪問共享的 Git 存儲庫，通過創建鎖定文件選擇任務，然後將最終代碼上傳融合。在沒有中心控制代理的情況下，這些實例自主運行，獨立確定和解決他們認為最重要的問題。他們甚至自己解決合併衝突。

完成的編譯器現在已在 GitHub 上可用，能夠編譯眾多開源項目，如 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU。它在 GCC 折磨測試套件上具有 99% 的成功率，按照 Carlini 的說法，通過了「開發者的終極試金石測試」——編譯和運行 Doom。

需要強調的是，創建一個 C 編譯器幾乎是一個對半自主 AI 模型編碼的最佳任務。規範已經確立並且明確定義，擁有現成的全面測試套件和一個公認的參考編譯器可用作比較。相對而言，多數真實世界軟件項目缺乏這些結構化優勢。主要挑戰通常不在於編寫可以通過測試的代碼，而在於確定初始應進行哪些測試。