Anthropic Desvela Esfuerzo Colaborativo de IA para Construir un Compilador de C

En una semana marcada por avances en tecnología de IA, tanto Anthropic como OpenAI han lanzado herramientas de múltiples agentes, con Anthropic mostrando algunos de sus audaces experimentos de codificación de IA. Sin embargo, estos avances en IA vienen con advertencias inevitables.

El jueves, el investigador de Anthropic Nicholas Carlini publicó una entrada de blog explicando un fascinante experimento donde se lanzaron 16 instancias del modelo de IA Claude Opus 4.6 de Anthropic en una base de código conjunta con una mínima guía. Su misión: desarrollar un compilador de C desde cero.

Durante un lapso de dos semanas y casi 2,000 sesiones de Claude Code, con un costo aproximado de $20,000 en tarifas API, se informa que estos agentes de IA crearon un compilador de 100,000 líneas usando Rust. Este compilador es capaz de construir un núcleo Linux 6.9 arrancable en arquitecturas x86, ARM y RISC-V.

Carlini, un experimentado científico investigador del equipo de Salvaguardas de Anthropic con anteriores experiencias en Google Brain y DeepMind, utilizó una característica novedosa de Claude Opus 4.6 conocida como "equipos de agentes." En operación, cada instancia de Claude funcionaba dentro de su propio contenedor Docker, accediendo a un repositorio Git compartido, seleccionando tareas al crear archivos de bloqueo y luego integrando el código finalizado upstream. Las instancias operaban de forma autónoma sin un agente de orquestación central, identificando y abordando los problemas que consideraban más urgentes. Incluso resolvían los conflictos de fusión por sí mismas.

El compilador logrado, ahora disponible en GitHub, es capaz de compilar una amplia gama de proyectos de código abierto como PostgreSQL, SQLite, Redis, FFmpeg y QEMU. Presume de una tasa de éxito del 99% en la suite de pruebas de tortura de GCC y, en palabras de Carlini, pasó "la prueba de fuego definitiva del desarrollador" al compilar y ejecutar Doom.

Es crucial reconocer que crear un compilador de C representa una tarea casi óptima para la codificación de modelos de IA semi-autónomos. Las especificaciones están establecidas desde hace tiempo y bien definidas, con suites de pruebas comprensivas preexistentes y un compilador de referencia conocido para comparar. En contraste, la mayoría de los proyectos de software del mundo real carecen de estas ventajas estructuradas. El desafío principal generalmente no radica en escribir un código que pase las pruebas, sino en determinar cuáles deberían ser esas pruebas inicialmente.