En medio de una tendencia hacia el despliegue de agentes de IA autónomos, Anthropic y OpenAI han revelado recientemente herramientas multi-agente. Anthropic está particularmente interesado en destacar sus ambiciosas iniciativas de codificación con IA. Sin embargo, como es común con los avances de la IA, hay consideraciones importantes a tener en cuenta.
El investigador de Anthropic, Nicholas Carlini, reveló en una publicación de blog el jueves que supervisó un experimento usando 16 instancias del modelo de IA Claude Opus 4.6 de la compañía. Estas instancias fueron encargadas de crear colaborativamente un compilador C desde cero, basado en una base de código compartida y con solo una supervisión básica.
Durante el transcurso de dos semanas y aproximadamente 2,000 sesiones de Claude Code, con costos de API que totalizan alrededor de $20,000, los agentes del modelo de IA lograron producir un compilador de 100,000 líneas en Rust. Este compilador es capaz de construir un núcleo de Linux 6.9 arrancable compatible con las arquitecturas x86, ARM y RISC-V.
Carlini, quien es parte del equipo de Salvaguardias de Anthropic y tiene experiencia en Google Brain y DeepMind, empleó una característica del Claude Opus 4.6 llamada "equipos de agentes". Bajo este marco, cada instancia operaba de manera independiente en su contenedor Docker. Compartían un repositorio Git, reclamaban tareas mediante archivos de bloqueo y realizaban actualizaciones de manera autónoma. No había una orquestación central; cada agente elegía tareas basándose en necesidades inmediatas y resolvía conflictos de forma independiente.
El compilador resultante, disponible públicamente en GitHub, puede compilar varios proyectos significativos de código abierto como PostgreSQL, SQLite, Redis, FFmpeg y QEMU. Superó con éxito el 99% del conjunto de pruebas de tortura de GCC y, notablemente, compiló y ejecutó el juego Doom, que Carlini describió como "la prueba decisiva definitiva para el desarrollador".
Es importante reconocer que un compilador C representa un escenario casi ideal para la codificación semiautónoma de IA: sus especificaciones están bien establecidas, las pruebas exhaustivas ya están en su lugar y se dispone de un compilador de referencia confiable para la validación. En contraste, la mayoría de los proyectos de software del mundo real carecen de estas condiciones. Típicamente, el desafío no radica en producir código que pase las pruebas, sino en definir cuáles deberían ser esas pruebas.