En un avance significativo hacia el desarrollo de software impulsado por IA, Anthropic ha demostrado las capacidades de sus agentes de IA al lanzar herramientas de múltiples agentes, junto con iniciativas similares de OpenAI. Anthropic ha revelado un experimento ambicioso que muestra la destreza de su IA en tareas de codificación, aunque con algunas advertencias previas típicas de los esfuerzos de IA.
El jueves, Nicholas Carlini, un investigador de Anthropic, detalló en una publicación de blog cómo aprovechó 16 instancias del modelo de IA Claude Opus 4.6 para trabajar colaborativamente en una única base de código con una guía mínima. La tarea asignada fue desarrollar un compilador C desde cero.
Durante un período de dos semanas, que involucró casi 2,000 sesiones y generó aproximadamente $20,000 en tarifas de API, estos agentes de IA produjeron un compilador basado en Rust de 100,000 líneas. Este compilador puede construir un núcleo de Linux 6.9 arrancable compatible con arquitecturas x86, ARM y RISC-V.
Carlini, miembro del equipo de Salvaguardas de Anthropic con una permanencia anterior en Google Brain y DeepMind, aprovechó una característica recién introducida de Claude Opus 4.6 conocida como equipos de agentes. Prácticamente, cada instancia de IA operaba en un contenedor Docker independiente, accediendo a un repositorio Git compartido, autoasignándose tareas a través de archivos de bloqueo y luego actualizando el código completado al repositorio principal. No hubo coordinación centralizada; cada instancia identificaba y abordaba de manera autónoma los problemas más apremiantes. Incluso cuando ocurrían conflictos de fusión, eran resueltos de manera independiente por los modelos de IA.
El compilador resultante, ahora disponible en GitHub, ha demostrado su capacidad al compilar varios proyectos de código abierto significativos como PostgreSQL, SQLite, Redis, FFmpeg y QEMU. Pasó con éxito el 99 por ciento del conjunto de pruebas de tortura de GCC y, notablemente, logró compilar y ejecutar Doom, al cual Carlini se refirió como el prueba definitiva del desarrollador.
Sin embargo, es importante reconocer que crear un compilador C es notablemente adecuado para esfuerzos de codificación de IA semi-autónomos: La tarea se beneficia de una especificación establecida y bien definida, suites de prueba existentes y un compilador de referencia bien conocido para comparación. En contraste, la mayoría de los proyectos de software del mundo real carecen de estas ventajas claras. El desafío principal a menudo no es solo escribir código que pase pruebas, sino determinar cuáles deben ser esas pruebas en primer lugar.