OpenAI Lanza GPT-5.3-Codex-Spark en Chips Cerebras, Superando Velocidades Anteriores

El jueves, OpenAI presentó GPT-5.3-Codex-Spark, su primer modelo de IA en producción para funcionar en hardware no Nvidia. El modelo se implementó en chips proporcionados por Cerebras y está diseñado específicamente para tareas de codificación, demostrando una velocidad impresionante de más de 1,000 tokens (fragmentos de datos) por segundo. Se informa que este rendimiento es aproximadamente 15 veces más rápido que el de su predecesor.

En comparación, el Claude Opus 4.6 de Anthropic, en su recién introducido modo rápido premium, es aproximadamente 2.5 veces más rápido que su velocidad estándar de 68.2 tokens por segundo, a pesar de ser un modelo más avanzado y grande que Codex-Spark.

"Cerebras ha sido un gran socio de ingeniería, y estamos emocionados de agregar la inferencia rápida como una nueva capacidad de plataforma," comentó Sachin Katti, jefe de computación de OpenAI, en un comunicado.

Codex-Spark es actualmente una vista previa de investigación disponible para suscriptores de ChatGPT Pro a un costo de $200 por mes a través de la aplicación Codex, la interfaz de línea de comandos y la extensión de VS Code. Además, OpenAI está lanzando acceso API a socios de diseño seleccionados. El modelo se lanza con una ventana de contexto de 128,000 tokens y está limitado al procesamiento de solo texto en la actualidad.

Este lanzamiento sigue al lanzamiento anterior de OpenAI del modelo completo GPT-5.3-Codex a principios de este mes, que se destaca en tareas de codificación complejas. Por el contrario, Spark está afinado para la velocidad en lugar de la profundidad de conocimiento, lo que lo hace ideal para la codificación operando como un modelo de solo texto, a diferencia de las tareas de propósito general que realiza su hermano mayor.

Se informa que Spark supera al anterior GPT-5.1-Codex-mini en evaluaciones de ingeniería de software en SWE-Bench Pro y Terminal-Bench 2.0, completando tareas en un tiempo significativamente menor, según informó OpenAI. No obstante, estas métricas de rendimiento no han sido validadas de forma independiente por fuentes externas.

Comparativamente, pruebas anteriores revelaron el rendimiento más lento de Codex; cuando fue evaluado por Ars en diciembre, tomó el doble del tiempo del Claude Code de Anthropic para completar la creación de un juego de Buscaminas.

En el panorama competitivo de agentes de codificación, el logro de GPT-5.3-Codex-Spark de 1,000 tokens por segundo marca un avance sustancial sobre cualquier modelo que OpenAI haya desplegado anteriormente utilizando su infraestructura. Según puntos de referencia independientes realizados por Artificial Analysis, los modelos más rápidos de OpenAI basados en Nvidia no alcanzaron tales velocidades: GPT-4o alcanzó alrededor de 147 tokens por segundo, o3-mini alrededor de 167, y GPT-4o mini aproximadamente 52 tokens por segundo.