OpenAI lanza GPT Image 1.5: Revolucionando la edición de imágenes con IA

A lo largo de la mayor parte de la historia de la fotografía, de aproximadamente 200 años, alterar una foto de manera convincente requería acceso al cuarto oscuro, conocimientos de Photoshop o al menos un pulso firme con tijeras y pegamento. Sin embargo, el martes, OpenAI presentó una herramienta que simplifica este proceso a simplemente escribir una oración.

Aunque OpenAI ha estado desarrollando un modelo de edición de imágenes conversacional desde GPT-4o en 2024, Google logró llegar primero al mercado en marzo con un prototipo público de su modelo de imagen Nano Banana, y luego su versión refinada, Nano Banana Pro. La entusiasta acogida del modelo de Google por parte de la comunidad de IA no pasó desapercibida para OpenAI.

La última innovación de OpenAI, GPT Image 1.5, es un modelo de síntesis de imágenes con IA que se dice que genera imágenes hasta cuatro veces más rápido que su versión anterior y reduce los costos en aproximadamente un 20% a través de su API. Este modelo estuvo disponible para todos los usuarios de ChatGPT el martes, marcando otro avance hacia hacer que la manipulación de imágenes fotorrealista sea un proceso sin esfuerzo que no requiere habilidades visuales específicas.

Con GPT Image 1.5, los usuarios pueden integrar fácilmente características como la "Reina Galáctica del Universo" en fotografías, como una habitación con un sofá, todo dentro de ChatGPT.

Notablemente, GPT Image 1.5 es un modelo de imagen "multimodal nativo", lo que indica que la generación de imágenes ocurre dentro de la misma red neuronal que procesa las solicitudes de lenguaje. A diferencia de DALL-E 3, un generador de imágenes anterior de OpenAI que dependía de una técnica de difusión, este nuevo modelo trata las imágenes y el texto como el mismo tipo de datos: tokens para ser predichos y patrones para ser completados. Por ejemplo, si subes una foto de una persona y solicitas, "ponlo en un esmoquin en una boda," el modelo integra datos de lenguaje y de imagen en un espacio unificado para producir nuevos resultados de píxeles, similar a predecir la siguiente palabra en una oración.

Al utilizar este método, GPT Image 1.5 facilita alteraciones visuales de manera más efectiva que los modelos de IA anteriores, permitiendo modificaciones como cambiar la pose de una persona, ajustar el ángulo de una escena o alterar objetos y ropa, todo mientras mantiene una similitud facial consistente a través de múltiples ediciones. Los usuarios pueden interactuar con el modelo de IA sobre fotografías tal como podrían refinar un borrador en ChatGPT, participando en un proceso de revisión dinámico.