ChatGPT Actualiza su Modelo de Generación de Imágenes en Gpt-4o

Por

22/04/2025

144

La función de generación de imágenes de ChatGPT ha dado un paso significativo hacia el futuro con la introducción de su actualización más reciente, impulsada por el modelo GPT-4o. Este avance no solo amplía las capacidades del modelo, sino que también transforma la manera en que interactuamos con la inteligencia artificial para crear y editar imágenes. La actualización promete mejorar la precisión y el detalle en comparación con sus predecesores, ofreciendo a los usuarios una herramienta más potente y versátil.

OpenAI, la compañía detrás de ChatGPT, ha implementado esta actualización inicialmente en su suscripción Pro, y ya está siendo desplegada a los usuarios Plus y gratuitos, así como a desarrolladores. Esta estrategia busca democratizar el acceso a funciones avanzadas de generación de imágenes, permitiendo a más personas experimentar con las capacidades multimodales de GPT-4o.

Innovaciones de GPT-4o en la generación de imágenes

El modelo GPT-4o ha sido diseñado para ofrecer funciones avanzadas, permitiendo a los usuarios crear y editar imágenes de forma nativa. Esto incluye la capacidad de realizar tareas complejas como el «inpainting», lo que añade un nuevo nivel de creatividad en la edición de imágenes. La generación nativa también permite a GPT-4o integrar su conocimiento entre texto e imágenes, mejorando la eficiencia y el alcance creativo.

Una de las grandes novedades es que GPT-4o puede generar imágenes directamente dentro del flujo de conversación, manteniendo coherencia con los mensajes previos del chat. Esta capacidad de entender el contexto permite desarrollar imágenes que evolucionan a lo largo de una conversación, aportando continuidad y personalización a cada creación.

Además, GPT-4o permite generar imágenes siguiendo instrucciones detalladas con gran precisión: puede responder a prompts complejos, incorporar múltiples elementos, respetar proporciones específicas como el formato horizontal o cuadrado, aplicar colores exactos mediante códigos hexadecimales, e incluso generar fondos transparentes según las necesidades del usuario.

Otra innovación clave es la capacidad para combinar texto e imagen de forma precisa, convirtiendo la generación visual en una auténtica herramienta de comunicación. El modelo también permite transformar imágenes existentes o adaptarlas a distintos estilos, ofreciendo más flexibilidad creativa que nunca.

Precisión y detalles mejorados

GPT-4o se destaca por su precisión y atención al detalle al generar imágenes, superando a su predecesor, DALL·E 3. Este nuevo modelo puede manejar hasta 10-20 objetos diferentes en una sola imagen, convirtiéndose en una poderosa herramienta para la comunicación visual. Además, OpenAI ha implementado medidas de seguridad robustas para prevenir el uso indebido, asegurando que las imágenes generadas se mantengan dentro de límites apropiados.

Acceso y despliegue a usuarios

La nueva función de generación de imágenes está disponible inicialmente para los suscriptores Pro, pero pronto se extenderá a usuarios Plus y gratuitos, así como a desarrolladores que utilizan la API de OpenAI. Esta amplia disponibilidad reforzará la posición de ChatGPT como plataforma líder en inteligencia artificial. Además, los usuarios ahora pueden personalizar imágenes mediante descripciones detalladas, mejorando la interacción y personalización en el uso cotidiano.

Suscripción Pro: Acceso inmediato a funciones avanzadas.
Usuarios Plus y gratuitos: Despliegue progresivo.
Desarrolladores: Integración vía API de OpenAI.

Limitaciones actuales y mejoras futuras

A pesar de sus avances, GPT-4o presenta limitaciones. OpenAI reconoce problemas como cortes, alucinaciones y dificultades con texto en varios idiomas. La compañía está comprometida con la mejora continua del modelo, enfocándose especialmente en la precisión de edición y la representación consistente de rostros.

GPT-4o también se destaca por implementar metadatos C2PA para identificar imágenes generadas, brindando transparencia y seguridad adicional. Esta práctica, junto al uso de un razonamiento LLM para la moderación de contenido, asegura que las imágenes generadas cumplan altos estándares de calidad y ética.

Un futuro prometedor

Con la generación de imágenes ahora considerada una capacidad primaria para los modelos de lenguaje de OpenAI, el futuro es muy prometedor. La integración de estas funciones en Sora, la herramienta de generación de vídeo de OpenAI, y su despliegue para usuarios Enterprise y Edu, indica que apenas estamos comenzando a explorar el potencial completo de esta tecnología.

OpenAI se posiciona así en la vanguardia de la inteligencia artificial creativa, dejando claro que la generación de imágenes con GPT-4o es una herramienta práctica y poderosa para el presente y futuro de la comunicación visual.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net