Google actualiza el chatbot Gemini con un nuevo modelo de imagen de IA, que brinda a los usuarios más control sobre la edición de fotos. Su objetivo es ponerse al día con la popular herramienta de imagen de Openai y sacar a los usuarios de ChatGPT.
Llamada Imagen Flash Gemini 2.5, esta actualización se implementará en todos los usuarios de la aplicación Gemini desde el martes, así como a los desarrolladores a través de la API de Gemini, Google AI Studio y la plataforma Vertex AI.
El nuevo modelo de imagen de IA de Gemini está diseñado para proporcionar una edición más precisa de imágenes basadas en solicitudes de lenguaje natural de los usuarios. Por ejemplo, solicite a ChatGpt o Xai Grok que cambien el color de la camisa de otra persona en la foto. Los resultados pueden cambiar la cara o el fondo distorsionado.

Las nuevas herramientas de Google ya están llamando la atención. En las últimas semanas, los usuarios de las redes sociales han cautivado al impresionante editor de imágenes de IA de la plataforma de evaluación de crowdsourcing Lmarena. Este modelo se mostró a los usuarios de forma anónima bajo el seudónimo «Nano-Banana».
Google dice que está detrás del modelo (si ya no estaba claro por todos los consejos relacionados con el plátano). Esta es una característica de imagen nativa dentro del modelo insignia de AI Gemini 2.5 Flash. Google dice que el modelo de imagen es de vanguardia en Lmarena y otros puntos de referencia.

En una entrevista con TechCrunch, Nicole Brichtova, líder de productos para el modelo generativo visual de Google Deepmind, dijo:
«Esta actualización hace un trabajo mucho mejor al editar sus ediciones con más problemas. La salida del modelo se puede utilizar para lo que desea usar», dijo Brichtova.
El modelo de imagen de IA es una base de batalla importante para la gran tecnología. Cuando Operai lanzó su generador de imágenes nativas para el GPT-4O en marzo, usó ChatGPT en el techo gracias al meme Studio Gibli, que fue un meme de estudio Ghibli generado por IA que dejó la GPU «Melt» GPU.
Para ponerse al día con Openai y Google, Meta anunció la semana pasada que se presentaría al modelo de imagen de IA desde la startup MidJourney. Mientras tanto, el laboratorio alemán de bosque negro unicornio apoyado por la A16Z continúa dominando el punto de referencia con su modelo de imagen de IA Flux AI.
Quizás el impresionante editor de imágenes de IA de Gemini puede ayudar a Google a cerrar las brechas del usuario en OpenAI. ChatGPT registra más de 700 millones de usuarios semanales. En una llamada de ingresos de Google en julio, el CEO de Tech Giant, Sundar Pichai, reveló que Gemini tiene 450 millones de usuarios cada mes.
Brichtova dijo que Google diseñó específicamente el modelo de imagen utilizando casos de uso del consumidor, incluida la ayuda a los usuarios a visualizar sus proyectos de hogar y jardín. Este modelo también tiene un excelente «conocimiento mundial» y permite que múltiples referencias se combinen en un solo mensaje. Por ejemplo, puede fusionar una imagen de sofá, una foto de la sala de estar o una paleta de colores en una sola representación cohesiva.

El nuevo generador de imágenes AI de Gemini facilita a los usuarios crear y editar imágenes realistas, pero ha tomado salvaguardas para limitar lo que los usuarios pueden crear. Google ha tenido problemas para proteger a los generadores de imágenes AI en el pasado. En un momento, la compañía se disculpó por generar fotos históricamente inexactas de personas y rebobinar por completo al generador de imágenes AI.
Ahora, Google siente que es un mejor equilibrio.
«Queremos proporcionar a los usuarios un control creativo para que puedan obtener lo que quieran del modelo», dice Brichtova. «Pero eso no parece ir nada».
La sección de IA de generación de servicios de Google prohíbe a los usuarios generar «imágenes íntimas e indiferentes». Estos mismos tipos de medidas de protección no parecían existir en Grok, lo que permitió a los usuarios crear imágenes explícitas generadas en IA, similar a las celebridades como Taylor Swift.
Brichtova dice que para abordar el aumento de las imágenes de Deepfake, lo que puede dificultar que los usuarios identifiquen lo que realmente está en línea, Google aplica marcas de agua visuales a las imágenes generadas por IA y sus identificadores de metadatos. Sin embargo, las personas que pasan más allá de las imágenes de las redes sociales pueden no estar buscando tal identificador.
Source link
