Google presenta Whisk, una innovadora herramienta de IA para imágenes: sube varias imágenes y fusiona sujetos, escenas y estilos

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Dec 17, 2024

362

Google Labs lanzó recientemente en Estados Unidos su nueva herramienta experimental de inteligencia artificial generativa, Whisk. A diferencia de las herramientas tradicionales de generación de imágenes que dependen principalmente de indicaciones de texto, Whisk se centra en el uso de imágenes como método de entrada, permitiendo a los usuarios crear obras de arte de forma más intuitiva.

Los usuarios pueden cargar imágenes directamente a Whisk o generar imágenes dentro de la herramienta, especificando elementos como el tema, la escena y el estilo. El sistema Whisk permite a los usuarios mezclar y combinar estos componentes, y también pueden usar indicaciones de texto adicionales para realizar ajustes según sea necesario.

Cabe destacar que, en segundo plano, el modelo de lenguaje de Google (posiblemente el Gemini 2.0 Flash recientemente lanzado) genera automáticamente una descripción detallada de la imagen de entrada. Estas descripciones se introducen en el modelo de generación de imágenes más reciente de Google, Imagen 3, para capturar las características esenciales del sujeto, en lugar de crear una copia idéntica.

AIbase realizó varias pruebas; al cargar las tres imágenes de la izquierda, se pudo generar la imagen combinada de la derecha. Los resultados fueron bastante buenos y la herramienta ofrece una alta capacidad de juego. A continuación se muestran los ejemplos:

Sin embargo, dado que Whisk solo extrae unos pocos elementos clave de cada imagen de origen, Google advierte a los usuarios que el resultado de la imagen generada puede diferir de lo esperado. Por ejemplo, la imagen generada puede tener diferencias en altura, peso, peinado o tono de piel en comparación con la imagen original.

Ante esto, Google afirma que estos detalles suelen ser cruciales para el éxito del proyecto, por lo que permite a los usuarios ver y editar las indicaciones de texto que impulsan el proceso de generación de imágenes.

Los probadores iniciales, incluidos algunos artistas y profesionales creativos, afirman que Whisk se asemeja más a una nueva herramienta creativa que a un editor de imágenes tradicional. Google espera que esta herramienta ayude a los usuarios a realizar lluvias de ideas visuales rápidas, en lugar de ediciones precisas, permitiendo que los usuarios generen y filtren rápidamente varias opciones antes de guardar sus obras favoritas.

Tras las pruebas iniciales, aunque Whisk es muy agradable de usar, la generación de cada imagen nueva requiere una espera de unos segundos. Estos retrasos podrían deberse al alto tráfico, ya que muchos usuarios se han apresurado a probar esta nueva herramienta.

Actualmente, Whisk solo está disponible para usuarios de Estados Unidos. Los usuarios pueden probarlo gratuitamente y compartir sus comentarios en labs.google/whisk. Por el momento, los usuarios de otros países no pueden acceder a esta herramienta.

Whisk pertenece a Google Labs, el campo de pruebas de Google para sus proyectos de IA, incluyendo Gemini, Imagen y el último modelo de video Veo2. Si bien la mayoría de los proyectos aún se encuentran en fase experimental, algunos proyectos exitosos, como el asistente de IA NotebookLM lanzado recientemente, se transforman en productos completos.

Dirección para probar el producto: https://top.aibase.com/tool/whisk

Puntos clave:
🌟 Google lanza Whisk, la primera herramienta de IA generativa basada principalmente en imágenes.
🎨 Los usuarios pueden cargar o generar imágenes para realizar diseños visuales rápidos en lugar de ediciones precisas.
🚫 Actualmente, solo disponible para usuarios de Estados Unidos. El acceso está restringido para otros países.

¡NeuralOS, el sistema operativo de inteligencia artificial, aparece de repente! Interfaz perfectamente simulada de Windows, nueva era en la interacción hombre-máquina

Un equipo chino presenta NeuralOS, un sistema operativo de inteligencia artificial de código abierto, que materializa la propuesta de GUI para la era de la inteligencia artificial de Kapor. Este sistema utiliza dos módulos principales: RNN y renderizador neuronal, que pueden predecir y simular en tiempo real la interfaz de Windows, mostrando con precisión las respuestas a las operaciones del usuario. El equipo de desarrollo entrenó al sistema con una gran cantidad de grabaciones de operaciones, y actualmente puede predecir con precisión las operaciones del usuario, aunque aún tiene ciertas limitaciones al manejar entradas rápidas del teclado. NeuralOS ya ofrece una versión en línea para probar, demostrando una nueva experiencia en sistemas operativos generados dinámicamente por la inteligencia artificial. Con el código...

Diario de IA: ByteDance lanzará la versión 2.0 de su herramienta de programación de IA TRAE; Mistral presenta de manera importante el modelo de audio Voxtral; Moonshot responde sobre la lentitud de la API Kimi K2

1. ByteDance TRAE2.0 añade voz para eficiencia. 2. Mistral lanza Voxtral, modelo de audio multilingüe. 3. Optimización de Kimi K2API. 4. Kunlun lanza AgentOrchestra. 5. Thinking Machines Lab recibe $2B. 6. Kimi-2 supera a GPT-4.1. 7. TRAE ofrece Kimi-K2 y Grok-4. 8. ByteDance abre POLARIS. 9. Ima lanza versión web.....

Nueva tendencia en la socialización vecinal. Nextdoor lanza funciones de recomendación por inteligencia artificial y alertas en tiempo real que transforman la experiencia de comunicación local

La aplicación de socialización vecinal Nextdoor lanzó una nueva versión, con tres nuevas funciones: agregación de noticias locales (en colaboración con 3500 medios locales), alertas de seguridad en tiempo real (alertas sobre clima, tráfico y desastres) y Faves recomendados por IA (sugerencias personalizadas de servicios locales generadas a partir de 15 años de datos vecinales). La plataforma busca resolver el problema de información errónea anterior, mejorando la calidad y puntualidad del contenido para revitalizar la participación de los usuarios. El CEO Tolia destacó que su ventaja principal radica en el boca a boca digital en las comunidades, un valor único que otros plataformas no pueden replicar.

Google Discover introduce una función de resumen de inteligencia artificial, ¡la audiencia de los sitios web de noticias podría enfrentar un nuevo desafío!

Google lanzó resúmenes con IA en búsquedas, generando preocupación en editores por caída de tráfico. Funcionalidad muestra extractos de noticias con fuentes, aumentando búsquedas sin clicks del 56% al 69%. Google promueve herramientas como Offerwall para compensar, pero impacto persiste. Medios como WSJ exploran IA con opiniones divididas.....

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Google presenta Whisk, una innovadora herramienta de IA para imágenes: sube varias imágenes y fusiona sujetos, escenas y estilos

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

¡NeuralOS, el sistema operativo de inteligencia artificial, aparece de repente! Interfaz perfectamente simulada de Windows, nueva era en la interacción hombre-máquina

Diario de IA: ByteDance lanzará la versión 2.0 de su herramienta de programación de IA TRAE; Mistral presenta de manera importante el modelo de audio Voxtral; Moonshot responde sobre la lentitud de la API Kimi K2

Kimi-2 ya está en LiveBench AI: El nuevo rey de la inteligencia artificial de código abierto supera a GPT-4.1

La nueva empresa de Mira Murati, ex CTO de OpenAI, completa una financiación de 2000 millones de dólares para impulsar el desarrollo de inteligencia artificial multimodal

El herramienta de programación de inteligencia artificial de ByteDance TRAE2.0 se lanzará pronto y agregará funciones de interacción por voz

La revolución de la inteligencia artificial en el sector financiero: Anthropic lanza una herramienta de análisis exclusiva para apoyar las decisiones de inversión

Nueva tendencia en la socialización vecinal. Nextdoor lanza funciones de recomendación por inteligencia artificial y alertas en tiempo real que transforman la experiencia de comunicación local

Mistral presenta con fuerza a Voxtral: ¡La nueva era de los modelos de audio de inteligencia artificial de código abierto!

Perplexity se asocia con SheerID: el motor de búsqueda de inteligencia artificial está disponible gratis para 264 millones de estudiantes en todo el mundo, apuntando al mercado educativo

Google Discover introduce una función de resumen de inteligencia artificial, ¡la audiencia de los sitios web de noticias podría enfrentar un nuevo desafío!