Recientemente, Google ha vuelto a causar conmoción en el campo de la inteligencia artificial al anunciar el lanzamiento de tres nuevas variantes del modelo Gemma: MedGemma, SignGemma y DolphinGemma. Estos modelos se han diseñado específicamente para aplicaciones en áreas médicas, traducción de lenguaje de signos y estudio del lenguaje de los delfines, demostrando un gran potencial en la aplicación transversal de la tecnología de inteligencia artificial. A continuación, AIbase interpreta detalladamente las características y perspectivas de aplicación de estos tres modelos.

MedGemma: Revolucionar la IA médica y mejorar la atención médica precisa

MedGemma es un modelo de IA diseñado específicamente para el sector médico, disponible en dos versiones para satisfacer diferentes necesidades. El modelo multimodal de 4 mil millones de parámetros puede manejar tareas combinadas de imágenes y texto, después de ser preentrenado con datos médicos como radiografías torácicas, imágenes dermatológicas, imágenes oculares y láminas patológicas. Esto le permite mostrar una capacidad excepcional en tareas como el diagnóstico de imágenes médicas, generación de informes y clasificación de pacientes. El modelo de razonamiento textual de 27 mil millones de parámetros se centra en el procesamiento de texto puro, utilizando su mayor capacidad de razonamiento para escenarios que requieren un análisis profundo, como el análisis de historias clínicas y las preguntas y respuestas médicas. Ambos modelos pueden funcionar eficientemente en una sola GPU, proporcionando a los desarrolladores opciones flexibles para el desarrollo.

image.png

Google ha señalado que MedGemma se lanzará a través del programa Health AI Developer Foundations, con el objetivo de acelerar el desarrollo de aplicaciones médicas. En el futuro, los desarrolladores podrán utilizar estos modelos para construir herramientas médicas más inteligentes, inyectando nueva energía en la medicina personalizada.

SignGemma: Romper barreras de comunicación y avanzar en la traducción de lenguaje de signos

SignGemma es un modelo abierto diseñado específicamente para la traducción de lenguaje de signos, con un enfoque en la traducción del lenguaje de signos americano (ASL) al inglés. Este modelo puede convertir acciones de lenguaje de signos en texto oral, proporcionando nuevas formas de interacción para personas sordas y los desarrolladores. Se dice que SignGemma tiene un rendimiento excelente en la comprensión del lenguaje de signos, siendo considerado "hasta ahora el modelo de comprensión de lenguaje de signos más poderoso".

Google planea expandir en el futuro el soporte multilingüe de SignGemma, ayudando a la comunidad global de personas sordas a lograr una comunicación sin barreras. Los desarrolladores pueden basarse en este modelo para crear aplicaciones innovadoras, como herramientas de traducción de lenguaje de signos en tiempo real o plataformas educativas, brindando más comodidad a las personas sordas.

DolphinGemma: Descifrar el lenguaje de los delfines y explorar la comunicación entre especies

DolphinGemma es un modelo innovador desarrollado por Google en colaboración con el Wild Dolphin Project (WDP) y el Instituto de Tecnología de Georgia, diseñado para analizar y generar sonidos complejos de delfines. Basándose en 40 años de datos acumulados sobre los sonidos de delfines del océano Atlántico norte, este modelo puede identificar patrones de sonido específicos como silbidos de firma y estallidos pulsantes, y predecir secuencias de sonido, similar al mecanismo predictivo de los modelos de lenguaje humano.

DolphinGemma ya está integrado en el sistema CHAT (Cetacean Hearing Augmentation Telemetry) del WDP, permitiendo un análisis en tiempo real de los sonidos de los delfines a través de una interfaz de teléfono móvil. Los investigadores incluso han intentado interactuar con los delfines sintetizando silbidos para pedirles que interactúen con objetos específicos. Google planea abrir DolphinGemma al público en verano de 2025, permitiendo a más investigadores aplicarlo a otras especies de cetáceos y acelerar el proceso de investigación sobre la comunicación entre especies.

Código abierto y futuro: La IA impulsa la innovación transversal

Google enfatiza que todos estos tres modelos se basan en la arquitectura Gemma, combinando eficiencia y adaptabilidad. MedGemma ya está disponible para uso a través del programa Health AI Developer Foundations, y tanto SignGemma como DolphinGemma también estarán disponibles para código abierto en el futuro. Sin embargo, los términos de licencia no estándar de la serie Gemma han generado ciertas preocupaciones entre algunos desarrolladores sobre su uso comercial. En el futuro, Google probablemente necesitará optimizar sus políticas de licencia para aumentar el potencial comercial de estos modelos.

Ganancias técnicas y valor social

Desde el diagnóstico médico hasta la traducción de lenguaje de signos, y desde el estudio del lenguaje de los delfines, las tres variantes de modelos Gemma de Google demuestran el enorme potencial de la tecnología de inteligencia artificial para resolver problemas prácticos y explorar áreas desconocidas. MedGemma ha traído herramientas eficientes al sector médico, SignGemma ha promovido la comunicación accesible, mientras que DolphinGemma ha abierto una nueva ventana para el diálogo entre humanos y la naturaleza. AIbase cree que estas innovaciones no solo reflejan la visión tecnológica, sino que también destacan el papel crucial de la IA en los valores sociales y la investigación científica.