Noticias de AIbase - El modelo de lenguaje visual FastVLM lanzado por Apple hace varios meses ahora está disponible para el público, los usuarios pueden experimentar directamente esta tecnología revolucionaria en Mac con chips Apple Silicon.

FastVLM es un modelo de lenguaje visual capaz de proporcionar procesamiento de imágenes de alta resolución casi inmediato, construido sobre el marco ML open source de Apple, MLX, diseñado específicamente para Apple Silicon. En comparación con modelos similares, FastVLM mejora en 85 veces la velocidad del procesamiento de subtítulos de video, y su tamaño se reduce en más de tres veces.

Apple, evento de lanzamiento de Apple, iPhone, Apple Watch

Disponible en múltiples plataformas, experiencia directa en el navegador

Después de completar el proyecto, FastVLM no solo se ha hecho público en GitHub, sino que también ha llegado a la plataforma Hugging Face. Los usuarios ahora pueden cargar la versión ligera FastVLM-0.5B directamente en el navegador, sin necesidad de un proceso de instalación complejo para experimentar sus poderosas funciones.

Según las pruebas realizadas, en un MacBook Pro M2Pro de 16 GB, la carga del modelo toma unos minutos. Una vez cargado, el modelo puede describir en tiempo real y con precisión la apariencia del usuario, el entorno de fondo, las expresiones faciales y diversos objetos en el campo de visión.

Funciones interactivas inteligentes

Este modelo admite varios comandos preestablecidos, los usuarios pueden solicitar al modelo:

  • Describir escenas visuales en una oración
  • Identificar colores de ropa
  • Leer contenido de texto visible
  • Analizar emociones y acciones
  • Identificar objetos en manos

Los usuarios avanzados también pueden combinar aplicaciones de cámara virtual para observar cómo el modelo describe en tiempo real contenidos de video complejos y multiescena.

Ventaja de privacidad con ejecución local

Una de las características destacadas de FastVLM es que funciona completamente en el navegador local, los datos nunca salen del dispositivo, incluso soporta el uso sin conexión. Este diseño ofrece una solución ideal para dispositivos wearables y tecnologías asistivas, las características de portabilidad y baja latencia sentaron las bases para una gama más amplia de escenarios de aplicación.

Actualmente, la demostración en el navegador utiliza una versión ligera con 500 millones de parámetros. La serie FastVLM también incluye variantes más potentes con 1.500 millones y 7.000 millones de parámetros, que pueden ofrecer un rendimiento aún mejor, aunque estos modelos grandes podrían no poder ejecutarse directamente en el navegador.