Apple FastVLM está disponible: experiencia de 5 minutos con inteligencia artificial visual a 85 veces la velocidad

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Sep 2, 2025

Noticias de AIbase - El modelo de lenguaje visual FastVLM lanzado por Apple hace varios meses ahora está disponible para el público, los usuarios pueden experimentar directamente esta tecnología revolucionaria en Mac con chips Apple Silicon.

FastVLM es un modelo de lenguaje visual capaz de proporcionar procesamiento de imágenes de alta resolución casi inmediato, construido sobre el marco ML open source de Apple, MLX, diseñado específicamente para Apple Silicon. En comparación con modelos similares, FastVLM mejora en 85 veces la velocidad del procesamiento de subtítulos de video, y su tamaño se reduce en más de tres veces.

Apple, evento de lanzamiento de Apple, iPhone, Apple Watch

Disponible en múltiples plataformas, experiencia directa en el navegador

Después de completar el proyecto, FastVLM no solo se ha hecho público en GitHub, sino que también ha llegado a la plataforma Hugging Face. Los usuarios ahora pueden cargar la versión ligera FastVLM-0.5B directamente en el navegador, sin necesidad de un proceso de instalación complejo para experimentar sus poderosas funciones.

Según las pruebas realizadas, en un MacBook Pro M2Pro de 16 GB, la carga del modelo toma unos minutos. Una vez cargado, el modelo puede describir en tiempo real y con precisión la apariencia del usuario, el entorno de fondo, las expresiones faciales y diversos objetos en el campo de visión.

Funciones interactivas inteligentes

Este modelo admite varios comandos preestablecidos, los usuarios pueden solicitar al modelo:

Describir escenas visuales en una oración
Identificar colores de ropa
Leer contenido de texto visible
Analizar emociones y acciones
Identificar objetos en manos

Los usuarios avanzados también pueden combinar aplicaciones de cámara virtual para observar cómo el modelo describe en tiempo real contenidos de video complejos y multiescena.

Ventaja de privacidad con ejecución local

Una de las características destacadas de FastVLM es que funciona completamente en el navegador local, los datos nunca salen del dispositivo, incluso soporta el uso sin conexión. Este diseño ofrece una solución ideal para dispositivos wearables y tecnologías asistivas, las características de portabilidad y baja latencia sentaron las bases para una gama más amplia de escenarios de aplicación.

Actualmente, la demostración en el navegador utiliza una versión ligera con 500 millones de parámetros. La serie FastVLM también incluye variantes más potentes con 1.500 millones y 7.000 millones de parámetros, que pueden ofrecer un rendimiento aún mejor, aunque estos modelos grandes podrían no poder ejecutarse directamente en el navegador.

¡Google lanza una gran sorpresa! Gemini CLI conecta de un solo clic a MCP, los desarrolladores se libran del infierno de configuración

La herramienta de código abierto de Google, Gemini CLI, se integra profundamente con el marco FastMCP, permitiendo la instalación y configuración del servidor MCP con un solo comando, lo que reduce significativamente el complejo proceso de desarrollo tradicional que requiere configurar manualmente el entorno, manejar dependencias y depurar canales de transmisión.

El lanzamiento interno de Gemini 3.0 Pro de Google se filtra: un gran avance en habilidades de programación, se lanzará la próxima semana

Gemini 3.0 Pro de Google está a punto de ser lanzado; la versión de prueba interna muestra que sus habilidades en programación son excelentes. Este modelo incluye dos versiones: Pro y Flash. Los resultados de las pruebas realizadas por desarrolladores han llamado la atención, siguiendo a OpenAI Sora 2, lo que agrega más calor a la competencia en inteligencia artificial.

La nueva aplicación de OpenAI Sora alcanza el primer lugar en la tienda de aplicaciones de Apple en cuatro días

La aplicación de generación de videos nueva de OpenAI Sora se lanzó solo cuatro días y alcanzó el primer lugar en la lista gratuita de la tienda de aplicaciones de Apple, superando a Google Gemini y su propio ChatGPT. La aplicación permite a los usuarios generar, editar y compartir videos cortos. Actualmente está disponible solo para usuarios de iOS en Estados Unidos y Canadá mediante un sistema de invitación. La reacción del mercado muestra una fuerte demanda de herramientas de video de inteligencia artificial.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Apple FastVLM está disponible: experiencia de 5 minutos con inteligencia artificial visual a 85 veces la velocidad

AIbase基地

Disponible en múltiples plataformas, experiencia directa en el navegador

Funciones interactivas inteligentes

Ventaja de privacidad con ejecución local

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

¡Google lanza una gran sorpresa! Gemini CLI conecta de un solo clic a MCP, los desarrolladores se libran del infierno de configuración

La valoración de OpenAI alcanza los 500 mil millones de dólares ¡Los empleados venden 6.600 millones de dólares! El récord de una empresa privada

¡La herramienta de diseño de IA invertida por Sequoia se derrumbó! Adquirida por Perplexity y cerrada 90 días después

¿Cómo los desarrolladores pueden utilizar los modelos de IA locales de Apple en iOS 26?

Tres rondas de financiación al año, alcanzando los 5.000 millones de dólares ¡Supabase es el más destacado en el círculo de programación!

El lanzamiento interno de Gemini 3.0 Pro de Google se filtra: un gran avance en habilidades de programación, se lanzará la próxima semana

Google anuncia que Gemini en Chrome está disponible en todo el mundo para los usuarios de Workspace

La nueva aplicación de OpenAI Sora alcanza el primer lugar en la tienda de aplicaciones de Apple en cuatro días

¡Los personajes de Mickey Mouse desaparecen! ¡La carta de abogados de Disney golpea a Character.AI y se retiran todos los personajes de la franquicia Disney

¡El navegador de complementos gratuitos ha llegado! Perplexity baja a todos los usuarios el Comet, que cuesta 200 dólares al mes. El asistente de IA que te ayuda a navegar por la web, escribir correos electrónicos, comprar entradas y comparar precios ahora está disponible

GEO Services