NVIDIA lanzó oficialmente el 3 de junio de 2025 el Llama Nemotron Nano VL, un modelo visual-lenguaje compacto optimizado para el procesamiento inteligente de documentos. Este modelo encabezó el ranking en la evaluación del benchmark OCRBench v2, destacándose por su capacidad excepcional para manejar documentos complejos, gráficos y cuadros de video. Con un rendimiento de inferencia eficiente y una forma flexible de implementación, Llama Nemotron Nano VL ofrece soluciones precisas de procesamiento de documentos desde la nube hasta dispositivos de borde para las empresas.
Llama Nemotron Nano VL: La herramienta compacta y eficiente para procesar documentos
Llama Nemotron Nano VL está basado en el arquitectura Llama3.1 de Meta y combina un codificador visual ligero CRadioV2-H. A pesar de tener solo 8 mil millones de parámetros (8B), este modelo muestra un excelente desempeño en tareas de comprensión de documentos. Soporta múltiples modalidades de entrada, cubriendo escenarios complejos como documentos multilínea, tablas escaneadas, informes financieros y diagramas técnicos, con una longitud de contexto de hasta 16K tokens, lo que lo hace ideal para el procesamiento de documentos largos y tareas de razonamiento multi-salto.
Su principal ventaja radica en el rendimiento eficiente de inferencia, utilizando la tecnología de cuantificación AWQ4bit, el modelo puede ejecutarse en una sola tarjeta NVIDIA RTX GPU o en dispositivos边缘 Jetson Orin, reduciendo significativamente los costos de implementación. Esto lo convierte en una elección ideal para empresas que necesitan ejecutar agentes de IA en entornos con recursos limitados.
Campeón en OCRBench v2, liderando la capacidad de análisis de documentos
Llama Nemotron Nano VL obtuvo la puntuación más alta en la evaluación OCRBench v2, superando a otros modelos visuales-lenguaje compactos. OCRBench v2 incluye más de 10,000 pares de preguntas-respuestas verificados manualmente, cubriendo documentos de áreas como finanzas, medicina, derecho y publicaciones científicas, incluidas pruebas de reconocimiento óptico de caracteres (OCR), análisis de tablas y razonamiento de gráficos.
Este modelo se destaca en la extracción de datos estructurados (como tablas y pares clave-valor) y en responder preguntas basadas en la disposición, mostrando una robustez particularmente fuerte en documentos no en inglés y escaneos de baja calidad. Esta alta precisión y capacidad de generalización le otorgan amplias posibilidades de uso en escenarios como preguntas automatizadas sobre documentos, OCR inteligente y extracción de información.
Implementación flexible, habilitando aplicaciones empresariales en múltiples escenarios
Llama Nemotron Nano VL admite una implementación flexible desde centros de datos hasta dispositivos de borde, compatibles con el marco TensorRT-LLM de NVIDIA, asegurando un funcionamiento eficiente en sistemas acelerados por GPU. Las empresas pueden personalizarlo a través de los microservicios de NVIDIA NeMo para adaptarlo a necesidades específicas, como análisis financiero, procesamiento de registros médicos o revisión de documentos legales.
Ahora bien, este modelo también soporta inferencia de imágenes individuales y video, aplicable a tareas como resumen de imágenes, análisis texto-imagen e interacción de preguntas-respuestas. Su carácter open-source (bajo la licencia NVIDIA Open Model License y la licencia de comunidad Llama3.1) permite usos comerciales, proporcionando a los desarrolladores libertad para construir agentes de IA personalizados.
Estrategia de NVIDIA en el campo de los agentes inteligentes
Llama Nemotron Nano VL es una parte importante de la familia de modelos Nemotron de NVIDIA, reflejando su compromiso continuo en el campo de los agentes inteligentes (Agentic AI). Al combinar la arquitectura Llama y las tecnologías optimizadas de NVIDIA, este modelo no solo mejora la eficiencia de la inferencia, sino que también establece un nuevo estándar en el procesamiento de documentos.
NVIDIA planea expandir aún más las funciones del modelo mediante el marco NeMo y los servicios micro NIM, apoyando más tareas multimodales, como búsqueda de video y generación de video físico-consciente. Esto indica que NVIDIA está trabajando en la construcción de un ecosistema integral desde el borde hasta la nube, brindando un fuerte apoyo a la transformación digital de las empresas.
El lanzamiento de Llama Nemotron Nano VL marca un nuevo avance en la aplicación empresarial de modelos visuales-lenguaje compactos. Su eficiencia y precisión abren nuevas posibilidades para el procesamiento automatizado de documentos, gestión del conocimiento y colaboración inteligente. AIbase continuará monitoreando los últimos desarrollos de NVIDIA en el campo de la IA, proporcionando a los lectores perspectivas técnicas de vanguardia.
Acceso: https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1