L'équipe d'IA du groupe Alibaba International de commerce numérique dévoile Ovis2.5 : une nouvelle avancée dans les modèles de raisonnement visuel économiques

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Aug 18, 2025

1

L'équipe d'IA du groupe Alibaba International Digital Trade (AIDC) (AIDC-AI) a récemment lancé un nouveau modèle de langage à grande échelle multimodal, Ovis2.5, disponible en deux versions avec 9 milliards et 2 milliards de paramètres. Ce modèle est positionné comme une solution économique pour le raisonnement visuel, offrant des performances exceptionnelles dans sa taille, et établit un nouveau standard pour les applications d'IA multimodales.

Les caractéristiques principales d'Ovis2.5

1. **Perception native de la résolution** : Ovis2.5 utilise un encodeur visuel NaViT, qui préserve les détails fins et la structure globale de l'image sans perte de qualité, garantissant ainsi une capacité de traitement visuel de haute qualité.

2. **Capacité de raisonnement approfondi** : Le modèle propose un mode "réflexion" optionnel, qui peut reprendre certaines caractéristiques techniques du Qwen3 d'Alibaba. Outre le raisonnement par chaîne de pensée linéaire (CoT), Ovis2.5 est capable de s'auto-vérifier et de se corriger, et prend en charge un budget de réflexion configurable, améliorant ainsi la précision de la résolution des problèmes.

3. **Avantages en matière de reconnaissance optique de caractères (OCR) et d'analyse de graphiques** : Sur les versions de 9 milliards et 2 milliards de paramètres, Ovis2.5 atteint un niveau avancé dans l'analyse de graphiques complexes, la compréhension de documents (y compris les tableaux et formulaires) et la reconnaissance optique de caractères (OCR), offrant un soutien puissant pour les scénarios d'application réels.

4. **Couverture large des tâches** : Ce modèle se distingue dans le raisonnement image, la compréhension vidéo et les tests de base de localisation visuelle, démontrant ainsi une forte capacité multimodale générale.

Le lancement d'Ovis2.5 reflète l'innovation continue d'AIDC-AI dans le domaine de la technologie IA multimodale. En réalisant des performances élevées dans une taille de modèle compacte, Ovis2.5 offre aux développeurs et entreprises une solution efficace et facile à déployer, particulièrement adaptée aux scénarios nécessitant une combinaison de raisonnement visuel et textuel. Le modèle est désormais open source sur les plateformes GitHub et Hugging Face, favorisant davantage la collaboration et l'innovation au sein de la communauté mondiale de l'IA.

Ce lancement marque un autre progrès important réalisé par AIDC-AI sur la base du modèle Ovis, apportant une nouvelle vitalité au développement des modèles de langage à grande échelle multimodaux.

Ovis2.5 équipe d'IA modèle linguistique à grande échelle multimodale AIDC-AI

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

L'équipe d'IA du groupe Alibaba International de commerce numérique dévoile Ovis2.5 : une nouvelle avancée dans les modèles de raisonnement visuel économiques

AIbase基地

Cet article provient d'AIbase Daily