DeepSeek lance un nouveau modèle OCR de 3B : une rupture révolutionnaire dans l'analyse des documents

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Oct 21, 2025

Une entreprise de technologie de l'intelligence artificielle, DeepSeek, a récemment lancé un nouveau modèle de reconnaissance optique de caractères (OCR) appelé « DeepSeek-OCR ». Ce modèle est un modèle vision-langage (VLM) à bout à bout conçu pour analyser efficacement les documents en compressant le texte long en un petit ensemble de jetons visuels, puis en les décodant à l'aide d'un modèle de langage.

L'équipe de recherche a déclaré que le modèle a atteint une précision de décodage de 97 % sur le benchmark Fox. Même lorsque le ratio des jetons de texte par rapport aux jetons visuels était de 10 fois, la précision restait bonne, et elle montrait encore des caractéristiques utiles à 20 fois de compression. En outre, DeepSeek-OCR s'est bien comporté sur le benchmark OmniDocBench, utilisant bien moins de jetons visuels que les modèles traditionnels.

L'architecture de DeepSeek-OCR se compose de deux composants principaux : un encodeur visuel pour les entrées à haute résolution appelé DeepEncoder et un décodeur de mélange d'experts nommé DeepSeek3B-MoE-A570M. L'encodeur utilise un mécanisme d'attention de fenêtre de perception locale basé sur SAM et un algorithme de compression convolutive, qui contrôle efficacement la mémoire d'activation à haute résolution et réduit le nombre de jetons de sortie. Le décodeur est un modèle de 3 milliards de paramètres, avec environ 570 millions de paramètres actifs par jeton.

Lors de l'utilisation de différents modes, DeepEncoder fournit plusieurs options de résolution, notamment les modes Tiny, Small, Base et Large, chacun correspondant à un nombre différent de jetons visuels et de résolutions. Il existe également des modes dynamiques appelés Gundam et Gundam-Master, qui peuvent ajuster flexiblement le budget de jetons en fonction de la complexité de la page.

Pendant l'entraînement, l'équipe DeepSeek a utilisé un processus d'entraînement par phases, d'abord entraînant DeepEncoder pour la prédiction du prochain jeton, puis effectuant un entraînement complet du système sur plusieurs nœuds. Enfin, il peut générer plus de 200 000 pages de documents par jour. Pour les applications pratiques, l'équipe recommande de commencer par le mode Small, et si la page contient des petits caractères denses ou un grand nombre de jetons, le mode Gundam peut être sélectionné.

Le lancement de DeepSeek-OCR marque une avancée importante dans le domaine de l'intelligence artificielle documentaire. Son efficacité et sa flexibilité en font un outil adapté au traitement de divers types de documents.

Mémoire : https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

Huggingface : https://huggingface.co/deepseek-ai/DeepSeek-OCR

Points clés :
🌟 DeepSeek-OCR est un nouveau modèle vision-langage de 3 milliards de paramètres, doté de capacités efficaces de OCR et d'analyse de documents.
📊 Le modèle a atteint une précision de décodage de 97 % sur le benchmark Fox et maintient de bonnes performances même avec une compression importante.
🔧 DeepEncoder propose plusieurs modes et choix de résolution pour s'adapter à différentes complexités et besoins de documents.

Le modèle PaddleOCR-VL de Baidu domine le classement mondial OCR et reste en tête du classement des tendances de Huggingface pendant cinq jours consécutifs

Le 16 octobre, Baidu PaddlePaddle a lancé le modèle de vision et langage PaddleOCR-VL, qui a obtenu un score de 92,56 sur l'évaluation officielle OmniDocBench V1.5 avec 0,9 milliard de paramètres, surpassant les modèles principaux tels que DeepSeek-OCR pour se classer en tête du classement mondial des OCR. Jusqu'au 21 octobre, les trois premiers modèles du classement des tendances de Huggingface sont tous des modèles OCR, et Baidu PaddlePaddle se trouve en première position.

Les modèles d'IA s'affrontent sur une plateforme d'échange de cryptomonnaies : DeepSeek mène pour l'instant, le montant total a augmenté de 130%

Des modèles d'IA effectuent des tests pratiques de trading de cryptomonnaies sur la plateforme Hyperliquid. DeepSeek, Grok, Claude, etc., ont reçu chacun un financement initial de 10 000 dollars et prennent leurs décisions de trading de manière autonome selon les mêmes instructions. Cette compétition équitable vise à tester la capacité des IA à s'appliquer au marché financier réel.

La création musicale par l'IA devient une activité secondaire pour les programmeurs : un single dépassant 2 millions de lectures, des revenus liés aux droits d'auteur de plusieurs dizaines de milliers de yuans

En 2025, les outils de création musicale par l'IA sont devenus courants, modifiant la structure de l'industrie. En janvier, un joueur de Genshin Impact a utilisé Suno pour créer une chanson qui a obtenu 6,4 millions de vues, ce qui a lancé un débat sur les capacités de création par l'IA. Les programmeurs sont devenus un groupe actif, et en mars, Yapie a produit une chanson thématique en quelques heures en utilisant plusieurs outils.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

DeepSeek lance un nouveau modèle OCR de 3B : une rupture révolutionnaire dans l'analyse des documents

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Le bureau de droit fiscal Steuerrecht.com améliore son efficacité grâce à ChatGPT Business

Le modèle DeepSeek remporte le concours de trading en bourse de Hong Kong et des États-Unis avec un rendement annuel de 10,61 %, bien supérieur à celui de GPT et au benchmark Nasdaq

Baidu s'associe à l'Université sportive de Shanghai pour présenter le modèle sportif de l'Université sportive 2.0

SoftBank investit 22,5 milliards de dollars pour renforcer OpenAI, le développement des musiques AI et les projets de financement avancé accélèrent

Le modèle PaddleOCR-VL de Baidu domine le classement mondial OCR et reste en tête du classement des tendances de Huggingface pendant cinq jours consécutifs

Concours de trading avec des modèles d'IA ! DeepSeek obtient un rendement supérieur à 14 %, Gemini 2.5 Pro subit une perte de 40 %

Commentaire d'Andrej Karpathy sur le papier DeepSeek-OCR : l'entrée image pourrait devenir une nouvelle voie pour les modèles linguistiques à grande échelle

Remettre en question le traitement des textes longs par les LLM ! DeepSeek-OCR présente une mécanique de compression de mémoire visuelle ouvrant la voie à la résolution des limites de mémoire des IA

Les modèles d'IA s'affrontent sur une plateforme d'échange de cryptomonnaies : DeepSeek mène pour l'instant, le montant total a augmenté de 130%

La création musicale par l'IA devient une activité secondaire pour les programmeurs : un single dépassant 2 millions de lectures, des revenus liés aux droits d'auteur de plusieurs dizaines de milliers de yuans

Recommandations d'actualités IA connexes

Le bureau de droit fiscal Steuerrecht.com améliore son efficacité grâce à ChatGPT Business

Le modèle DeepSeek remporte le concours de trading en bourse de Hong Kong et des États-Unis avec un rendement annuel de 10,61 %, bien supérieur à celui de GPT et au benchmark Nasdaq

Baidu s'associe à l'Université sportive de Shanghai pour présenter le modèle sportif de l'Université sportive 2.0

SoftBank investit 22,5 milliards de dollars pour renforcer OpenAI, le développement des musiques AI et les projets de financement avancé accélèrent

Le modèle PaddleOCR-VL de Baidu domine le classement mondial OCR et reste en tête du classement des tendances de Huggingface pendant cinq jours consécutifs

Concours de trading avec des modèles d'IA ! DeepSeek obtient un rendement supérieur à 14 %, Gemini 2.5 Pro subit une perte de 40 %

Commentaire d'Andrej Karpathy sur le papier DeepSeek-OCR : l'entrée image pourrait devenir une nouvelle voie pour les modèles linguistiques à grande échelle

Remettre en question le traitement des textes longs par les LLM ! DeepSeek-OCR présente une mécanique de compression de mémoire visuelle ouvrant la voie à la résolution des limites de mémoire des IA

Les modèles d'IA s'affrontent sur une plateforme d'échange de cryptomonnaies : DeepSeek mène pour l'instant, le montant total a augmenté de 130%

La création musicale par l'IA devient une activité secondaire pour les programmeurs : un single dépassant 2 millions de lectures, des revenus liés aux droits d'auteur de plusieurs dizaines de milliers de yuans

GEO Services