हाल ही में, DeepSeek ने एक नया OCR दस्तावेज़ समझ मॉडल - DeepSeek-OCR जारी किया। इस मॉडल ने छवि दस्तावेज़ विश्लेषण में अग्रणी प्रदर्शन प्राप्त किया है और एक बहुत ही खुलकर और नवाचार के अवधारणा को शामिल किया है: "दृश्य स्मृति संपीड़न" तंत्र, जो बड़े भाषा मॉडल (LLM) के लिए अत्यधिक लंबे संदर्भ के साथ काम करते समय गणना संसाधनों के आकाशगंगा बढ़ने की समस्या के विपरीत रूप से हल करने के लिए एक क्रांतिकारी तरीका है।

मुख्य अभियान: AI के "चित्र पढ़ने" को दक्ष संपीड़न में लाना
DeepSeek-OCR के मुख्य नवाचार इंसानी दृश्य स्मृति तंत्र के अनुकरण पर आधारित है, जिसमें लंबे पाठ सूचना को छवि अंतरिक्ष में संपीड़ित करके, भाषा मॉडल के "टोकन" उपभोग को उल्लेखनीय रूप से कम कर देता है।
कार्य तंत्र संक्षिप्त विवरण:
इस तंत्र द्वारा "पाठ को छवि में बनाने" के माध्यम से काम किया जाता है: पहले, लंबा पाठ एक छवि में संपीड़ित किया जाता है; फिर, दृश्य मॉडल इस छवि को कम से कम संख्या में "दृश्य टोकन" (Visual Tokens) में संपीड़ित करता है; अंत में, भाषा मॉडल इन दृश्य टोकन से डीकोड करके पाठ को बराबर कर देता है।
अर्थात, यह तकनीक मॉडल को **"छवि देखकर पढ़ने"** की अनुमति देती है, जबकि पारंपरिक "एक-एक शब्द पढ़ने" के बजाय, जो जानकारी प्रसंस्करण की दक्षता को बहुत बढ़ा देता है।

अद्भुत क्षमता: 10 गुना संपीड़न और भविष्य की संभावना
DeepSeek ने अद्भुत संपीड़न प्रभाव दिखाया है: एक 1000 शब्द के लेख, एक छवि में संपीड़ित करने के बाद, केवल 100 दृश्य टोकन (10 गुना संपीड़न) के साथ प्रतिनिधि किया गया है, जबकि मॉडल डी-संपीड़ित करते समय मूल पाठ के 97% को बराबर कर सकता है।
यह नवाचार परिणाम न केवल "दृश्य स्मृति संपीड़न" की प्रभावशीलता को दर्शाता है, बल्कि भविष्य के AI विकास में इसकी बड़ी संभावनाओं को भी बताता है:
LLM के स्मृति सीमा के समाधान: बड़े मॉडल के "स्मृति सीमा" के बारे में एक महत्वपूर्ण तकनीक बन सकता है, जिससे AI अधिक कम गणना के साथ **"सैकड़ों पृष्ठ"** के अत्यधिक लंबे संदर्भ को संसाधित कर सकता है।
भविष्य के AI स्मृति संग्रहण: भविष्य में AI पुराने स्मृति को छवि के रूप में संग्रहीत कर सकता है, जिससे जानकारी के प्रभावी आर्किविंग का अवसर मिलता है।
मनुष्य के "भूलने के वक्र" के समान: उच्च बनावट और कम घनत्व की स्मृति
DeepSeek इस दृश्य संपीड़न तंत्र को मनुष्य के "भूलने के वक्र" के समान बताता है, जो मनुष्य की प्राकृतिक स्मृति और भूलने की प्रक्रिया के अनुकरण के लिए चतुराई से बनाया गया है:
उच्च बनावट वाली स्मृति: हाल के संदर्भ को उच्च विवरण छवि के रूप में बरकरार रखा जाता है, जो उच्च बनावट जानकारी है।
कम घनत्व वाली स्मृति: पुराने संदर्भ को अस्पष्ट छवि में संपीड़ित कर दिया जाता है, जो कम जानकारी घनत्व है।
इस परतदार संपीड़न तंत्र, गणना संसाधनों के बचाव के साथ-साथ AI के स्मृति प्रबंधन प्रक्रिया को अधिक प्राकृतिक बनाता है।