騰訊混元開源10億參數OCR模型HunyuanOCR,基於多模態架構,在多項任務中實現領先性能,支持多場景文字識別應用。
騰訊發佈1B參數開源模型HunyuanOCR,基於混元多模態架構,在OCR應用中達到SOTA水平。模型採用端到端設計,一次推理即可獲得最優結果,包含原生分辨率視頻編碼器、自適應視覺適配和輕量化混元語言三大核心組件。
騰訊混元開源10億參數OCR模型HunyuanOCR,採用端到端設計,集成視頻編碼器、視覺適配器和輕量化語言模型,在多項榜單獲SOTA成績,以體積小、部署便捷爲核心優勢,提供高效OCR解決方案。
tencent
混元OCR是由混元原生多模態架構驅動的端到端OCR專家VLM模型,僅用10億參數的輕量級設計,在多個行業基準測試中取得最先進成績。該模型擅長處理複雜的多語言文檔解析,在文本定位、開放域信息提取、視頻字幕提取和圖片翻譯等實際應用場景中表現出色。