腾讯混元开源10亿参数OCR模型HunyuanOCR,基于多模态架构,在多项任务中实现领先性能,支持多场景文字识别应用。
腾讯发布1B参数开源模型HunyuanOCR,基于混元多模态架构,在OCR应用中达到SOTA水平。模型采用端到端设计,一次推理即可获得最优结果,包含原生分辨率视频编码器、自适应视觉适配和轻量化混元语言三大核心组件。
腾讯混元开源10亿参数OCR模型HunyuanOCR,采用端到端设计,集成视频编码器、视觉适配器和轻量化语言模型,在多项榜单获SOTA成绩,以体积小、部署便捷为核心优势,提供高效OCR解决方案。
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。