腾讯混元开源10亿参数OCR模型HunyuanOCR,基于多模态架构,在多项任务中实现领先性能,支持多场景文字识别应用。
腾讯混元开源10亿参数OCR模型HunyuanOCR,采用端到端设计,集成视频编码器、视觉适配器和轻量化语言模型,在多项榜单获SOTA成绩,以体积小、部署便捷为核心优势,提供高效OCR解决方案。
苹果拟每年支付约10亿美元,与谷歌合作引入定制版Gemini AI模型升级Siri。此举标志苹果AI战略转变,将借助谷歌技术提升语音助手能力,直至自有AI技术成熟。谷歌模型参数达1.2万亿,远超苹果现有水平。
苹果与谷歌达成合作,每年支付约10亿美元获得Gemini大模型使用权,计划2026年春季随iOS26.4推出升级版Siri。此举旨在弥补苹果自研大模型不足,重夺智能语音主导权。新Siri将基于1.2万亿参数的Gemini2.5Pro,性能远超当前版本。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Google
$0.7
$2.8
1k
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
-
Moonshot
Bytedance
$0.15
$1.5
Baidu
32
$10.5
Tencent
Deepseek
$12
128
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
mlx-community
LFM2-8B-A1B是针对苹果硅芯片优化的8位量化MLX构建版本,采用专家混合(MoE)架构,总参数约80亿,每个令牌激活约10亿参数,支持设备端快速推理。
facebook
MobileLLM-Pro是Meta推出的10亿参数高效设备端语言模型,专为移动设备优化,支持128k上下文长度,提供高质量推理能力。该模型通过知识蒸馏技术训练,在多项基准测试中超越同规模模型,并支持近乎无损的4位量化。
google
VaultGemma是谷歌推出的基于差分隐私技术预训练的轻量级语言模型,具有强大的隐私保护能力。它采用差分隐私随机梯度下降(DP-SGD)进行预训练,为训练数据提供数学隐私保证,参数少于10亿,适用于多种自然语言处理任务。
Quatfit
Isha-1B-preview是一个拥有10亿参数的对话式人工智能模型,模拟名为Isha Verma的青少年形象,能够生成高度拟人、随意且略带羞涩的对话回复,包含内部思考过程。
NV9523
基于Meta Llama 3.2架构的10亿参数指令微调模型,专门针对文本生成任务进行优化。该模型采用PEFT(参数高效微调)技术,在保持基础模型能力的同时增强了指令遵循和对话能力。
silx-ai
TARS-1B是一个拥有10亿参数的非Transformer液态神经网络语言模型,完全从头构建,采用创新的液态神经网络架构,专为连续时间推理和高效泛化而设计。该模型仅使用3亿个令牌进行预训练,在多个基准测试中展现出令人印象深刻的性能。
rootonchair
Vintern-1B-v3_5是一个10亿参数的视觉语言模型,支持图像文本生成任务。
DevQuasar
OLMo-2-0425-1B-Instruct是由AllenAI开发的一个10亿参数规模的指令微调语言模型,专注于文本生成任务。
这是一个通过DINOv2自监督学习在20亿网络图像上训练的10亿参数视觉Transformer模型,无需语言监督即可学习视觉表示。
10亿参数的视觉Transformer模型,通过掩码自编码器自监督学习方法在20亿网络图像上训练,无需语言监督即可学习视觉表征。
lunahr
CSM(对话语音模型)是由Sesame开发的10亿参数语音生成模型,可通过文本和音频输入生成RVQ音频编码。
kajuma
DiffLlama-1B 是一个从零开始预训练约1000亿标记、参数规模约10亿的大语言模型,创新性地采用了'差分Transformer'架构理念。
chutesai
CSM(对话语音模型)是由Sesame开发的10亿参数语音生成模型,可从文本和音频输入生成RVQ音频编码。
mbreuss
FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作流策略模型,训练数据来自LIBERO 10数据集,仅包含10亿参数。
FlowerVLA是一个针对CALVIN D数据集预训练的视觉-语言-动作流模型,采用高效的流匹配架构,仅约10亿参数即可实现通用机器人操作策略。
FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作模型,基于CALVIN ABC数据集训练,采用高效的流匹配架构,仅约10亿参数。
FlowerVLA是一个针对CALVIN ABCD数据集预训练的机器人操作模型,采用创新的视觉-语言-动作流策略,仅包含10亿参数,专为机器人学习设计。
TheFinAI
FinSeer StockLLM 是一个开源的10亿参数大语言模型,专为金融时间序列预测设计,采用检索增强生成(RAG)框架。
CSM(对话语音模型)是Sesame开发的10亿参数语音生成模型,可通过文本和音频输入生成RVQ音频编码。