2026年春节期间,国产AI大模型赛道迎来密集发布潮,字节跳动、智谱、MiniMAX等头部企业相继推出新品,带动资本市场对AI应用板块热情高涨。其中,字节跳动发布的Seedance 2.0视频生成模型尤为瞩目,支持文本和图像输入,可生成长达60秒的多镜头视频,并实现了画质跨越,具备原生音频同步与出色的运镜规划能力。
微软推出轻量级实时文本转语音模型VibeVoice-Realtime-0.5B,支持流式输入与长篇输出,适用于代理应用和实时数据讲述。该模型能在约300毫秒内开始输出语音,配合语言模型生成回答。其框架通过连续语音标记实现下一个标记的扩散。
谷歌在移动端测试“AI概览+AI模式”合并功能,用户可在搜索结果页直接展开多轮对话,无需跳转。该功能支持文本、语音和图片输入,对话长度可达传统搜索三倍,并保留引用来源与网页排名。产品副总裁表示,新设计旨在消除用户选择搜索或聊天的成本,实现连续提问与即时回复。
OpenAI发布GPT-5 Pro API,具备40万Token上下文窗口,支持图像输入,可处理复杂长文本。定价为每百万Token15美元,推动AI应用普及。这是该公司迄今最强大的模型。
业界首个llama3中文指令微调模型,支持长文本输入,实现高质量中文问答。
Chat Gpt长文本输入
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
$15.8
$12.7
unsloth
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
lmstudio-community
Mistral Small 3.2 24B Instruct 2506 是一个多语言大语言模型,支持文本和图像输入,文本输出,具有128k的上下文长度。
Google出品的Gemma 3 4B IT模型,支持多模态输入和长上下文处理,适用于文本生成和图像理解任务。
Robeeeeeeeeeee
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入,生成文本输出,并具备128K标记的上下文长度。
mjtechguy
Phi-4-multimodal-instruct是一个轻量级开源多模态基础模型,支持文本、图像和音频输入,生成文本输出,具备128K标记的上下文长度。
microsoft
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。
OpenGVLab
基于InternVideo2-1B和Qwen2.5-7B构建的多模态视频文本模型,每帧仅使用16个标记,支持长达10,000帧的输入序列。
zer0int
基于稀疏自编码器(SAE)微调的Long-CLIP模型,支持长文本输入,优化了文本-图像对齐能力
aws-prototyping
MegaBeam-Mistral-7B-512k是一款基于Mistral-7B Instruct-v0.2训练的长上下文大语言模型,支持524,288个上下文token,在多个长上下文基准测试中表现优异,能够高效处理超长文本输入。
基于BeichenZhang/LongCLIP-L微调的CLIP模型,支持长文本输入(248词符),采用几何参数化(GmP)技术提升性能
Undi95
DBRX Base是Databricks从零开始训练的混合专家(MoE)大语言模型,采用开放许可协议。该模型总参数达132B,在任何输入下只有36B参数处于激活状态,在12T文本和代码数据上进行预训练,最大上下文长度为32K令牌。
zedfum
一个针对波斯语长文本进行摘要的模型,支持8K令牌长度的输入。
Joemgu
这是一个支持多语言、长文本(最高支持16k输入标记)的抽象摘要生成模型。基于sumstew数据集训练,可为给定输入文档生成标题和摘要。
基于Longformer注意力机制改造的波斯语文本摘要模型,支持8K令牌长度的输入。
agemagician
MLongT5 是一个多语言预训练的文本生成模型,能够高效处理长输入序列,适用于多种语言场景下的文本生成任务。
PlanTL-GOB-ES
基于Longformer架构的西班牙语掩码语言模型,能够处理长文本输入,适用于问答、文本分类等任务
pszemraj
基于T5架构优化的长文本摘要生成模型,支持处理长达16384个token的输入,在书籍摘要任务上表现优异。
基于T5架构的长文本摘要生成模型,支持处理长达16384个token的输入,适用于书籍和技术文档摘要任务。
google
LongT5 是一个基于 Transformer 的文本到文本模型,专门设计用于处理长序列输入,最高支持 16384 个标记。
ccdv
基于LSG技术的BART-base模型,专为长文本摘要任务设计,支持4096长度的输入序列