百度发布文心大模型5.0正式版,拥有2.4万亿参数,实现从多模态融合到“原生全模态”的跨越。其采用原生全模态统一建模技术,在统一架构中对文本、图像、视频和音频进行联合训练,区别于行业常见的“后期合成”方案。
百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
中国电信人工智能研究院发布GVC生成式视频压缩技术,压缩率可达0.02%,1GB视频仅需传输约200KB数据即可还原清晰画质。其核心是“用计算换带宽”,区别于传统编码的“搬运像素”逻辑,通过AI模型学习视频内容特征,在接收端智能重建画面,大幅降低传输数据量,有望革新视频存储与流媒体传输。
蓝色光标与火山引擎合作,利用AI大模型技术重塑数字营销内容生产模式,以应对市场需求。合作聚焦于BlueAI心影创作平台,探索视频理解与生成等营销场景应用,提升内容生产效率。
全球大模型聚合平台,支持文本、图像、视频全覆盖。
将视频文件转换为结构化数据,为您的LLM提供支持。
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
Wan2.1 是一款开源的先进大规模视频生成模型,支持多种视频生成任务。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
Justin331
SAM 3 是 Meta 推出的第三代可提示分割基础模型,统一支持图像和视频分割任务。相比前代 SAM 2,它引入了开放词汇概念分割能力,能够处理大量文本提示,在 SA-CO 基准测试中达到人类表现的 75-80%。
facebook
SAM 3 是 Meta 推出的第三代可提示分割基础模型,能够利用文本或视觉提示(点、框、掩码)来检测、分割和跟踪图像与视频中的对象。与前代相比,SAM 3 引入了对开放词汇概念所有实例进行详尽分割的能力,支持大量开放词汇提示,在 SA-CO 基准上达到人类表现的 75-80%。
unsloth
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
Qwen
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-30B-A3B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解。
Qwen3-VL-235B-A22B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面均有显著提升。该模型提供密集架构和混合专家模型架构,支持从边缘到云的不同规模部署。
PolyU-ChenLab
UniPixel-3B是一个用于像素级视觉语言理解的统一多模态大语言模型,能够灵活支持各种细粒度任务,包括图像/视频分割、区域理解以及新颖的PixelQA任务。该模型在视频中联合要求以对象为中心的指称、分割和问答,实现了像素级的视觉推理能力。
Kwai-Keye
快手Keye-VL是由快手Keye团队打造的前沿多模态大语言模型,在视频理解、视觉感知和推理任务中表现卓越。1.5版本通过创新的快慢视频编码策略、LongCoT冷启动数据管道和强化学习训练策略,在视频理解、图像感知和推理能力上达到新高度,支持长达128k标记的扩展上下文长度。
DFloat11
这是Wan-AI/Wan2.2-T2V-A14B模型的DFloat11无损压缩版本,通过先进的压缩技术将模型大小减少32%,同时保持位相同的输出质量,支持在单张24GB GPU上高效生成720P视频。
InternVL3-8B 是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,能处理图像、视频等多模态数据。
VLM2Vec
VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型,通过训练视觉语言模型,为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。
OpenGVLab
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
Skywork
SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型,通过整合专业子专家模型、多模态大语言模型与人工标注,解决了通用描述模型在专业影视细节捕捉上的局限。
InternVL3-14B是一个强大的多模态大语言模型,在多模态感知和推理能力上表现卓越,支持图像、文本、视频等多种输入。
InternVL3-2B是基于Hugging Face Transformers库实现的多模态大语言模型,在图像、视频和文本处理等多模态任务上表现出色,支持多种输入方式和高效的批量推理。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
腾讯云COS MCP Server是一个无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力的服务,提供文件上传下载、图片处理、视频处理等云端存储与处理功能。
CloudGlue MCP服务是一个连接AI助手与视频数据的桥梁,通过结构化处理视频内容,使其能被大型语言模型理解和使用。