百度在2025世界大会上发布文心5.0大模型,参数量达2.4万亿。该模型采用原生全模态技术,能统一处理文本、图像、音频和视频,具备出色的多模态理解、指令遵循、创意写作和智能规划能力,在推理与记忆方面表现突出。
美团开源多模态大模型LongCat-Flash-Omni实现技术突破,在多项基准测试中超越闭源竞品,达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理,具备近乎零延迟的交互能力,将本地化多模态AI应用推向新高度。
美团正式发布自研LongCat大模型官方App,支持安卓和iOS系统下载。该应用具备联网搜索、语音通话功能,未来还将加入视频通话。通过文本处理和多模态理解技术,帮助用户高效获取信息,体现美团在人工智能领域的重要进展。
火山引擎推出豆包视频生成模型1.0pro fast,生成速度提升3倍,价格降低72%,同时优化视频质量和场景适配性,为开发者提供高效低成本AI工具。
全球大模型聚合平台,支持文本、图像、视频全覆盖。
将视频文件转换为结构化数据,为您的LLM提供支持。
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
Wan2.1 是一款开源的先进大规模视频生成模型,支持多种视频生成任务。
tencent
$18
Input tokens/M
Output tokens/M
32k
Context Length
$3
$9
8k
google
$72
2M
sensetime
$2.8
$8.4
256k
$4
$16
200k
unsloth
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
Qwen
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-30B-A3B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解。
Qwen3-VL-235B-A22B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
PolyU-ChenLab
UniPixel-3B是一个用于像素级视觉语言理解的统一多模态大语言模型,能够灵活支持各种细粒度任务,包括图像/视频分割、区域理解以及新颖的PixelQA任务。该模型在视频中联合要求以对象为中心的指称、分割和问答,实现了像素级的视觉推理能力。
Kwai-Keye
快手Keye-VL是由快手Keye团队打造的前沿多模态大语言模型,在视频理解、视觉感知和推理任务中表现卓越。1.5版本通过创新的快慢视频编码策略、LongCoT冷启动数据管道和强化学习训练策略,在视频理解、图像感知和推理能力上达到新高度,支持长达128k标记的扩展上下文长度。
DFloat11
这是Wan-AI/Wan2.2-T2V-A14B模型的DFloat11无损压缩版本,通过先进的压缩技术将模型大小减少32%,同时保持位相同的输出质量,支持在单张24GB GPU上高效生成720P视频。
InternVL3-8B 是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,能处理图像、视频等多模态数据。
VLM2Vec
VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型,通过训练视觉语言模型,为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。
OpenGVLab
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
Skywork
SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型,通过整合专业子专家模型、多模态大语言模型与人工标注,解决了通用描述模型在专业影视细节捕捉上的局限。
InternVL3-14B是一个强大的多模态大语言模型,在多模态感知和推理能力上表现卓越,支持图像、文本、视频等多种输入。
InternVL3-2B是基于Hugging Face Transformers库实现的多模态大语言模型,在图像、视频和文本处理等多模态任务上表现出色,支持多种输入方式和高效的批量推理。
InternVL3 是一个先进的多模态大语言模型系列,展示了卓越的多模态感知和推理能力,支持图像、视频和文本输入。
wan-community
万2.1是一个开放且先进的大规模视频生成模型,具备顶尖性能,支持消费级GPU运行,并在多任务处理中表现卓越。
Isotr0py
Ovis2-1B是多模态大语言模型(MLLM)Ovis系列的最新成员,专注于视觉与文本嵌入的结构对齐,具有小模型高性能、强化推理能力、视频与多图处理以及多语言OCR增强等特性。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
腾讯云COS MCP Server是一个无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力的服务,提供文件上传下载、图片处理、视频处理等云端存储与处理功能。
CloudGlue MCP服务是一个连接AI助手与视频数据的桥梁,通过结构化处理视频内容,使其能被大型语言模型理解和使用。