高通发布AI200和AI250芯片挑战英伟达,股价涨超20%。AI200专为AI推理设计,支持768GB内存,旨在降低总成本并提升性能,适用于大型语言和多模态模型推理。
上海交大与上海AI实验室推出MM-HELIX项目,旨在解决多模态大模型在复杂推理中缺乏反思能力的问题。该项目通过模拟人类长链反思性推理,提升AI处理需多次尝试挑战的能力,推动模型从“耿直”转向灵活思考。
谷歌Gemini 3.0 Pro模型开始小范围推送,强化推理和多模态处理能力,预计本月底正式发布。DeepMind团队持续优化AI性能,助力开发者把握技术趋势。
阿里巴巴发布Qwen3-VL视觉语言模型紧凑版,含4亿和8亿参数变体,推动多模态AI在边缘设备应用。模型优化了STEM推理、视觉问答、OCR、视频理解等核心能力,性能媲美大型模型,实现技术重大突破。
Grok 4是xAI推出的革命性AI模型,具备先进的推理能力、多模态功能和专业编码特性。
高效的开源专家混合视觉语言模型,具备多模态推理能力。
全新多模态推理模型,支持图文输入、文字输出,具备高精度图像感知与复杂推理能力。
xAI推出的最新旗舰AI模型Grok 3,具备强大的推理和多模态处理能力。
xai
$21.6
Input tokens/M
$108
Output tokens/M
256k
Context Length
google
$9
$72
1M
openai
$7.92
$31.68
200k
$2.16
$18
baidu
$4
$16
128k
-
2M
tencent
32k
reka-ai
anthropic
$540
$0.72
$2.88
$3
8k
sensetime
$2.8
$8.4
alibaba
$0.8
131.1k
Lamapi
Next 12B是基于Gemma 3的120亿参数多模态视觉语言模型,是土耳其最先进的开源视觉语言模型。该模型在文本和图像理解方面表现出色,具备先进的推理和上下文感知多模态输出能力,特别提供专业级的土耳其语支持,同时具备广泛的多语言能力。
strangervisionhf
这是一个修复后的图像文本转文本模型,解决了原模型在最新Transformers版本中推理失败的问题。该模型专门用于图像识别和文本生成任务,支持多模态输入处理。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、视觉和音频多模态处理,通过llama.cpp实现高效推理。该版本在保证质量的前提下显著减小文件大小,提升推理速度。
Open-Bee
Bee-8B是一个先进的全开源多模态大语言模型,专注于数据质量,旨在缩小与专有模型的性能差距。通过使用高质量的Honey-Data-15M语料库和先进的数据处理管道HoneyPipe,在复杂推理等方面展现了卓越性能。
cpatonn
Apriel-1.5-15b-Thinker是ServiceNow开发的150亿参数多模态推理模型,具备文本和图像推理能力,性能可媲美比它大10倍的模型,在人工分析指数上获得52分,在企业领域基准测试中表现优异。
mlx-community
Apriel-1.5-15B-Thinker是一个专为图像理解与推理设计的150亿参数多模态模型,采用中期训练方法而非RLHF训练。本版本为适用于苹果芯片的MLX量化版本,具有内存占用小、启动速度快的特点。
unsloth
Apriel-1.5-15b-Thinker是ServiceNow Apriel SLM系列中的多模态推理模型,具有150亿参数,能够在文本和图像推理任务上与规模大10倍的模型竞争。该模型通过中期训练方案实现了卓越的推理能力,无需图像SFT训练或强化学习即可达到SOTA性能。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
vito95311
这是Qwen3-Omni 31.7B参数模型的专业量化版本,采用先进的INT8+FP16混合精度量化技术,内存使用减少50%以上,支持智能GPU/CPU混合推理,让大型多模态模型能够在消费级硬件上高效运行。
ServiceNow-AI
Apriel-1.5-15b-Thinker是ServiceNow开发的多模态推理模型,拥有150亿参数,在文本和图像推理任务上表现出色,性能可与比其大10倍的模型竞争。
PerceptronAI
Isaac-0.1是感知公司推出的首个开源视觉语言模型,拥有20亿参数,专为现实世界应用设计。该模型在多模态理解和空间推理方面表现出色,性能达到甚至超越比它大50倍以上的模型,树立了新的效率标准。
mispeech
MiDashengLM-7B-0804是小米发布的7B参数多模态语音语言模型,支持音频理解和文本生成任务,适用于通用场景的推理和微调。