小米新任大模型负责人罗福莉在2025小米生态大会上,正式发布全新MoE大模型MiMo-V2-Flash。该模型采用Hybrid SWA架构,设计简洁优雅,在长上下文推理方面表现突出,标志着小米向人工通用智能(AGI)目标迈出重要一步。
研究发现,大语言模型持续接触低质量数据(如社交媒体内容)后,会出现类似人类“脑损伤”的现象,导致推理能力下降23%,长上下文记忆能力下降30%。这种损伤不可逆,即使后续用高质量数据训练也无法完全恢复。
DeepSeek发布实验模型V3.2-exp,采用创新稀疏注意力机制,显著降低长上下文操作的推理成本,使API成本减少一半。该模型为开发者提供更经济高效的AI解决方案。
DeepSeek发布实验模型V3.2-exp,采用创新的“稀疏注意力”机制显著降低长上下文推理成本。该模型已在Hugging Face和GitHub同步上线,核心是通过“闪电索引器”和注意力机制优化处理效率。这一突破性技术有望推动AI在长文本处理领域的发展。
加速长上下文大型语言模型的推理过程
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
-
Anthropic
$7
$35
200
$21
$105
Google
$0.7
Alibaba
$4
$16
$2
$20
$6
$24
256
Baidu
128
Moonshot
Bytedance
$0.8
32
$10.5
Tencent
$1
Deepseek
$12
$54
$163
ai-sage
GigaChat3-10B-A1.8B是GigaChat系列的对话模型,基于混合专家(MoE)架构,共有100亿参数,其中18亿为活跃参数。该模型采用多头潜在注意力和多令牌预测技术,支持25.6万令牌的长上下文,在多语言对话和推理任务中表现出色。
Mungert
MiroThinker v1.0是一个开源研究智能体,通过模型级别的交互式扩展提升工具增强推理和信息搜索能力。该模型在多个基准测试中表现出色,支持长上下文和深度多步分析。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-8B-Instruct是通义系列中最强大的视觉语言模型,具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。