国产团队Moonshot AI发布Kimi Linear架构技术报告,提出可替代完全注意力机制的混合线性架构。该架构在速度、内存效率和长上下文处理三方面实现突破,显著降低KV缓存使用,兼具高效与性能优势,被誉为智能体时代注意力机制新起点。
蚂蚁集团开源百灵大模型Ring-flash-linear-2.0-128K,专攻超长文本编程。采用混合线性注意力与稀疏MoE架构,仅激活6.1B参数即可媲美40B密集模型,在代码生成和智能代理领域达到最优表现,高效解决长上下文处理痛点。
DeepSeek发布实验模型V3.2-exp,采用创新稀疏注意力机制,显著降低长上下文操作的推理成本,使API成本减少一半。该模型为开发者提供更经济高效的AI解决方案。
DeepSeek发布实验模型V3.2-exp,采用创新的“稀疏注意力”机制显著降低长上下文推理成本。该模型已在Hugging Face和GitHub同步上线,核心是通过“闪电索引器”和注意力机制优化处理效率。这一突破性技术有望推动AI在长文本处理领域的发展。
一种提升场景级视频生成能力的技术。
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
高性能的双向编码器Transformer模型
Qwen2.5-Coder系列的1.5B参数代码生成模型
tencent
$0.8
Input tokens/M
$2
Output tokens/M
32k
Context Length
anthropic
$108
$540
200k
baichuan
-
192k
ai21-labs
256k
$1.44
$2.88
258k
moonshot
$1
$8
智谱ai
$0.5
128k
chatglm
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
unsloth
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、增强的空间和视频理解能力,以及强大的智能体交互能力。该模型为2B参数的思考版,专门增强推理能力。
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化技术,性能指标与原始BF16模型几乎相同。该模型具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频理解能力,以及出色的智能体交互能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
cpatonn
Qwen3-VL是通义系列最强大的视觉语言模型,实现全方位综合升级,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文处理和视频理解,提供指令优化版本。
ByteDance-Seed
人工海马网络(AHN)是一种创新的长上下文建模方法,通过将无损记忆转换为固定大小的压缩表示,结合了无损记忆的精确性和压缩记忆的高效性。该模型能够有效处理长序列,计算成本固定,适用于各种类似RNN的架构。
AHN是一种用于高效长上下文建模的创新神经网络架构,通过将无损内存转换为固定大小的压缩表示,结合了Transformer和RNN的优势,在长序列处理中实现高效计算和准确预测。
mlx-community
IBM Granite-4.0-H-Tiny是经过苹果硅芯片优化的混合Mamba-2/Transformer模型,采用3位量化技术,专为长上下文、高效推理和企业使用而设计。该模型结合了Mamba-2架构和专家混合技术,在保持表达能力的同时显著降低内存占用。
Apertus是一款参数规模达70B和8B的完全开放多语言语言模型,支持超1000种语言和长上下文,仅使用完全合规且开放的训练数据,性能可与闭源训练的模型相媲美。
redponike
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,参数规模达80亿和700亿,支持超过1000种语言和长上下文处理,仅使用完全合规的开放训练数据,性能可与闭源模型相媲美。