月之暗面团队推出Kimi Linear模型,在AIGC领域实现技术突破。该模型采用混合线性注意力架构,处理长上下文速度提升2.9倍,解码速度提高6倍,性能超越传统Softmax注意力机制,特别在上下文处理和强化学习等场景表现优异。
国产团队Moonshot AI发布Kimi Linear架构技术报告,提出可替代完全注意力机制的混合线性架构。该架构在速度、内存效率和长上下文处理三方面实现突破,显著降低KV缓存使用,兼具高效与性能优势,被誉为智能体时代注意力机制新起点。
蚂蚁集团开源百灵大模型Ring-flash-linear-2.0-128K,专攻超长文本编程。采用混合线性注意力与稀疏MoE架构,仅激活6.1B参数即可媲美40B密集模型,在代码生成和智能代理领域达到最优表现,高效解决长上下文处理痛点。
DeepSeek发布实验模型V3.2-exp,采用创新的“稀疏注意力”机制显著降低长上下文推理成本。该模型已在Hugging Face和GitHub同步上线,核心是通过“闪电索引器”和注意力机制优化处理效率。这一突破性技术有望推动AI在长文本处理领域的发展。
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
MiniMax-Text-01是一个强大的语言模型,具有4560亿总参数,能够处理长达400万token的上下文。
强大的语言模型,拥有4560亿总参数,可处理长达400万token的上下文。
LG AI Research开发的双语文本生成模型
tencent
$0.8
Input tokens/M
$2
Output tokens/M
32k
Context Length
baichuan
-
192k
ai21-labs
256k
$1.44
$2.88
258k
unsloth
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
moonshotai
Kimi Linear是一种混合线性注意力架构,在各种场景下包括短、长上下文以及强化学习扩展机制中,均优于传统的全注意力方法。它能有效解决传统注意力机制在长上下文任务中效率低下的问题,为自然语言处理等领域带来更高效的解决方案。
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
nightmedia
基于Qwen3-Next的800亿参数指令微调模型,采用Deckard qx64n混合精度量化技术,支持100万上下文长度,在抽象推理、内存效率和长上下文处理方面表现优异
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文处理和视频理解,提供指令优化版本。
ByteDance-Seed
人工海马网络(AHN)是一种创新的长上下文建模方法,通过将无损记忆转换为固定大小的压缩表示,结合了无损记忆的精确性和压缩记忆的高效性。该模型能够有效处理长序列,计算成本固定,适用于各种类似RNN的架构。
AHN是一种用于高效长上下文建模的创新神经网络架构,通过将无损内存转换为固定大小的压缩表示,结合了Transformer和RNN的优势,在长序列处理中实现高效计算和准确预测。
Apertus是一款参数规模达70B和8B的全开放多语言语言模型,支持超1000种语言和长上下文处理,仅使用完全合规且开放的训练数据,性能可与闭源模型相媲美。
redponike
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,参数规模达80亿和700亿,支持超过1000种语言和长上下文处理,仅使用完全合规的开放训练数据,性能可与闭源模型相媲美。
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
pierre-tassel
Rapido NER 是一个强大的多语言命名实体识别器和实体嵌入模型,以猫 Rapido 命名。该模型提供强大的多语言 NER 性能,支持实体聚类和检索,处理文档内聚类以及长上下文等任务。
inclusionAI
Ring-mini-2.0是基于Ling 2.0架构深度优化的高性能推理型MoE模型,仅有160亿总参数和14亿激活参数,却实现了与100亿规模以下密集模型相当的综合推理能力。在逻辑推理、代码生成和数学任务方面表现出色,支持12.8万长上下文处理和每秒300+令牌的高速生成。
gabriellarson
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理和智能体交互能力。仅使用12T token训练,在多个公开基准测试中表现出色,支持高达512K的原生长上下文处理。
inference-net
Schematron-8B是由Inference.net推出的长上下文提取模型,专注于将嘈杂的HTML转换为符合自定义模式的干净、类型化JSON。该模型能够处理长达128K标记的冗长HTML,输出100%符合指定JSON模式的有效JSON数据。
QuantTrio
Seed-OSS-36B-Instruct-AWQ 是字节跳动 Seed 团队开发的 36B 参数大语言模型的量化版本,具备强大的长上下文处理能力、推理能力和智能体功能,支持高达 512K 的上下文长度和灵活的思考预算控制。