谷歌推出TurboQuant技术,通过压缩KV缓存,有效解决大语言模型推理中的内存瓶颈问题,可在不降低精度的前提下大幅减少内存占用,提升处理长文本和复杂任务的效率。
工信部就121项行业标准计划公开征求意见,重点规范人工智能模型上下文协议的应用安全,旨在通过标准化解决大模型在多模态交互、长文本处理及跨平台调用中的协议兼容与数据安全问题,标志着我国AI底层协议标准化与安全监管体系建设迈出关键一步。
Kimi公司发布论文《Attention Residuals: Rethinking depth-wise aggregation》,提出注意力残差新方法,优化深度聚合机制。特斯拉CEO马斯克在社交媒体点赞,称其为“亮眼工作”。Kimi官方幽默回应,引发全球AI社区热议。
Sakana AI推出T2L和D2L技术,利用“超网络”架构,使大模型无需重新训练即可在秒级内处理超长文档或学习新任务,有望解决大模型处理长文本时的“内存焦虑”问题。
Gemini 2.0 Flash-Lite 是高效的语言模型,专为长文本处理和多种应用场景优化。
MoBA 是一种用于长文本上下文的混合块注意力机制,旨在提升大语言模型的效率。
一款经过优化的大型语言模型,擅长文本生成和对话。
高效处理长文本的先进语言模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
DavidAU
基于Qwen 3微调的12B参数大语言模型,具备256k超长上下文处理能力,专门针对长文本生成任务进行优化。该模型结合了VLTO 8B模型基础、Brainstorm 20x调优和NEO Imatrix数据集量化技术,能够生成高质量的长文本内容。
unsloth
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
nightmedia
Qwen3-Next-80B-A3B-Thinking-1M-qx64n-mlx是一个采用混合专家架构和Deckard混合精度量化技术的大语言模型,具有800亿参数和1M标记的上下文长度。该模型在科学技术推理和长文本处理方面表现卓越,相比指令模型在认知基准测试中提升20-35%。
Qwen
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化技术,性能指标与原始BF16模型几乎相同。该模型具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
nvidia
Llama Nemotron Embedding 1B模型是NVIDIA开发的专为多语言和跨语言文本问答检索优化的嵌入模型,支持26种语言,能够处理长达8192个标记的文档,并可通过动态嵌入大小大幅减少数据存储占用。
cpatonn
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-30B-A3B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解。
Qwen3-VL-30B-A3B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度FP8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL-235B-A22B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL-235B-A22B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面均有显著提升。该模型提供密集架构和混合专家模型架构,支持从边缘到云的不同规模部署。
aisingapore
Gemma-SEA-LION-v4-27B-IT是专为东南亚地区预训练和指令微调的大语言模型,在东南亚语言任务上表现出色,具有128K的大上下文长度,具备图像和文本理解能力,支持高级函数调用和结构化输出。
tensorblock
LongWriter-Zero-32B是由清华大学知识工程实验室开发的32B参数大语言模型,专门针对长文本写作任务优化。本仓库提供该模型的GGUF量化格式文件,支持多种量化级别,适用于不同的硬件配置和使用场景。
lmstudio-community
Mistral Small 3.2 24B Instruct 2506 是一个多语言大语言模型,支持文本和图像输入,文本输出,具有128k的上下文长度。
kakaocorp
Kanana 1.5是Kakao开发的双语大语言模型,在编程、数学和函数调用能力方面有显著提升,支持32K tokens上下文长度,通过YaRN扩展技术可处理128K tokens超长文本。
通义千问推出的多模态大模型,支持图像文本生成和128k长上下文处理,具备多语言能力。
Gensyn
Qwen2.5是通义大语言模型的最新系列,提供从5亿到720亿参数的多种模型,在编码、数学、指令遵循和长文本处理方面有显著改进。
zhiqing
基于Hugging Face transformers库的4B参数大语言模型,支持文本生成、思维模式切换、工具调用和长文本处理等功能。