DeepSeek网页端和移动应用于2月11日更新,上下文长度提升至100万Token,处理能力较此前128K版本提升近8倍,可一次性处理大规模文档,进入全球顶尖梯队。
谷歌发布Gemini3大型语言模型,其Pro Preview版已在AI Studio平台开放体验。该平台面向开发者、研究人员和学生,支持基于Gemini模型开发应用,并提供上下文长度、温度等参数灵活调整功能,便于优化模型配置。
硅基流动发布实验性模型DeepSeek-V3.2-Exp,支持160K上下文长度,价格直降超50%。该模型基于V3.1-Terminus深度优化,引入DeepSeek稀疏注意力机制,显著提升长文本训练和推理效率。
Moondream3.0预览版采用高效混合专家架构,仅激活2亿参数,总参数量达9亿,在视觉推理方面表现卓越。相比前代,该模型在多项基准测试中超越GPT-5、Gemini和Claude4等顶尖模型,实现技术飞跃。支持32K上下文长度,适用于复杂场景处理。
月之暗面推出的最新AI模型,支持自动同步更新和大上下文长度,适用于AI聊天和智能助手构建。
一款具有128k有效上下文长度的70B参数的大型语言模型。
Llama-3 70B模型的LoRA适配器,扩展上下文长度至超过524K。
EasyContext演示了如何利用现有技术组合,来训练700K和1M上下文的语言模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
ubergarm
这是ai-sage/GigaChat3-10B-A1.8B-bf16模型的GGUF量化版本,提供了多种量化选项,从高精度的Q8_0到极度压缩的smol-IQ1_KT,满足不同硬件条件下的部署需求。该模型支持32K上下文长度,采用MLA架构,专为对话场景优化。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
bullerwins
Qwen3-VL是通义系列迄今为止最强大的视觉语言模型,实现了全面升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,采用AWQ量化方法,在保持模型性能的同时显著减少了存储和计算资源需求。该模型支持200K上下文长度,在编码、推理和智能体任务方面相比GLM-4.5有显著提升。
QuantTrio
MiniMax-M2-AWQ是基于MiniMaxAI/MiniMax-M2模型的量化版本,通过vLLM框架实现高效的文本生成。该模型采用AWQ量化技术,在保持模型性能的同时显著减少内存占用和提升推理速度,支持32K上下文长度和工具调用功能。
deepcogito
Cogito v2.1是经过指令微调的6710亿参数混合专家生成式模型,采用开放许可发布,支持商业用途。该模型能有效解决复杂的推理和指令遵循问题,支持30多种语言和128k上下文长度。
nightmedia
Qwen3-Next-80B-A3B-Thinking-1M-qx64n-mlx是一个采用混合专家架构和Deckard混合精度量化技术的大语言模型,具有800亿参数和1M标记的上下文长度。该模型在科学技术推理和长文本处理方面表现卓越,相比指令模型在认知基准测试中提升20-35%。
基于Qwen3-Next的800亿参数指令微调模型,采用Deckard qx64n混合精度量化技术,支持100万上下文长度,在抽象推理、内存效率和长上下文处理方面表现优异
cpatonn
Qwen3-VL-32B-Instruct AWQ - INT4是基于Qwen3-VL-32B-Instruct基础模型的4位量化版本,采用AWQ量化方法,在保持性能的同时显著减少存储和计算资源需求。这是Qwen系列中最强大的视觉语言模型,在文本理解、视觉感知、上下文长度等方面全面升级。
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通义千问团队推出的新一代思考型大语言模型,采用创新的混合注意力机制和高稀疏MoE架构,在保持高效推理的同时具备强大的复杂推理能力,原生支持262K上下文长度。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的全面升级,具备卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间和视频动态理解能力,以及更出色的智能体交互能力。
quwsarohi
NanoAgent是一个紧凑的智能大语言模型,拥有1.35亿参数和8k上下文长度。它专门针对工具调用和指令遵循进行了优化,能够在个人设备上高效运行,支持轻量级推理和ReAct风格的交互。
Minibase
这是一个紧凑的西班牙语到英语翻译模型,针对准确性和效率进行了优化。模型大小为386MB,支持4096个令牌的上下文长度,能够高效精准地完成翻译任务,平均响应时间约245ms。
Qwen3-VL-30B-A3B-Thinking-AWQ 是基于 Qwen/Qwen3-VL-30B-A3B-Thinking 模型量化后的版本,是通义系列中最强大的视觉语言模型。该版本在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面进行了全面升级。
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,提供70亿和80亿两种参数规模。该模型支持超过1000种语言,使用完全合规且开放的训练数据,性能可与闭源模型相媲美。Apertus在15T标记上进行预训练,采用分阶段课程训练方法,支持长达65,536个标记的上下文长度。
DavidAU
这是一个基于Qwen3-Coder-30B-A3B-Instruct的混合专家模型,拥有540亿参数和100万上下文长度。模型通过三步合并和Brainstorm 40X优化,具备强大的编程能力和通用场景处理能力,特别集成了思考模块,能够在回答前进行深度推理。
Skim MCP Server是一个基于Skim项目的生产级Model Context Protocol服务器,专门用于代码智能压缩,帮助Claude Code等AI助手突破上下文长度限制,分析大型代码项目。