阿里巴巴将在除夕夜开源新一代千问模型Qwen3.5,该模型在架构上全面创新,旨在提升AI应用效果和灵活性。此举预计将吸引广泛关注,进一步推动阿里在智能技术领域的影响力。尽管先前版本曾因回答不一致受到批评,但此次更新有望改善。
DeepSeek于2月11日灰度更新网页端和APP端,14日正式官宣为新长文本模型结构测试。此次更新支持最高100万token超长上下文,知识库更新至2025年5月。但API服务仍为V3.2版本,仅支持128K上下文。业内视此次更新为下一代V4模型发布前的技术预热和压力测试,引发对V4的广泛期待。更新后,DeepSeek的交互风格也发生明显变化。
DeepSeek网页端和移动应用于2月11日更新,上下文长度提升至100万Token,处理能力较此前128K版本提升近8倍,可一次性处理大规模文档,进入全球顶尖梯队。
阿维塔于2026年2月11日向全系车型推送AVATR.OS5.0.0系统。此次大版本更新的核心是深度融合AI大模型能力,并升级至华为最新智驾系统。最突出的亮点是MoLA大模型助手正式上线,其语义理解能力显著增强,支持组词、拆字及知识纠错,能更精准地理解用户指令。
Windsurf Wave 3 是一个专注于提升开发者体验的 AI 编辑器更新版本。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Alibaba
$1
$10
256
Bytedance
$0.8
$2
Baidu
-
32
Openai
$0.35
$2.8
400
$8
Chatglm
128
$1.8
$5.4
16
Google
$140
$280
$0.5
Huawei
$17.5
$70
magiccodingman
这是一个基于Qwen3-4B-Thinking-2507的密集模型实验性量化版本。它采用了创新的MXFP4混合量化技术,旨在探索通过组合不同精度的权重(如MXFP4与Q8_0、Q6_K等),在显著减小模型文件大小、提升推理速度(TPS)的同时,尽可能保持接近原始F16模型的精度。该项目展示了混合量化方法的潜力,但已被作者更新的版本所取代。
Testament200156
old-MakeGemma3是一个使用mergekit工具合并预训练语言模型得到的实验性模型,采用NuSLERP合并方法构建。该模型是多语言功能改进版本的前身,当前已弃用,建议使用更新的Testament200156/MakeGemma3-abliterated版本。
unsloth
Qwen3-4B-Instruct-2507是Qwen3-4B非思考模式的更新版本,在通用能力、长尾知识覆盖、用户偏好对齐和长上下文理解等方面有显著提升。采用Unsloth Dynamic 2.0量化技术,在准确性上表现卓越。
cpatonn
Qwen3-4B-Instruct-2507-AWQ是Qwen3-4B非思考模式的更新版本,在通用能力、长尾知识覆盖、用户偏好对齐和长上下文理解等方面有显著提升。它可用于文本生成等多种场景,为用户提供高质量的语言交互体验。
Qwen
Qwen3-30B-A3B-Instruct-2507-FP8是Qwen3-30B-A3B-FP8非思考模式的更新版本,在通用能力、长尾知识覆盖、用户偏好对齐和长上下文理解等方面有显著提升,支持262,144的原生上下文长度。
Qwen3-30B-A3B-Instruct-2507是Qwen3-30B-A3B非思考模式的更新版本,在通用能力、长尾知识覆盖、用户偏好对齐和长上下文理解等方面均有显著提升。这是一个305亿参数的大型语言模型,采用MoE架构,激活参数为33亿。
NVFP4
Qwen3-235B-A22B-Instruct-2507是Qwen3系列模型的更新版本,在通用能力、长尾知识覆盖、用户偏好对齐和长上下文理解等方面有显著提升,能提供更优质的文本生成服务。该模型采用混合专家架构,总共235B参数,激活22B参数,原生支持262,144上下文长度。
Mistral-Small-3.2-24B-Instruct-2506 是 Mistral-Small-3.1-24B-Instruct-2503 的小版本更新,改进了指令遵循、减少重复错误和函数调用能力,提供更高效、准确的服务。
Mistral-Small-3.2-24B-Instruct-2506是一个图像文本到文本的模型,是Mistral-Small-3.1-24B-Instruct-2503的更新版本,在指令遵循、减少重复错误和函数调用等方面有所改进。
gabriellarson
Mistral-Small-3.2-24B-Instruct-2506是一款语言模型,是Mistral-Small-3.1-24B-Instruct-2503的小版本更新,在指令遵循、减少重复错误和函数调用等方面有显著提升。
mistralai
Mistral-Small-3.2-24B-Instruct-2506是Mistral-Small-3.1-24B-Instruct-2503的小版本更新,改进了指令遵循、减少重复错误和函数调用能力。
DeepSeek-V3-0324 是 DeepSeek 团队发布的 3 月更新版本,相比前代在多个基准测试上有显著提升,支持动态量化版本,适用于本地推理。
ltg
这是deberta-v2-xxlarge的更新版本,实现了AutoModelForCausalLM类,使其能够生成文本。修复了原始实现中的三个问题,包括输出嵌入权重名称、增强掩码解码器实现和位置嵌入截断处理。
jondurbin
百吉饼模型是基于更新后的yi-34b-200k进行微调的版本,具备出色的长上下文支持能力。该模型通过直接偏好优化(DPO)进行了额外调整,在处理长文本时表现更佳,支持多种提示格式和特殊提示策略。
Kooten
无畏女仆-20B-V1.1是基于DaringMaid-20B的升级版本,主要更新是将Noromaid-13b从v0.1.1替换为v0.3版本,并略微提高了Noromaid的权重,以确保更好的兼容性。
Undi95
ReMM-SLERP是对原始MythoMax-L2-13B的重构版本,采用SLERP技术融合了更新后的多个13B参数模型,包括Chronos-Beluga、Airoboros和Huginn等。
sazyou-roukaku
chilled_remix和reversemix是文本到图像生成模型,专为图像创作领域设计。它们提供多样化的图像生成效果,在版本更新后对使用限制进行了优化,特别适合LORA爱好者使用,能实现更稳定的面部真实感。
一个基于Model Context Protocol (MCP)的Smartsheet API交互服务器,提供搜索、检索和更新Smartsheet表格的功能,支持版本备份和格式化响应。