国产大模型MiniMax开源M2.1,以100亿参数稀疏架构在多语言编程、代码生成与工具调用上实现突破,在权威基准测试中超越谷歌、Anthropic等闭源旗舰模型,标志着开源编码模型性能进入新阶段。
美团LongCat团队开源视频生成模型LongCat-Video-Avatar,推动虚拟人技术发展。该模型在长视频生成领域表现突出,基于LongCat-Video升级,支持音频文本转视频、音频文本图像转视频及视频续写等多任务功能,受到开发者广泛关注。
美团LongCat团队开源了LongCat-Image图像生成模型,该模型拥有6B参数,在文生图和图像编辑领域表现优异,旨在平衡性能与使用门槛,填补开源与闭源模型之间的技术空白。
商汤科技与南洋理工大学联合推出原生多模态架构NEO,并开源2B与9B模型。该架构摒弃传统三段式设计,从注意力机制到语义映射全面重构,实现“像素到Token”的连续映射,数据需求仅为行业平均的十分之一。
基于OpenAI Sora 2的AI视频生成器,可从文本或图像生成带声音的高清视频。
B站开源的SOTA动画视频生成模型,支持多种二次元风格视频一键生成。
VSCode扩展,基于最新的代理框架进行代码编辑
基于llama3 8B的SOTA视觉模型
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
Bytedance
$0.5
Chatglm
Minimax
01-ai
4
Nanbeige
楠米色4-3B-思维-2511是楠米色系列的最新增强版本,通过先进的蒸馏技术和强化学习优化,在紧凑的3B参数规模下实现了强大的推理能力。该模型在Arena-Hard-V2和BFCL-V4等基准测试中,在参数小于32B的模型中取得了最先进(SOTA)成果。
noctrex
Gelato-30B-A3B是针对GUI计算机使用任务进行微调的最先进(SOTA)模型,提供了量化版本以优化部署效率。该模型专门设计用于理解和处理图形用户界面相关的任务。
unsloth
Apriel-1.5-15b-Thinker是ServiceNow Apriel SLM系列中的多模态推理模型,具有150亿参数,能够在文本和图像推理任务上与规模大10倍的模型竞争。该模型通过中期训练方案实现了卓越的推理能力,无需图像SFT训练或强化学习即可达到SOTA性能。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
JetLM
SDAR是一种新型大语言模型,集成了自回归和离散扩散建模策略,结合了AR模型高效训练和扩散模型并行推理的优势。在通用任务上与SOTA开源AR模型相当,在科学推理任务上表现出色,成为最强大的扩散语言模型。
tcpipuk
dots.ocr是一款强大的多语言文档解析器,将布局检测和内容识别统一在单一视觉语言模型中,基于17亿参数实现SOTA性能,支持多语言文档解析和良好的阅读顺序保持。
lingshu-medical-mllm
灵枢是医疗领域的SOTA多模态大语言模型,在医疗视觉问答和报告生成任务中表现卓越。
RiverZ
ICEdit是一种创新的指令式图像编辑方法,通过大规模扩散变换器实现高效编辑,仅需0.5%的训练数据和1%的参数规模即可达到SOTA效果。
ubergarm
Qwen3-30B-A3B的量化版本,采用先进的非线性SotA量化技术,在给定内存占用下提供同类最佳的质量。
Skywork
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持720P高清视频生成,在公开模型中达到SOTA性能。
all-hands
基于Qwen2.5-Coder-32B-Instruct微调的评审模型,用于评估代码解决方案质量,助力SWE-Bench基准测试取得SOTA成绩
UCSC-VLAA
VLAA-Thinker-Qwen2.5-3B是一个类似R1的推理大视觉语言模型,专注于多模态推理任务。该模型在OpenCompass多模态推理排行榜上达到了SOTA性能,支持图像理解和复杂推理能力。
qihoo360
Light-R1-32B-DS是一款近SOTA水平的32B数学模型,基于DeepSeek-R1-Distill-Qwen-32B微调,仅使用3K SFT数据即实现高性能。
Light-R1-14B-DS是一个14B参数的数学SOTA模型,采用强化学习训练,在AIME24/25和GPQA基准测试中表现优异。
xingyang1
Distill-Any-Depth是一种新的SOTA单目深度估计模型,采用知识蒸馏算法训练而成。
Distill-Any-Depth是一种基于知识蒸馏算法训练的SOTA单目深度估计模型,能够高效准确地进行深度估计。
FireRedTeam
FireRedASR是一系列支持普通话、中国方言和英语的开源工业级自动语音识别(ASR)模型,在公开的普通话ASR基准测试中实现了新的最先进水平(SOTA),同时具备出色的歌词识别能力。
FireRedASR是一系列支持普通话、汉语方言和英语的开源工业级自动语音识别(ASR)模型,在公开普通话ASR基准测试中达到最新最优(SOTA)水平,同时具备卓越的歌词识别能力。
ragraph-ai
这是一个专门用于生成CYPHER查询语句的30亿参数模型,在生成CYPHER方面超越了GPT4-o等SOTA模型。该模型基于特定数据集进行微调,能够将文本转换为CYPHER查询语句,用于查询GraphDB(如Neo4j)。
XiYan MCP Server是一个基于XiYan-SQL的模型上下文协议服务器,支持通过自然语言查询数据库,提供多种模型配置选项,包括通用大模型、SOTA文本转SQL模型及本地模型,适用于不同安全性和性能需求场景。