MiniMax 发布 M2.5 模型,这是其 M2 系列在 108 天内的第三次升级。模型开源权重同步上线魔搭 ModelScope,在编程、搜索、办公等多场景表现领先,实现了能力、效率与成本的三重突破。该版本提供从零代码使用到私有化部署的全流程方案,并附有工具调用与推理参数调优的实战指南,旨在推动低成本 Agent 时代的到来。M2.5 在多项评测中成绩突出,例如在 SWE-Bench Verified 中表现亮眼。
MiniMax开源M2.1编程模型,已在Hugging Face、ModelScope和GitHub上线,方便开发者接入。该模型获vLLM“Day-0”支持,可立即实现高效推理,并通过KTransformers技术优化性能。
Liquid AI 公司于2025年7月发布第二代 Liquid Foundation Models(LFM2),采用创新的“liquid”架构,旨在成为市场上最快的设备端基础模型。其高效的训练和推理能力使小模型能媲美云端大型语言模型。LFM2 最初提供350M、700M 和1.2B 参数的密集检查点版本。
阿里巴巴通义千问团队在NeurIPS 2025获最佳论文奖,论文《Attention Gating Makes Better Foundation Models》提出“滑动门”机制,在标准注意力后添加可学习门控,动态筛选关键头和token参与下游计算。实验证明,1.7B稠密模型性能媲美15B MoE模型。本届大会投稿2万篇,录取率仅25%,竞争激烈,该论文是四篇获奖作品中唯一中国成果。
为Firefox浏览器翻译功能优化的CPU加速神经机器翻译模型。
一款能够生成电影级质量视频的图像到视频模型
Phi开放模型,强大、低成本、低延迟的小语言模型。
在句子表示空间中的语言建模
Moonshot
$200
输入tokens/百万
输出tokens/百万
131
上下文长度
modelscope
Nexus-Gen是一个将大语言模型的语言推理能力与扩散模型的图像生成能力相融合的统一模型
UCSC-VLAA
VLAA-Thinker是一个创新的视觉语言模型,能够同时处理图像和文本输入,并生成高质量的文本输出。该模型基于论文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果开发,专注于类似R1的推理能力。
Gemini
GemmaX2-28-9B-v0.1-Q2_K-GGUF 是一个基于 ModelSpace/GemmaX2-28-9B-v0.1 转换而来的 GGUF 格式模型,支持多种语言的翻译任务。
ModelsLab
鱼语语音 V1.5 是一款领先的文本转语音(TTS)模型,基于超过100万小时的多语言音频数据训练而成。
基于T5-base的提示词增强模型,可将简短提示扩展为详细描述
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
ControlNet++是一款强大的图像生成与编辑模型,支持多种控制条件,能生成高分辨率图像,视觉效果可与Midjourney相媲美。
基于Apache-2.0许可证的开源模型,具体功能和用途需参考完整文档
hazyresearch
M2-BERT-8K是一个8000万参数的长上下文检索模型,基于论文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》提出的架构。
基于Llama3-8b-instruct基础模型训练,适配中文通用场景,支持ReACT格式的智能体调用
rjhugs
基于microsoft/table-transformer-structure-recognition-v1.1-all微调的表格结构识别模型
M2-BERT-128是论文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》中提出的8000万参数检索模型检查点
openskyml
基于SDXL-Turbo的文本到图像生成模型,结合了LCM(Latent Consistency Models)和LoRA(Low-Rank Adaptation)技术,实现快速高质量的图像生成。
cerspense
一款基于Modelscope的无水印视频生成模型,优化16:9画面比例和流畅视频输出
vdo
基于diffusers的文本转视频模型,通过ModelScope微调实现动漫风格呈现,训练分辨率为512x512像素。
strangeman3107
这是一个基于diffusers的文本转视频模型,通过modelscope微调后具有动漫风格外观,支持448x384分辨率。
ali-vilab
多阶段文本生成视频扩散模型,输入英文描述文本即可生成符合文字叙述的视频内容
wavymulder
一个基于稳定扩散技术的文本到图像生成模型,能够根据文本描述生成高质量的图像。
一个基于ModelScope图像生成API的MCP服务器,支持通过自然语言提示词异步生成图像,并自动保存到本地文件。