国产大模型GLM-5在2026年初实现重大突破,开源后在全球权威榜单Artificial Analysis中位列第四,评分与Claude Opus4.5相当。其核心创新包括:参数规模扩展至744B,预训练数据达28.5T;集成DeepSeek稀疏注意力机制,在保持长文本理解能力的同时降低部署成本;在编程与工程领域表现突出。
宇树开源UnifoLM-VLA-0大模型,专为通用人形机器人设计,实现视觉-语言-动作深度融合。该模型突破传统视觉语言模型局限,通过机器人操作数据预训练,推动机器人大脑从图文理解向具备物理常识的具身智能迈进。
阿里发布旗舰推理模型Qwen3-Max-Thinking,参数量超万亿,预训练数据达36T Tokens。该模型通过强化学习训练,在事实知识、数学推理等方面表现优异,已接入千问PC端和网页端,App即将支持。用户可一键切换体验更强推理能力。
全球AI服务器市场迎来爆发期,预计2026年出货量同比增长28.3%,整体服务器市场增速达12.8%。增长动力正从模型训练转向推理应用,推动通用服务器需求显著提升。
提供多种预训练模型,支持多维度筛选,助力AI模型应用与开发。
一个用于LLM预训练的高效网络爬虫工具,专注于高效爬取高质量网页数据。
大规模深度循环语言模型的预训练代码,支持在4096个AMD GPU上运行。
TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化方法。
Alibaba
$6
Input tokens/M
$24
Output tokens/M
256
Context Length
$8
$240
52
$2
-
Moonshot
$4
$16
Baidu
32
Chatglm
128
Iflytek
$0.5
Huawei
Tencent
28
Google
$1.6
4
$12
Openai
$3.5
$10.5
16
Minimax
1k
ai-sage
GigaChat3-10B-A1.8B 是 GigaChat 系列的高效对话模型,基于混合专家(MoE)架构,拥有 100 亿总参数和 18 亿活跃参数。它采用了创新的多头潜在注意力(MLA)和多令牌预测(MTP)技术,旨在优化推理吞吐量和生成速度。模型在 20T 令牌的多样化数据上训练,支持包括中文在内的 10 种语言,适用于需要快速响应的对话场景。
Shawon16
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集上预训练,并在一个未知的、可能与手语识别相关的数据集上进行了微调。模型在评估集上取得了78.11%的准确率,适用于视频分类任务。
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集预训练的基础上进行了微调,专门用于手语识别任务。模型在评估集上表现有待提升,准确率为0.0010。
TeichAI
本模型是基于Qwen3-4B-Thinking-2507基础模型,使用高推理难度的Gemini 3 Pro预览数据集进行蒸馏训练得到的模型。它专注于提升在编码和科学领域的复杂推理能力,通过特定数据集的训练,旨在将大型模型(如Gemini 3 Pro)的推理能力高效地迁移到较小规模的模型中。
Arko007
Zenyx_114M-Tiny-Edu-Instruct 是一个实验性的小型指令微调语言模型,拥有约1.14亿参数。它基于TinyEdu-50M基础模型构建,在FineWeb-Edu数据集上预训练,并在OpenHermes-2.5和CodeFeedback-Filtered混合数据集上进行了指令微调。该模型旨在探索极小架构下指令微调的极限,验证损失收敛至约1.04。
MedSwin
本项目是使用预训练语言模型融合技术创建的医学领域模型,通过融合多个医学相关的预训练模型,专门针对医学问答任务进行优化,提升在医学场景下的性能和效果。
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
GigaAM-v3是基于Conformer架构的俄语自动语音识别基础模型,拥有2.2-2.4亿参数。它是GigaAM系列的第三代模型,在70万小时俄语语音数据上使用HuBERT-CTC目标进行预训练,在广泛的俄语ASR领域提供最先进的性能。
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
GigaChat3-10B-A1.8B-base是GigaChat系列的基础预训练模型,采用混合专家(MoE)架构,总参数100亿,活跃参数18亿。模型集成了多头潜在注意力(MLA)和多令牌预测(MTP)技术,在推理时具备高吞吐量优势。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Synthyra
Profluent - E1 是对 Profluent Bio 公司 E1 模型的忠实实现,由 Synthyra 发布。它是一个专注于蛋白质序列处理的预训练语言模型,集成了 Hugging Face AutoModel 兼容性,并提供高效的嵌入功能,旨在简化生物信息学任务中的蛋白质序列分析和表示学习。
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
本项目是使用mergekit对预训练语言模型进行合并的成果,结合了多个医学领域的预训练模型,为医学问答任务提供了更强大的支持,可有效提升医学问题回答的准确性和效率。
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Minthy
这是一个基于RouWei-0.8的实验性预训练模型,采用16通道潜在空间架构,使用Flux自动编码器。该模型旨在以较低计算成本实现更精细的图像细节,同时保留原有模型的知识和性能。
AbstractPhil
这是一个实验性的Stable Diffusion 1.5蒸馏模型,采用v-预测流匹配方法和几何引导的自适应块加权技术。目前处于研究阶段,训练正在进行中,结果尚未验证。
Ilya626
这是一个使用SLERP方法合并Vistral-24B-Instruct和Cydonia-24B-v4.2.0的预训练语言模型,专门优化支持俄语和英语的双语处理能力。模型通过智能融合两个基础模型的优势,在保持俄语能力的同时增强了英语性能。
线性回归MCP项目展示了使用Claude和模型上下文协议(MCP)的端到端机器学习工作流程,包括数据预处理、模型训练和评估。
这是一个为Scikit-learn模型提供标准化接口的MCP服务器,支持模型训练、评估、数据预处理及持久化等功能。
该项目展示了使用Claude和模型上下文协议(MCP)进行端到端机器学习工作流的线性回归模型训练。用户只需上传CSV数据集,系统即可自动完成数据预处理、模型训练和评估(RMSE计算)全流程。
一个将PyTorch Lightning框架通过结构化API暴露给工具、代理和编排系统的MCP服务器,支持训练、检查、验证、测试、预测和模型检查点管理等功能。