研究人员推出HarmonyGNN训练技术,显著提升图神经网络(GNN)准确性。GNN专门处理由节点和边组成的图形数据,广泛应用于药物发现、天气预测等领域。传统GNN训练依赖半监督学习,而新方法通过优化处理节点间同质性与异质性关系,提高了模型性能。
斯坦福大学团队在《自然·医学》发表研究,推出开源AI模型SleepFM。该模型通过分析一晚睡眠监测数据(整合脑电、心电、呼吸等深度生理信号),可预测未来6年健康状况与死亡风险。研究基于25年、6.5万人的临床数据训练,突破了传统智能手表的简单监测功能。
OpenAI完成新一代AI模型预训练,代号“Spud”,性能强大,预计数周内发布,有望显著加速全球经济。公司正经历战略收缩与组织重组,由菲吉·西莫领导,迈向通用人工智能(AGI)的关键节点。
小米发布自研语音合成大模型Xiaomi MiMo-V2-TTS,在可控、高表现力语音生成方面取得突破。该模型基于自研Audio Tokenizer及多码本架构,通过大规模预训练,实现从宏观风格到微观情绪的精准调节。它能在单句内完成语气转折与情感递变,高度还原人类自然韵律,支持多种语音风格。
提供多种预训练模型,支持多维度筛选,助力AI模型应用与开发。
一个用于LLM预训练的高效网络爬虫工具,专注于高效爬取高质量网页数据。
Magma 是一个能够理解和执行多模态输入的基础模型,可用于复杂任务和环境。
大规模深度循环语言模型的预训练代码,支持在4096个AMD GPU上运行。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
ai-sage
GigaChat3-10B-A1.8B 是 GigaChat 系列的高效对话模型,基于混合专家(MoE)架构,拥有 100 亿总参数和 18 亿活跃参数。它采用了创新的多头潜在注意力(MLA)和多令牌预测(MTP)技术,旨在优化推理吞吐量和生成速度。模型在 20T 令牌的多样化数据上训练,支持包括中文在内的 10 种语言,适用于需要快速响应的对话场景。
Shawon16
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集上预训练,并在一个未知的、可能与手语识别相关的数据集上进行了微调。模型在评估集上取得了78.11%的准确率,适用于视频分类任务。
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集预训练的基础上进行了微调,专门用于手语识别任务。模型在评估集上表现有待提升,准确率为0.0010。
TeichAI
本模型是基于Qwen3-4B-Thinking-2507基础模型,使用高推理难度的Gemini 3 Pro预览数据集进行蒸馏训练得到的模型。它专注于提升在编码和科学领域的复杂推理能力,通过特定数据集的训练,旨在将大型模型(如Gemini 3 Pro)的推理能力高效地迁移到较小规模的模型中。
Arko007
Zenyx_114M-Tiny-Edu-Instruct 是一个实验性的小型指令微调语言模型,拥有约1.14亿参数。它基于TinyEdu-50M基础模型构建,在FineWeb-Edu数据集上预训练,并在OpenHermes-2.5和CodeFeedback-Filtered混合数据集上进行了指令微调。该模型旨在探索极小架构下指令微调的极限,验证损失收敛至约1.04。
MedSwin
本项目是使用预训练语言模型融合技术创建的医学领域模型,通过融合多个医学相关的预训练模型,专门针对医学问答任务进行优化,提升在医学场景下的性能和效果。
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
GigaAM-v3是基于Conformer架构的俄语自动语音识别基础模型,拥有2.2-2.4亿参数。它是GigaAM系列的第三代模型,在70万小时俄语语音数据上使用HuBERT-CTC目标进行预训练,在广泛的俄语ASR领域提供最先进的性能。
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
GigaChat3-10B-A1.8B-base是GigaChat系列的基础预训练模型,采用混合专家(MoE)架构,总参数100亿,活跃参数18亿。模型集成了多头潜在注意力(MLA)和多令牌预测(MTP)技术,在推理时具备高吞吐量优势。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Synthyra
Profluent - E1 是对 Profluent Bio 公司 E1 模型的忠实实现,由 Synthyra 发布。它是一个专注于蛋白质序列处理的预训练语言模型,集成了 Hugging Face AutoModel 兼容性,并提供高效的嵌入功能,旨在简化生物信息学任务中的蛋白质序列分析和表示学习。
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
本项目是使用mergekit对预训练语言模型进行合并的成果,结合了多个医学领域的预训练模型,为医学问答任务提供了更强大的支持,可有效提升医学问题回答的准确性和效率。
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Minthy
这是一个基于RouWei-0.8的实验性预训练模型,采用16通道潜在空间架构,使用Flux自动编码器。该模型旨在以较低计算成本实现更精细的图像细节,同时保留原有模型的知识和性能。
AbstractPhil
这是一个实验性的Stable Diffusion 1.5蒸馏模型,采用v-预测流匹配方法和几何引导的自适应块加权技术。目前处于研究阶段,训练正在进行中,结果尚未验证。
Ilya626
这是一个使用SLERP方法合并Vistral-24B-Instruct和Cydonia-24B-v4.2.0的预训练语言模型,专门优化支持俄语和英语的双语处理能力。模型通过智能融合两个基础模型的优势,在保持俄语能力的同时增强了英语性能。
线性回归MCP项目展示了使用Claude和模型上下文协议(MCP)的端到端机器学习工作流程,包括数据预处理、模型训练和评估。
这是一个为Scikit-learn模型提供标准化接口的MCP服务器,支持模型训练、评估、数据预处理及持久化等功能。
该项目展示了使用Claude和模型上下文协议(MCP)进行端到端机器学习工作流的线性回归模型训练。用户只需上传CSV数据集,系统即可自动完成数据预处理、模型训练和评估(RMSE计算)全流程。
一个将PyTorch Lightning框架通过结构化API暴露给工具、代理和编排系统的MCP服务器,支持训练、检查、验证、测试、预测和模型检查点管理等功能。