亚马逊建成超大规模数据中心,与Anthropic达成重磅合作:后者将在2025年底前部署100万颗定制AI芯片,用于训练下一代大模型。这一创纪录的采购标志着AI竞赛焦点转向基础设施,安全与算力共同驱动行业格局重塑。
在2025年GTC大会上,NVIDIA推出“Omniverse DSX Blueprint”设计方案,专为吉瓦级AI数据中心打造,被称为“AI工厂”。该方案基于Omniverse框架,支持从1亿瓦到10亿瓦不同规模,旨在高效训练和运行大型AI模型,满足日益增长的AI计算需求,是人工智能基础设施的重要进展。
英伟达发布OmniVinci全模态理解模型,在多项基准测试中领先顶尖模型19.05分。该模型仅用0.2万亿训练Token,数据效率达竞争对手六倍,旨在实现视觉、音频和文本的统一理解,推动机器多模态认知能力发展。
英伟达发布全模态理解模型OmniVinci,在基准测试中比顶尖模型高出19.05分,仅用1/6训练数据就实现卓越性能。该模型旨在让AI系统同时理解视觉、音频和文本,模拟人类多感官感知世界。
借助高亮标注界面训练AI,从各类文档中自动提取所需数据。
创建基于您自己数据训练的AI代理
Radal是一个无代码平台,可使用您自己的数据微调小型语言模型。连接数据集,通过可视化配置训练,并在几分钟内部署模型。
Steiner 是一个基于合成数据训练的推理模型,旨在探索多种推理路径并自主验证。
xai
$2.16
Input tokens/M
$3.6
Output tokens/M
1M
Context Length
$21.6
$108
alibaba
$0.65
131.1k
google
-
8.2k
mradermacher
Lamapi/next-12b 是一个120亿参数的多语言大语言模型,提供了多种量化版本,支持文本生成、问答、聊天等多种自然语言处理任务。该模型在多个领域数据集上训练,具有高效、轻量级的特点。
dario-mazzola
这是基于Google Gemma-3模型进行专门微调的文本生成模型,经过训练能够利用外部工具生成逐步计划。该模型在rewoo/planner_instruction_tuning_2k数据集上训练,使用LoRA技术进行高效微调。
jukofyork
基于command-a-03-2025-uncut模型微调的小说创作专用模型,使用高质量小说段落数据集训练,支持多语言小说创作任务
yueqis
这是基于Qwen-Coder-14B模型在网络数据集上进行微调的版本,专门针对网络数据场景优化,相比基础版本在特定网络任务中表现更优。模型经过3个epochs的训练,学习率为5e-5。
Nanbeige
Nanbeige4-3B-Thinking是第四代Nanbeige大语言模型家族中的30亿参数推理模型,通过提升数据质量和训练方法实现了先进的推理能力。该模型在数学、科学、创意写作、工具使用等多个领域表现出色,支持多阶段课程学习和强化学习训练。
mlfoundations-cua-dev
OLGA是基于Qwen3-VL-30B-A3B-Instruct构建的在线强化学习定位代理,采用33亿激活参数的专家混合模型。通过结合现有数据集、新数据收集、自动过滤和在线强化学习的新数据配方进行训练,在开源模型中实现了先进的定位性能。
shorecode
这是一个基于Google T5 Efficient Tiny架构的轻量级文本摘要生成模型,使用shorecode/summary-collection-200k-rows数据集训练,专门用于自动文本摘要任务,具有高效推理和资源占用低的特点。
aisingapore
Qwen-SEA-LION-v4-32B-IT是基于Qwen3-32B构建的东南亚语言大语言模型,专门针对东南亚地区进行了预训练和指令微调。该模型在包含7种东南亚语言的SEA-Pile v2语料库上继续预训练,并在800万对高质量问答数据上进行指令微调,具备强大的多语言理解和推理能力。
redis
这是一个基于Cross Encoder架构的语义重排序模型,专门针对Redis LangCache语义缓存场景进行微调。模型在LangCache Sentence Pairs数据集上训练,能够有效计算文本对的语义相似度得分,用于句子对分类和重排序任务。
neuralvfx
LibreFLUX-ControlNet是一个基于ControlNet架构的文本到图像生成模型,使用LibreFLUX作为基础Transformer模型。该模型在SA1B数据集上进行训练,能够根据文本提示和控制图像生成高质量的图像内容。
briaai
FIBO是首个专为长结构化描述训练的开源文本到图像模型,为可控性、可预测性和特征解耦设定了新标准。该模型拥有80亿参数,仅使用有许可的数据进行训练,支持专业工作流程需求。
abhi099k
基于DeBERTa-v3-large微调的AI文本检测模型,能够准确识别文本是由人类撰写还是AI生成,在自定义数据集上训练达到约97%的准确率。
mamei16
这是对mirth/chonky_distilbert_base_uncased_1模型的微调版本,通过在更多数据上进行训练来提升模型性能,主要用于文本分块和RAG相关任务。
MadhavRupala
Stable Diffusion v1-5是基于潜在扩散技术的文本到图像生成模型,能够根据文本描述生成逼真的图像。该模型在LAION-2B数据集上训练,支持英语文本输入,生成512x512分辨率的图像。
purrgpt-community
Tiny-Purr-350M是基于LiquidAI/LFM2-350M微调的对话模型,在Tiny-Purr-2数据集上训练,具有随意、友好且以猫为主题风格的对话回复能力,支持中英双语。
rand0nmr
Wan2.2是基础视频模型的重大升级版本,引入了混合专家(MoE)架构、融入精心策划的美学数据、在更大数据上训练以提升复杂运动生成能力。该模型支持生成480P和720P分辨率的5秒视频,在视频生成质量和性能上有显著提升。
unsloth
Apertus是一款参数规模达70B和8B的完全开放多语言语言模型,支持超1000种语言和长上下文,仅使用完全合规且开放的训练数据,性能可与闭源训练的模型相媲美。
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,提供70亿和80亿两种参数规模。该模型支持超过1000种语言,使用完全合规且开放的训练数据,性能可与闭源模型相媲美。Apertus在15T标记上进行预训练,采用分阶段课程训练方法,支持长达65,536个标记的上下文长度。
redponike
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,参数规模达80亿和700亿,支持超过1000种语言和长上下文处理,仅使用完全合规的开放训练数据,性能可与闭源模型相媲美。
birder-project
这是一个基于RoPE(旋转位置编码)的Vision Transformer模型,参数规模为150M,采用14x14的patch大小。该模型在约2100万张图像的多样化数据集上进行了预训练,可作为通用视觉特征提取器使用。
线性回归MCP项目展示了使用Claude和模型上下文协议(MCP)的端到端机器学习工作流程,包括数据预处理、模型训练和评估。
一个功能全面的国际象棋分析MCP服务器,集成Stockfish引擎评估、主题分析、开局数据库、谜题训练和游戏可视化,提供高级象棋分析和游戏改进功能
这是一个为Scikit-learn模型提供标准化接口的MCP服务器,支持模型训练、评估、数据预处理及持久化等功能。
该项目展示了使用Claude和模型上下文协议(MCP)进行端到端机器学习工作流的线性回归模型训练。用户只需上传CSV数据集,系统即可自动完成数据预处理、模型训练和评估(RMSE计算)全流程。
一个连接Hevy健身数据与语言模型的TypeScript服务器,通过MCP协议提供健身历史、训练进度和个人记录等工具。
该项目是一个Strava API与Model Context Protocol (MCP) SDK的集成方案,用于分析训练数据并提供个性化建议。
MCP工具是一个用于GitHub仓库中管理模型上下文的工具,支持版本追踪、数据集管理、性能记录和训练配置文档化。
该项目是一个Strava API与Model Context Protocol (MCP) SDK的集成工具,用于分析训练数据并提供个性化建议。支持训练活动分析、自动更新令牌和API请求速率限制等功能。
一个提供Whoop API访问的模型上下文协议服务器,支持查询运动周期、恢复状态、训练负荷等健康数据。
该项目是关于自动化医疗编码的研究,提供了在MIMIC-III和MIMIC-IV数据集上训练和评估医疗编码模型的代码,包括多种模型的实现和新数据集的划分。
该项目为AI助手提供访问Haskell文档的接口,通过实时检索Hackage上的权威文档,解决AI在Haskell领域训练数据不足的问题,提升代码生成和解释的准确性。