根据国家数据局数据,到2025年中国AI训练与推理数据总量预计达199.48EB,同比增长42.86%。其中推理数据首次超越训练数据,达101.34EB,显示AI应用在各行业的广泛性。同时,系统软件和AI产生的数据量将达26.92ZB。
英伟达全球副总裁吴新宙近日透露,该公司正以“五层蛋糕”全栈生态布局自动驾驶,涵盖芯片、系统、算法、数据与云平台。L4级自动驾驶预计2025年实现落地。英伟达从芯片商转型为“三台计算机”模式,推动车端推理、训练与仿真协同,加速物理AI在出行领域的商业化进程。
Meta推出“模型能力倡议”(MCI),计划利用员工工作行为数据加速大语言模型训练。CEO扎克伯格和首席AI官宣布新模型“Muse Spark”持续进步,但为加快进程,将整合日常工作数据。
Meta被曝通过追踪软件收集员工电脑操作数据,旨在训练AI模型模拟人类办公行为,以推进其“自主AI代理”计划。
无需代码,基于自有数据训练智能AI聊天机器人,快速解决业务问题。
借助高亮标注界面训练AI,从各类文档中自动提取所需数据。
创建基于您自己数据训练的AI代理
一款专为健身爱好者设计的健身计划与追踪应用,支持AI定制训练和健康数据同步。
Openai
-
Input tokens/M
Output tokens/M
Context Length
Anthropic
$105
$525
200
$21
Google
$0.7
$2.8
1k
Alibaba
$6
$24
256
$8
$240
52
$2
Moonshot
$4
$16
Bytedance
Baidu
32
prithivMLmods
Olmo-3-7B-Instruct-AIO-GGUF是基于Allen Institute for AI开发的Olmo-3-7B-Instruct模型的GGUF量化版本。这是一个70亿参数的自回归语言模型,通过监督微调和直接偏好优化在Tulu 2和UltraFeedback等数据集上训练,在问答和指令遵循方面表现出色。
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
Olmo 3 7B RL-Zero Math是Allen AI开发的专为数学推理任务优化的70亿参数语言模型,采用RL-Zero强化学习方法在数学数据集上进行训练,能有效提升数学推理能力。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
DakkaWolf
Trouper-12B GGUF是由DarwinAnim8or基于原始模型开发的文本生成模型,专门针对角色扮演和创意写作场景进行了优化。该模型从Mistral-Nemo-Base-12B微调而来,使用了自定义的'Actors'数据集进行训练,生成的文本更加自然,避免了常见的'AI语言'特征。
Olmo 3是Allen Institute for AI (Ai2)开发的全新32B参数语言模型家族,包含Base、Instruct和Think等变体。该模型基于Dolma 3数据集训练,支持65,536的长上下文处理,旨在推动语言模型科学发展。模型完全开源,遵循Apache 2.0许可证。
Olmo-3-7B-Think-SFT是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现优异。该模型基于Dolma 3数据集预训练,并在Dolci数据集上进行了后续训练。
abhi099k
基于DeBERTa-v3-large微调的AI文本检测模型,能够准确识别文本是由人类撰写还是AI生成,在自定义数据集上训练达到约97%的准确率。
unsloth
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,提供70亿和80亿两种参数规模。该模型支持超过1000种语言,使用完全合规且开放的训练数据,性能可与闭源模型相媲美。Apertus在15T标记上进行预训练,采用分阶段课程训练方法,支持长达65,536个标记的上下文长度。
redponike
Apertus是一款由瑞士AI开发的全开放多语言大语言模型,参数规模达80亿和700亿,支持超过1000种语言和长上下文处理,仅使用完全合规的开放训练数据,性能可与闭源模型相媲美。
Olmo 3是由Allen Institute for AI开发的全新7B参数语言模型系列,基于Transformer架构,在Dolma 3数据集上训练,旨在推动语言模型科学发展。模型提供Base、Instruct和Think等多种变体,支持最长65,536的上下文长度。
kurakurai
Luth-LFM2-700M 是基于 Liquid AI 的 LFM2-700M 模型进行法语微调的版本。该模型在 Luth-SFT 数据集上训练,显著提升了法语指令遵循、数学和常识推理能力,同时保持了原有的英语能力。
kshitijthakkar
LoggenixMoE133M是一款轻量级混合专家(MoE)因果语言模型,总参数量133M,活跃参数量80M。该模型在包含根因分析、代码生成和推理任务的自定义数据集上从头训练,支持智能体能力特殊标记,适合边缘设备部署和专业AI智能体构建。
zai-org
GLM-4-9B-0414是智谱AI推出的90亿参数大语言模型,在文本生成领域表现优异。该模型在15T高质量数据上进行预训练,具备强大的文本生成能力,可应用于代码编写、故事创作、报告生成等多种场景,在效率和效果之间取得了出色平衡。
Mungert
Granite-3.2-2B-Instruct是一个20亿参数的长上下文AI模型,专为思维推理能力微调。基于Granite-3.1-2B-Instruct构建,通过混合使用宽松许可的开源数据集和内部生成的合成数据训练,旨在提升推理任务表现。
FreedomIntelligence
Soundwave是一款突破语音与文本界限的语音转文本模型,仅通过1万小时数据训练就在语音翻译和AIR-Bench语音任务中展现出卓越性能。
aiwithoutborders-xyz
这是一个在法医应用中检测AI生成图像的视觉Transformer模型,训练于迄今为止最大的数据集。
buildborderless
这是一个基于视觉Transformer架构的图像分类模型,专门用于检测AI生成的图像,为法医应用提供支持。模型在包含270万张图像的大规模数据集上训练,涵盖15+个生成器和4600+个模型。
speechbrain
这是一个基于25000小时英文语音数据集训练的大规模自动语音识别模型,采用Conformer架构,由三星AI剑桥中心贡献。模型参数量达4.8亿,在多个测试集上表现出色,验证集WER为6.8%,测试集WER为7.5%。
THUDM
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,具备多语言支持等先进特性。
NotHumanAllowed是一个多智能体认知数据集生成引擎,通过38个专业AI代理进行多轮审议,产生可审计的推理轨迹和结构化知识记录,用于训练下一代AI系统。
这是一个通过Model Context Protocol(MCP)将TrainingPeaks训练数据平台连接到Claude等AI助手的服务器。它允许用户通过自然语言查询训练数据、分析训练负荷、比较功率数据并跟踪体能趋势,无需等待官方API审批,使用安全的Cookie认证。
该项目为AI助手提供访问Haskell文档的接口,通过实时检索Hackage上的权威文档,解决AI在Haskell领域训练数据不足的问题,提升代码生成和解释的准确性。