前OpenAI首席技术官Mira Murati领导的团队推出“在线策略蒸馏”技术,仅用80亿参数的小模型即可达到32B大模型70%的性能,训练成本降低90%,效率提升50-100倍,让中小企业和个人开发者能以低成本获得高性能模型。
Thinking Machine团队推出在线策略蒸馏训练法,让小模型在特定任务上训练效率提升50-100倍。该方法融合强化学习与监督学习,解决传统AI训练中强化学习低效、监督学习不灵活的难题,打造"AI教练"新模式。成果获OpenAI前CTO转发,引发业界高度关注。
视觉中国在线上会议披露AI业务进展,已与多家AIGC企业合作研发“可商用+可溯源”视觉创意大模型,并获阿里、微软等合规数据服务订单。公司定位为AI模型训练提供高质量、版权合规数据资源,拥有超7亿条内容数据用于视觉训练。
清华大学联合多家机构开源MOSS-TTSD语音对话生成模型,基于Qwen3-1.7B-base训练,支持中英双语超长语音生成。创新采用XY-Tokenizer技术,实现1kbps低比特率下保留语音质量,具备零样本音色克隆和声音事件控制能力。在中文指标上优于MoonCast等开源模型,支持最长960秒语音生成,避免拼接不自然。已开放模型权重、API及在线Demo,适用于播客、有声书等场景,未来将优化多说话人切换和情感表达。
Alibaba
$6
Input tokens/M
$24
Output tokens/M
256
Context Length
$8
$240
52
$2
-
Moonshot
$4
$16
Baidu
32
Chatglm
128
Iflytek
$0.5
Huawei
Tencent
28
Google
$1.6
4
Stepfun
$12
Openai
$3.5
$10.5
16
mlfoundations-cua-dev
OLGA是基于Qwen3-VL-30B-A3B-Instruct构建的在线强化学习定位代理,采用33亿激活参数的专家混合模型。通过结合现有数据集、新数据收集、自动过滤和在线强化学习的新数据配方进行训练,在开源模型中实现了先进的定位性能。
worstcoder
这是一个基于DiffusionNFT方法对SD3.5-Medium进行微调的LoRA模型,采用创新的在线强化学习范式,在文本到图像生成任务上表现出色,显著提升了生成质量和训练效率。
chrisrtt
这是一个基于GBERT模型微调的德语仇恨言论多类别分类模型,专门用于识别和分析德语在线期刊中的仇恨言论内容。该模型整合了多个数据集进行训练,能够可靠地将评论分类为无仇恨言论、其他仇恨言论、政治仇恨言论、种族主义仇恨言论和性别歧视仇恨言论等类别。
MilaNLProc
该模型是MilaNLP团队为SemEval-2023任务10(可解释在线性别歧视检测)训练的领域适配模型,基于DeBERTa-v3-large进行Reddit和Gab语料的领域适应训练
nghuyong
文心健康是一款基于中文生物医学领域文本预训练的语言模型,训练数据来源于脱敏处理的在线医患对话、电子病历及医学教材等专业文本。