科大讯飞宣布,其星火大模型在训练和推理效率上取得显著进展。不同于依赖英伟达显卡的传统方式,公司采用全国产算力方案,与华为合作克服技术难关,自2023年5月以来成功突破多个瓶颈。
印度拟推全球首个AI版权强制许可制度,允许企业自动使用合法公开作品训练模型,但需向中央机构缴纳版权费,再由机构分配给创作者。该制度涵盖文本、音乐、视听等各类作品,实行一站式缴费与自动授权机制。
OpenAI以全股票形式收购波兰初创公司Neptune,交易金额低于4亿美元。这是OpenAI 2025年第四次收购,旨在将Neptune的模型监控与调试能力整合进GPT训练基础设施。Neptune服务将于2026年第一季度前逐步关停,团队整体加入OpenAI。
南洋理工大学与上海人工智能实验室联合推出开源框架PhysX-Anything,仅需单张RGB图像即可生成包含几何、关节和物理参数的完整3D资产,可直接用于机器人训练。技术亮点包括:由粗到细的流程,先预测整体物理属性再细化部件;新型压缩3D表示方法,避免视觉优先导致的物理失真。
Alibaba
$6
Input tokens/M
$24
Output tokens/M
256
Context Length
$8
$240
52
$2
-
Moonshot
$4
$16
Baidu
32
Chatglm
128
Iflytek
$0.5
Huawei
Tencent
28
Google
$1.6
4
$12
Openai
$3.5
$10.5
16
Minimax
1k
Minthy
RouWei-0.8是基于Illustrious深度再训练的SDXL动漫模型,专注于提升提示遵从性、知识广度和性能表现。
amphion
墨提斯是一个面向统一语音生成的基础模型,采用预训练与微调范式,通过掩码生成建模在大规模无标注语音数据上进行预训练,再通过微调适配多样化语音生成任务。
2121-8
基于parler-tts-large-v1再训练的日语文本转语音模型,可生成高质量日语语音
nota-ai
BK-SDM-v2是通过压缩SD-v2.1-base获得的高效文本到图像合成模型,采用块移除知识蒸馏技术,在有限数据下实现有效的蒸馏再训练,为图像生成提供更轻量化的解决方案。
Cnam-LMSSC
EBEN 是一款针对法语语音的带宽扩展模型,专门用于处理体传导语音传感器(如喉部麦克风)采集的音频。它能够对低频、含噪的体传导语音进行降噪,并从低频内容中再生中高频成分,从而显著提升音频的清晰度和质量。该模型基于特定的非传统传感器数据训练,适用于特定领域内的语音增强任务。
Darna
该模型是基于DeTr架构在5000张表格检测图像上预训练后,再针对特定表格检测任务进行微调的版本
facebook
蒸馏版视觉Transformer模型,先在224x224分辨率下预训练,再于384x384分辨率下在ImageNet-1k上微调,通过蒸馏标记从教师模型中学习。
nielsr
BEiT是一种基于图像变换器的视觉模型,采用类似BERT的自监督预训练方法,先在ImageNet-22k上预训练和微调,再在ImageNet-1k上微调。
mbartolo
基于ELECTRA-Large架构的两阶段训练问答模型,先在合成对抗数据上训练,再在SQuAD和AdversarialQA数据集上微调
一个基于强化学习的智能电商对话代理系统,集成了本体推理、业务工具链、对话记忆和Gradio界面,通过Stable Baselines3 PPO算法实现从数据到训练再到部署的闭环学习,能自主优化购物助手的决策策略。