MimicGen:合成数据助力AI模仿学习

新智元
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
Claude AI功能升级,新增多格式文件上传能力。最新版本支持PDF、图像、代码等文件类型,实现与AI应用的无缝集成。升级后的系统能进行文档分析、图像识别和代码优化等复杂任务,并优化了用户界面和数据处理流程。该功能依托Claude4、Claude3.7Sonnet等先进AI模型,可精准处理多模态数据。此次更新显著提升了AI与数据的协作效率,为专业和普通用户带来更强大的智能分析能力。
清华大学联合多家机构开源MOSS-TTSD语音对话生成模型,基于Qwen3-1.7B-base训练,支持中英双语超长语音生成。创新采用XY-Tokenizer技术,实现1kbps低比特率下保留语音质量,具备零样本音色克隆和声音事件控制能力。在中文指标上优于MoonCast等开源模型,支持最长960秒语音生成,避免拼接不自然。已开放模型权重、API及在线Demo,适用于播客、有声书等场景,未来将优化多说话人切换和情感表达。
2025RoboCup机器人世界杯人形组成人组比赛中,清华火神队凭借字节跳动Seed团队与清华大学联合研发的"HumanoidKick"算法首次夺冠。该算法通过视觉深度强化学习,实现了从找球到踢球的完整流程,使机器人能实时响应场上变化。赛事创办于1997年,是机器人技术领域的顶级赛事。清华火神队在小组赛和淘汰赛中均以大比分获胜,最终5:2夺冠。这一突破标志着中国在机器人技术领域取得重要进展,未来团队将继续探索智能机器人系统的研发与应用。
旧金山AI初创公司Deep Cogito发布Cogito v2系列开源大模型,主打"机器直觉"与自我改进能力。该系列包含4款70B至671B参数的密集/混合专家模型,其中旗舰671B MoE模型推理效率比DeepSeek R1提升60%,性能接近Claude4Opus。其核心技术是通过"内省式推理"将推理路径内化为模型权重,实现边用边学的持续进化。测试显示该模型能以更短推理链解决数学、法律等复杂问题。公司以不足350万美元低成本训练8个模型,坚持开源策略,支持FP8量化部署,致力于打造"会进化的模型体系"。
OpenAI在挪威纳尔维克建立欧洲首个AI数据中心"Stargate Norway",这是其全球布局的重要一步。该数据中心采用可再生能源供电,初期容量230兆瓦,计划2026年前部署10万块NVIDIA GPU。项目采用液冷技术提高能效,并回收余热支持低碳企业。OpenAI将优先为挪威初创企业提供计算资源,同时向欧洲其他地区开放剩余算力。此举旨在推动欧洲AI创新,配合挪威政府的主权AI战略,延续了OpenAI近期在欧洲的扩张步伐。
智联招聘推出AI版,采用阿里通义千问3技术,人岗匹配率突破70%。传统关键词匹配方式存在局限性,新AI智能体能深度分析简历与岗位信息,构建精准求职者画像。用户可通过对话查询招聘进度,实现更智能的求职体验。目前平台注册用户超3.74亿,合作企业1436万家。AI技术正推动招聘行业变革,未来将向更智能化、个性化方向发展。
Meta CEO扎克伯格高薪挖角AI人才,向穆拉蒂新创公司TML12名员工开出最高10亿美元薪酬方案,但无人接受。Meta通讯总监否认部分报道细节。扎克伯格通过WhatsApp直接联系候选人,承诺打造世界级AI助手,并计划以开源策略对抗OpenAI。但Meta的领导风格和模糊的产品路线让人才却步,而TML刚完成120亿美元融资,研究人员更看重发展前景而非高薪。
AI视频生成公司Luma和Runway正拓展业务版图,从影视制作转向机器人和自动驾驶领域。Luma凭借3D AI世界模型技术,致力于提升机器人环境感知能力;Runway则瞄准视频游戏市场,计划用AI革新游戏内容制作。这一战略调整展现了AI视频技术在跨行业应用中的潜力,也预示着AI企业营收多元化的新趋势。
昆仑万维开源多模态模型Skywork UniPic,集成图像理解、生成与编辑三大功能。该1.5B参数的轻量级模型采用自回归架构,基于大规模数据端到端预训练,性能接近大型模型。其创新点在于统一处理多模态任务,支持图文理解、文本生成图像及风格转绘等操作。团队通过精细化数据构建和多阶段训练优化模型表现,在指令遵循等任务中展现优异能力。提供完整技术文档和代码,降低开发者使用门槛。
昆仑万维发布开源多模态预训练模型Skywork UniPic,整合图像理解、文生图和图像编辑三大功能。该模型采用自回归训练方式,基于大规模高质量数据训练,具备良好的通用性和迁移能力。其开源特性便于开发者二次创新,可广泛应用于内容创作和行业场景。这是昆仑万维在AI领域的重要布局,将推动多模态技术发展和应用普及。