清华、斯坦福、加大开源,图片生成高精准3D模型

AIGC开放社区
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
【AI日报速览】1.字节跳动TRAE2.0编程工具将新增语音交互功能,提升开发效率;2.Mistral推出开源音频模型Voxtral,支持多语言;3.月之暗面回应Kimi K2API速度问题,正在优化系统;4.昆仑万维发布AgentOrchestra多智能体协作框架;5.OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6.Kimi-2开源模型性能超越GPT-4.1;7.TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8.字节跳动Seed团队开源POLARIS强化学习方法;9.ima知识库推出网页版,支持浏览器访问。
Kimi-2人工智能模型正式上线,成为AI领域重要里程碑。这款开源混合专家模型拥有32B活跃参数,在代码生成和代理能力测试中表现优异,超越Claude Opus4和GPT-4.1,位列全球第三。其API定价仅0.15美元/百万tokens,极具价格优势。目前已集成至Kimi应用程序供免费体验,API服务也已开放。Kimi-2的上线将推动开源AI生态发展,在智能助手、代码生成等领域具有广泛应用前景。
谷歌升级AI笔记应用NotebookLM,新增公共笔记库功能。该库整合《经济学人》等权威内容及专家笔记,支持用户提问并获取AI摘要。新增音频概述和思维导图功能,首批资源涵盖长寿指南、旅游攻略等实用内容。目前平台已积累超14万用户笔记,通过AI技术提升知识管理效率,强化信息共享生态。
智能语音初创公司Willow完成420万美元天使轮融资,将用于研发语音操作系统。其核心技术TNT结合深度学习和自然语言处理,能精准解析复杂语音指令,实现跨设备控制。团队从医疗创业失败转型而来,经历10次产品迭代后锁定语音交互赛道。面对亚马逊等巨头的竞争,Willow采取开源模块化策略,计划开放API构建开发者生态。虽然融资成功,但公司仍需在多语言支持、隐私保护等方面持续优化。
近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。 实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消费级显卡上轻松部署,大大降低了应用门槛。
近日,昆仑万维Skywork与南洋理工大学携手,正式推出了创新的分层多智能体协作框架——AgentOrchestra,这一框架被誉为“AI交响乐团”,标志着智能体协作在通用人工智能领域迈出了重要一步。面对现实世界中复杂任务对单一模型或智能体的挑战,AgentOrchestra通过模仿交响乐团的协作模式,让各具专长的智能体协同工作,共同攻克难题。 传统上,通用AI模型和单一智能体系统在处理多步骤推理、跨模态信息整合等复杂任务时显得力不从心。AgentOrchestra的诞生,正是为了解决这些问题。该框架采用分层架构,顶层“指挥”智能体负责全局规划和任务拆解,将子任务分配给具备不同专长的底层“乐手”智能体,如信息检索大师Deep Researcher Agent、网页操作能手Browser Use Agent和深
Kimi K2模型在创意写作领域表现突出,在短篇小说创作评估中超越o3-Pro夺冠。该开源模型由阿里支持的Moonshot团队开发,在文学压缩、隐喻创新等方面表现优异,部分作品接近出版水平。其低成本优势(每百万输入令牌0.15美元)吸引众多开发者,指令遵循能力使其能精准捕捉创作意图。用户反馈其文本更具人性化,逻辑连贯性优于其他模型,但在情感深度和多语言表现上仍有提升空间。这一突破为AI创意写作树立新标杆,或将影响行业开源计划。
法国Mistral公司发布开源音频模型Voxtral,提供经济高效的语音AI解决方案。该模型基于Mistral Small3.1开发,支持30分钟音频转录和40分钟内容理解,具备多语言处理能力。提供三种版本:240亿参数的Voxtral Small适用于生产环境;30亿参数的Voxtral Mini适合本地部署;3亿参数的Voxtral Mini Transcribe专注转录场景。API起价0.001美元/分钟,性能超越Whisper但价格更低。此次发布延续了Mistral推动开源AI的战略,公司近期正寻求10亿美元融资。
TRAE.ai推出Kimi-K2模型和Grok-4(Beta)服务。Kimi-K2基于MoE架构,在代码生成和数学推理表现优异,性能接近GPT-4.1等顶级模型。用户可通过简单三步快速接入使用。国际版新增Grok-4(Beta)测试,目前提供包括Claude、Gemini、GPT等主流大模型阵容,满足不同场景需求。
【AI日报热点速览】1.美图RoboNeo上线全能AI影像处理工具,支持自然语言修图、品牌设计和网页制作;2.Unsloth AI发布1.8bit量化Kimi K2模型,体积缩小80%性能不变;3.谷歌Gemini嵌入模型登顶MTEB排行榜;4.Amazon推出AI代码编辑器Kiro,支持Claude 4等模型;5.Claude新增工具目录功能提升AI工作流效率;6.MiniMax完成3亿美元融资,估值超40亿美元;7.UTCP协议发布,实现AI代理直接调用工具;8.Grok推出动漫AI伴侣功能;9.Grok网页版上线语音模式;10.Kimi K2在OpenRouter市场份额超越xAI。