MyShell AI开发高质量语音合成工具MeloTTS 支持中英混合发音
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
AI初创公司Fundamental结束隐身,宣布完成2.55亿美元A轮融资,投后估值达12亿美元。本轮由Oak HC/FT等多家机构领投,Perplexity和Datadog的CEO等也以个人身份参与。公司核心产品为基础模型Nexus,旨在与ChatGPT等主流大语言模型竞争。
ElevenLabs完成5亿美元D轮融资,估值达110亿美元,成为全球最高估值AI语音服务商。本轮由红杉资本领投,a16z、ICONIQ Capital等跟投,显示资本市场对语音AI及该公司企业级业务增长的高度认可。

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、全球首创“主体参考”:可灵AI3.0正式发布,15秒长视频开启AI导演时代可灵AI3.0的发布标志着AI视频创作进入了一个全新的时代,通过多模态输入输出的一体化,重新定义了AI视频的创作工作流,让每个人都能成为导演。8、我国生成式AI用户规模破6亿:普及率超四成,算力水平跃居全球前列我国生成式人工智能用户规模迅速增长,普及率显著提升,同时算力基础设施也取得突破性进展,为AI技术的广泛应用提供了坚实支撑。

法国Mistral AI推出Voxtral Transcribe2语音转文字模型系列,包含两款针对不同场景优化的模型。其中,Voxtral Realtime实时转录模型拥有40亿参数,采用流式架构,能在音频输入瞬间同步转录,显著降低延迟和成本。
ElevenLabs完成5亿美元融资,由红杉资本领投,估值飙升至110亿美元,较年初增长超三倍。红杉合伙人将加入董事会,现有股东跟投。这反映了资本市场对语音AI领域的高度认可。
上海AI实验室发布全球最大开源科学多模态模型“书生 Intern-S1-Pro”,参数达1万亿。该模型基于“通专融合”架构SAGE,在科学能力上达到国际领先水平,尤其在复杂学科评测中展现出卓越的逻辑推理能力。

智谱AI开源模型GLM-4.7-Flash发布两周,在Hugging Face下载量突破100万。这款30B-A3B混合思考模型性能强劲,在SWE-bench Verified和τ²-Bench等测试中,综合表现超越gpt-oss-20b及Qwen3-30B-A3B-Thinking-2507,在同尺寸模型中领先。
卡内基梅隆大学团队开发出基于大语言模型的3D打印实时纠错系统。该系统模仿交响乐团,由一个“指挥家”智能体协调四个专业智能体,自动检测并修复打印过程中的微小参数波动导致的错误,解决了传统开环系统易失败的问题。

苹果与特拉维夫大学合作推出“原则性粗粒度”技术,通过改变AI语音合成中的验证方式,在保持音质无损的同时,将生成速度提升约40%,突破了传统自回归模型逐个预测声音片段的效率瓶颈。
谷歌CEO承认对AI系统运作机制不完全掌控,揭示AI黑箱谜团。大型语言模型通过海量数据训练展现出“涌现行为”,如谷歌PaLM模型仅少量数据即可处理孟加拉语翻译,体现AI从训练到“自学”的跃迁。