相关AI新闻推荐

英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升
近日,英伟达在 Hugging Face 平台上推出了其最新的自动语音识别(ASR)模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升,还将开源理念与商业应用相结合,吸引了广泛关注。 超强转录能力Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。据称,该模型能够在仅仅一秒内完成60分钟音频的转录,极大提高了语音处理的速度。这一效率让开发者和企业在构建语音识别和转录服务时,能够获得更快的反馈和更高的生产力。在技术参数上,Parakeet-TDT-0.6B-V2拥有6亿个参数,结合了 Fas

SoundHound AI(SOUN)获得重要 AIOps 认可,但股价目标被下调
最近,SoundHound AI, Inc.(NASDAQ:SOUN)在人工智能领域获得了显著认可,特别是在 AIOps(人工智能运维)方面的表现。然而,尽管在技术上取得了一定的成就,市场对其未来的预期却出现了下调。这一消息引发了投资者的广泛关注。在当前的市场环境中,人工智能技术的应用愈发重要,SoundHound AI 凭借其创新的语音识别和自然语言处理技术,正逐渐在行业中崭露头角。该公司不仅在产品性能上不断进步,而且在推动企业运维智能化方面取得了一系列成就。其独特的 AI 系统能够帮助企业实时分析和

亚马逊推新一代AI语音模型Nova Sonic,捕捉语气、语调变化和节奏
亚马逊近日推出了一款新型 AI 语音模型 ——Nova Sonic,旨在提升其语音助手 Alexa + 的性能。Nova Sonic 被设计用于本地处理语音并生成自然流畅的回复,标志着亚马逊在语音识别技术领域的又一次突破。Nova Sonic 采取了一种全新的整合方式,将语音理解和生成的能力统一到一个模型中。这一创新不仅简化了语音应用的开发过程,还能根据语音输入的声学背景(如语调和风格)来调整生成的语音响应,从而实现更加自然的对话。Nova Sonic 甚至能够理解人类对话中的细微之处,包括说话者的自然停

百度文小言全面升级,推出多模型融合调度与新语音大模型
在刚刚结束的百度 AI DAY 上,百度文小言正式宣布了品牌焕新和功能升级的消息。此次升级不仅包括全新的视觉形象,更重要的是引入了多模型融合调度技术,这将极大增强其语音识别和图片问答的能力。文小言的多模型融合调度是本次升级的核心亮点。通过整合百度自研的文心 X1、文心4.5等模型,并引入了诸如 DeepSeek-R1和可灵等第三方优质模型,用户可以根据需求灵活选择使用最适合的模型。用户只需轻松点击 “自动模式”,系统就会智能选择最佳模型组合,显著提高响应速度与任务处

阿里通义实验室语音团队负责人鄢志杰离职
据tech星球消息,阿里通义实验室语音团队负责人鄢志杰已于 2 月 15 日正式离职,其职级为阿里原P序列体系中的P10 级别。鄢志杰是智能语音领域专家, 2003 年进入中科大语音实验室攻读博士,师从科大讯飞创始人王仁华教授。 2008 年获博士学位后,他在微软亚洲研究院语音组担任主管研究员至 2015 年,主要研究语音识别、语音合成等领域。学术上,他发表多篇顶级论文,拥有多项专利。图源备注:图片由AI生成,图片授权服务商Midjourney2015 年加入阿里巴巴后,鄢志杰曾担任IDST智能语音交互

一加13手机推新ColorOS 15.0.0.701,首发AIGC合成语音识别功能
一加13手机迎来了 ColorOS15.0.0.701版本的重大升级。这次更新的系统包大小约为1.33GB,除了诸多优化和修复,还引入了行业首发的 AIGC 合成语音识别功能,为用户的安全与便利提供了全新保障。此次更新中,桌面功能得到了显著改善,用户现在可以通过拖拽的方式轻松调整文件夹的大小至1×2或2×1的尺寸。同时,在桌面四列布局下,用户可以在 dock 栏中放置多达五个应用,使得手机的操作更加灵活方便。此外,通知和控制中心的动画流畅度也进行了优化,让用户的操作体验更加丝滑顺畅。在安

小红书开源的语音识别模型FireRedASR,中文识别准确率优越
在语音识别领域,中文识别的技术发展一直备受关注。近日,小红书的 FireRed 团队发布了一个全新的开源语音识别模型 ——FireRedASR。这个基于大模型的语音识别系统在多个标准测试集上取得了优异的成绩,标志着中文语音识别技术的一次重大突破。FireRedASR 的核心指标是字错误率(CER),该指标越低,表示模型的识别效果越好。在最近的公开测试中,FireRedASR 的 CER 达到了3.05%,较之前的最佳模型 Seed-ASR 降低了8.4%。这一结果显示出 FireRed 团队在语音识别技术上的创新能力。FireRedASR 模型分

中文视觉语音开源模型VITA-1.5发布 具备类GPT 4o高级语音和视觉能力
最近,多模态大型语言模型(MLLM)取得了显著进展,特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及,语音模态的重要性也日益凸显,尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介,还能显著提高交互的自然性和便利性。然而,由于视觉和语音数据在本质上的差异,将它们整合到 MLLM 中并非易事。例如,视觉数据传达空间信息,而语音数据则传达时间序列中的动态变化。这些根本性的差异给两种模态的同步优化带来了挑战,常常导致训练过程中的冲突。此

豆包大模型发布2024年8个关键瞬间:从AI新星到全面突破
今日,豆包大模型官方发布豆包大模型的8个关键时刻!自2024年5月15日首次亮相以来,豆包大模型已破土而出,历经230天加速成长。从初步的学语,到懵懂的世界探索,再到为创作者绘制奇幻梦境,这一路的每一步都充满了挑战与成就。1. 语音识别与情感表达的突破豆包大模型在7月实现了语音识别领域的一大突破:能听懂超过20种方言的混合对话,并且具备边听边思考的能力。不仅如此,它还学会了在对话中表达情感,能在交互中自如地插话,甚至保留吞音和口音等人类语言习惯。这背后的核

Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型
Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中,这一设计消除了传统系统中各个组件链接所带来的低效率和延迟,特别适用于计算资源有限的设备。主要亮点:处理速度: OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上,使用Nexa SDK并采用FP16GGUF格式时,模型可实现每秒35.23个令牌的处理速度,而在Q4_K_M GGUF格式下,