开源语音转字幕软件 Whisper 可识别多种语种
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

美团LongCat团队开源了最新AI模型LongCat-Flash-Thinking-2601,该模型在智能体搜索、工具调用及推理等多项核心评测中达到开源模型最高水平。其核心优势在于卓越的工具调用能力,能有效处理依赖工具的复杂任务,显著降低真实场景中对新工具的适应成本。
千问App接入高德扫街榜,推出AI语音代订餐厅功能。用户只需语音说明位置、预算、包厢及家庭友好度等需求,系统即可基于真实商户数据精准筛选。选定后,AI将模拟真人语调自动致电商家沟通。

阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测中夺冠,以96.4%准确率超越多个主流闭源模型,刷新历史纪录。
韩国政府斥巨资推动的“本土大模型竞赛”陷入争议。五家决赛入围企业中,至少三家被指使用了中国和美国公司的开源代码,包括智谱AI、阿里巴巴、OpenAI等,引发对“国产AI是否真正自主”的激烈辩论。该项目旨在三年内打造纯韩国技术大模型,但代码依赖问题使其目标受到质疑。
公司发布新一代开源医疗大模型MedGemma 1.5及临床语音识别模型MedASR,强化医疗技术布局。MedGemma 1.5基于Gemma系列,重点提升医学影像理解能力,可处理文本病历、检验报告、医学文献及X光、CT等影像数据,辅助初步筛查与诊断。

韩国政府主导的“自主AI基础模型”竞赛陷入技术争议,多家入围企业被发现使用外国开源代码,其中中国模型为主要效仿对象。该竞赛旨在打造韩国本土AI国家队,但技术自主性面临挑战。
唐钢推出生产排程大模型,融合历史数据与智能算法,实现订单到交付全流程智能调度。系统实时分析产线、库存与设备负荷,动态优化生产路径,提升效率20%,降低库存,提高订单准时率。模型正向绿色智造演进,将纳入能耗、碳排放等指标。
智谱AI与华为联合开源新一代图像生成大模型GLM-Image,性能达国际领先水平。该模型全程基于国产昇腾AI芯片与昇思框架构建,从数据处理到推理全流程实现国产化,摆脱对国外软硬件的依赖,验证了国产技术支撑尖端AI研发的能力。
百川智能发布新一代开源医疗大模型Baichuan-M3,在多项医学评测中综合表现超越GPT-5.2,部分任务优于人类医生平均水平。该模型专为医疗场景深度优化,融合海量医学数据,标志着国产大模型在垂直领域实现关键突破。

亚马逊推出AI可穿戴设备Bee,操作简便,一键录音。用户可通过应用自定义按钮功能,如双击标记对话片段、处理对话或同时操作,长按可留语音备忘录或与AI助手对话。Bee具备监听、录音和转写功能,独特之处在于其便捷的交互设计。