OpenAI宣布ChatGPT现在可以「看、听、说」

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
【AI日报】今日热点速览:1.百度推出无广告智能搜索助手Tizzy.ai,提供影视资源聚合和深度思考功能;2.12306开源火车票查询引擎上线,支持实时余票和智能时间输入;3.ChatGPT录音模式向Plus用户开放,支持语音交互和内容总结;4.开源SaaS模板FireGEO助力开发者5分钟快速搭建Web应用;5.ReadMeX免费生成GitHub文档工具发布;6.百度AI助手新增视频通话功能;7.Jackywine推出可成长AI数字伴侣"贝拉";8.OpenAI将推出Agent Mode实现智能报告生成;9.MidJourney计划开放企业级API;10.MiniMax推出自然语言生成电商网站功能;11.Windsurf重新上线Claude Sonnet4模型。
特斯拉CEO马斯克确认将为车载AI助手Grok新增"Hey Grok"语音唤醒功能,用户无需手动操作即可激活。该功能目前仅支持搭载AMD芯片的特斯拉车型,需连接高级服务或Wi-Fi使用。虽然Grok已上线,但尚不能直接控制车辆功能。马斯克表示该语音功能正在开发中,将很快推送。这是特斯拉在AI领域的重要进展,未来或将推出更多智能功能,提升驾驶体验。
OpenAI为macOS付费用户推出ChatGPT音频转录功能,支持120分钟录音并自动生成带时间戳的文字记录和智能摘要。该功能仅限GPT-4o订阅用户使用,可同时录制系统音频和麦克风输入,转录后自动删除原始录音且不用于模型训练(除非用户开启改进选项)。企业/教育用户默认不参与训练,管理员可关闭此功能。目前暂不支持Windows/Android及网页版。
OpenAI计划通过ChatGPT平台直接销售商品并收取佣金,正与Shopify合作开发内置结账系统。这一电商功能将开辟新收入来源,使免费用户也能贡献利润,同时挑战Google的搜索商业模式。目前该功能仍在开发中,已向合作伙伴展示早期版本。此举标志着OpenAI从订阅服务向佣金模式的战略转型。
OpenAI全面推出ChatGPT录音模式,Plus用户可在macOS桌面端使用该功能。该模式支持语音实时转录、内容总结,特别适合会议记录、头脑风暴等场景,具有端侧处理确保隐私的特点。目前仅限macOS平台,未来可能扩展到移动端。这一功能展现了OpenAI在语音交互领域的技术优势,为AI生产力应用树立新标杆。
OpenAI即将推出革命性的"Agent Mode",整合Operator浏览器操作和Deep Research文件分析功能。该模式支持自动化网页操作(如填表、搜索)和云端文件分析(支持Google Drive等平台),能生成专业报告。核心技术采用CUA和o3模型,具备GUI交互和数据分析能力,并配备多重安全防护。适用于个人旅行规划、企业市场分析等场景,未来将向开发者开放API。这标志着AI从对话工具向多功能代理的转型,将重塑工作效率。
华人团队推出开源AI操作系统NeuralOS,实现了卡帕西提出的"AI时代GUI"构想。该系统通过RNN和神经渲染器两大模块,能实时预测并模拟Windows操作界面,准确显示用户操作反馈。开发团队利用大量操作录像训练系统,目前可精准预测用户操作,但在处理快速键盘输入时仍有不足。NeuralOS已提供在线体验版本,展示了未来由AI动态生成的操作系统新体验。随着代码开源,这一创新技术有望推动人机交互领域的变革。
OpenAI前CTO Mira Murati创立的AI公司Thinking Machines Lab完成20亿美元种子轮融资,估值达120亿美元,创AI领域早期融资纪录。这家总部位于旧金山的公司定位为公共利益公司,专注开发多模态AI系统,旨在实现自然的人机交互。公司汇集OpenAI、Meta等顶尖人才,计划推出包含开源组件的首款产品,推动AI对齐研究。Murati强调将构建透明、符合人类价值观的通用智能系统。
智能语音初创公司Willow完成420万美元天使轮融资,将用于研发语音操作系统。其核心技术TNT结合深度学习和自然语言处理,能精准解析复杂语音指令,实现跨设备控制。团队从医疗创业失败转型而来,经历10次产品迭代后锁定语音交互赛道。面对亚马逊等巨头的竞争,Willow采取开源模块化策略,计划开放API构建开发者生态。虽然融资成功,但公司仍需在多语言支持、隐私保护等方面持续优化。
字节跳动AI编程工具TRAE将推出2.0版本,距1.0发布仅半年。新版将强化编码功能并新增语音交互,实现深度协作与多模态支持。该工具基于VS Code内核,整合Claude、DeepSeek等主流AI模型,提供类Copilot的代码生成能力。此次升级被视为底层交互范式的重大革新,旨在为开发者打造更高效的编程体验。