科大讯飞发布讯飞星火认知大模型 V3.0,超越 ChatGPT 3.5
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

Google 近期在全球范围内大规模扩展其生成式 AI 模型 Gemini3,覆盖120个国家和地区。用户可在支持地区的 Google 搜索 AI 模式中使用 Gemini3 Pro 功能。

可灵AI公司宣布其O1视频大模型已全量上线,采用统一多模态架构,支持文字、图像等多种输入方式,实现一句话生成视频。
vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。

OpenAI CEO萨姆·奥特曼宣布公司进入“红色警报”状态,以应对谷歌等竞争对手的威胁。公司将集中资源改进ChatGPT,并推迟非核心计划如广告业务。

网易有道词典2025年度热词揭晓,“DeepSeek”以867万次搜索量登顶,成为首个源自国产AI大模型的年度词汇。搜索热度自2月DeepSeek-R1模型发布后迅速攀升,后续技术突破均带动查询高峰。大学生和职场人群为主要搜索群体,用户查词后常延伸浏览“大模型”等相关概念,形成“查词—学习概念”的链条,反映出AI技术普及推动公众认知深化的趋势。

英伟达在NeurIPS大会上推出新AI基础设施和模型,推动物理AI发展,助力机器人和自动驾驶车辆感知真实世界。重点发布Alpamayo-R1,首个专为自动驾驶设计的开放推理视觉语言模型,能处理文本与图像,提升车辆环境感知能力。

英伟达在NeurIPS2025发布L4级自动驾驶推理模型Alpamayo-R1,基于Cosmos-Reason系列,可同时处理摄像头、激光雷达和文本指令,通过内部推理输出驾驶决策。模型采用视觉、语言、动作三模态端到端统一架构,避免模块误差叠加,旨在为车辆赋予“人类常识”。

爱诗科技推出PixVerse V5.5(国内版“拍我AI V5.5”),实现全量升级并开放体验。该模型是国内首个支持“多镜头+音画同步一键直出”的AI视频大模型,推动AI生成视频从“单镜头素材”进入“完整叙事短片”阶段。基于自研MVL架构,V5.5能在5-10秒内自动完成脚本拆解、分镜调度及音效生成,显著提升视频制作的完整性与效率。

Runway发布新一代视频生成模型Gen-4.5,显著提升视觉准确性与创意控制能力。用户通过简短文本提示即可生成高清动态视频,支持复杂场景与生动角色。该模型基于Nvidia GPU进行训练与推理,优化生成精度与风格表现。
Liquid AI 公司于2025年7月发布第二代 Liquid Foundation Models(LFM2),采用创新的“liquid”架构,旨在成为市场上最快的设备端基础模型。其高效的训练和推理能力使小模型能媲美云端大型语言模型。LFM2 最初提供350M、700M 和1.2B 参数的密集检查点版本。