谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与竞争对手的差距。Gemini系统有望通过云服务等渠道实现商业化,从而扩大谷歌在人工智能领域的影响力。
相关AI新闻推荐

Lightricks 发布 LTXV 模型更新:图像到视频生成突破60秒
Lightricks开源AI视频模型LTX-Video迎来重大升级,支持60秒长视频生成,打破行业8秒限制。该模型采用自回归流式架构,实现从图像到高清视频(最高1216x704分辨率)的实时生成,首秒内容瞬时呈现。新增动态场景控制功能,允许实时调整姿势、深度等元素,支持多种生成模式。130亿参数模型在消费级GPU(最低8GB显存)上高效运行,60秒视频仅需数秒生成。作为开源项目,其代码和权重已免费发布,但商业用途受限。此次升级为创作者提供了长篇叙事能力,未来将在LTX Studio推出商业版本。

Aider Leaderboard公布测试结果 Kimi K2编程能力与Qwen3-235B-A22B相当
Aider Leaderboard最新测试显示,Moonshot AI开源模型Kimi K2编程能力表现亮眼,与Qwen3-235B-A22B相当,接近o3-mini-high和Claude-3.7-Sonnet水平。该模型采用1万亿参数MoE架构,支持128k上下文,在SWE-bench等测试中表现优异,单次尝试准确率达65.8%。凭借0.14美元/百万token的低成本优势,成为终端编码Agent理想选择。支持网页生成、自动化工作流等场景,通过vLLM和Hugging Face部署,MIT协议开源特性推动社区采用,展现中国AI企业在开源生态的领先地位。

字节跳动视觉大模型负责人杨建朝宣布暂时休息,周畅接任引发关注
字节跳动视觉大模型团队负责人杨建朝因家庭因素宣布暂时休息,由前阿里通义千问技术负责人周畅接任。此次人事变动正值字节AI部门调整期,引发外界对技术路线稳定性的关注。杨建朝的工作资料仍保留在内部系统,周畅将带领分布全球的Seed团队继续视觉多模态生成等研究。公司强调将持续投入基础研究,期待新负责人带来创新活力。这一变动凸显了科技行业在快速发展中平衡工作与健康的重要性。

5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B
NVIDIA发布突破性混合模型Canary-Qwen-2.5B,以5.63%词错率创Hugging Face OpenASR纪录。该模型采用CC-BY许可,支持商业应用,统一语音识别与语言处理功能。核心创新在于FastConformer编码器与Qwen3-1.7B LLM解码器的混合架构,仅25亿参数却实现高效处理。支持多种NVIDIA GPU硬件,适用于云推理和边缘计算。开源特性促进语音AI发展,为企业提供转录服务、知识提取等商业应用场景,推动下一代语音AI发展。

朗新科技首发AI能源大模型,电力交易将实现智能化
朗新科技在链博会发布"朗新九功AI能源大模型",该模型具备两大核心技术:时序预测引擎基于千亿级预训练数据,电力价格预测准确率超90%,可应对冷启动环境;AI智能体引擎支持动态数据融合和秒级响应,能7×24小时自动监控电力市场并生成对冲策略。目前已在广东、山东、浙江等电力现货市场应用,推动电力交易智能化发展,为能源管理提供科学决策支持。

首个直播流扩散AI模型MirageLSD震撼发布,实时视频转换开启无限可能!
全球首款AI实时视频转换模型MirageLSD发布,实现40毫秒超低延迟处理。该模型由Decart AI团队研发,支持24帧/秒实时转换任意视频流,突破传统视频生成技术瓶颈。通过手势控制等简单交互,用户可实时改变视频场景、服装等元素,大幅降低创作门槛。应用场景涵盖游戏开发(30分钟快速构建游戏)、直播、动画制作等领域,其核心技术LSD模型采用Diffusion Forcing技术,解决长时间生成的误差累积问题。目前该模型已开放试用,将推动AI与内容创作的深度融合。

字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”
【140字概括】字节跳动视觉AI负责人杨建朝因工作强度及家庭原因暂别岗位,由原阿里M6负责人周畅接任。杨建朝是字节AI核心人物,2018年加入后主导视觉模型研发;继任者周畅为复旦北大背景的AI专家,曾打造阿里M6模型。此次人事变动引发对团队稳定性关注,但字节强调Seed视觉模型团队(专注图像/视频生成)的全球布局及基础研究投入不变。核心团队向谷歌DeepMind前副总裁吴永辉汇报。

AI影响语言交流!我们的日常对话越来越多“GPT 词汇”
德国研究发现AI正显著影响人类语言,ChatGPT等工具催生"GPT词汇"。研究人员通过分析数百万篇人类文本经AI润色后的变化,识别出AI偏爱的词汇如"深入研究"等。追踪数据显示,这些词汇在YouTube视频和播客中的使用频率明显上升。研究表明人类会无意识模仿被视为智慧存在的AI语言模式,这反映了科技对人类思维的潜在影响,也引发对未来语言演变的思考。

Windsurf重新上线Claude Sonnet 4模型
AI编码工具Windsurf宣布重新上线Anthropic的Claude Sonnet4模型,为Pro用户提供每月250次调用权限(2倍信用消耗)。该模型以72.7%的SWE-bench测试表现著称,支持200K token上下文窗口,能实现代码生成、复杂重构等功能。此前因Anthropic限制直接访问,Windsurf曾推出BYOK方案应对。此次恢复合作被视为市场竞争下的重要突破,但2倍计费模式可能增加用户成本。未来平台或将进一步优化模型集成与定价策略。

谷歌 DeepMind 推出 MoR 架构:有望大幅提升大型语言模型的效率
谷歌DeepMind推出创新架构Mixture-of-Recursions(MoR),通过动态token级路由和递归深度分配,在保持参数高效的同时提升模型性能。该架构采用选择性缓存机制降低内存压力,实验显示其以更少参数超越传统Transformer,在360M规模以上表现尤为突出。MoR通过计算资源优化,为大规模语言模型部署提供高效解决方案,成为AI领域的重要突破。