AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

谷歌推出人工智能系统Gemini,有望扩大在AI领域的影响力

美股研究社

发布于AI新闻资讯 · 1 分钟阅读 · Dec 25, 2023

谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与竞争对手的差距。Gemini系统有望通过云服务等渠道实现商业化,从而扩大谷歌在人工智能领域的影响力。

语言模型多模态基准测试

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Lightricks 发布 LTXV 模型更新:图像到视频生成突破60秒

Lightricks开源AI视频模型LTX-Video迎来重大升级，支持60秒长视频生成，打破行业8秒限制。该模型采用自回归流式架构，实现从图像到高清视频(最高1216x704分辨率)的实时生成，首秒内容瞬时呈现。新增动态场景控制功能，允许实时调整姿势、深度等元素，支持多种生成模式。130亿参数模型在消费级GPU(最低8GB显存)上高效运行，60秒视频仅需数秒生成。作为开源项目，其代码和权重已免费发布，但商业用途受限。此次升级为创作者提供了长篇叙事能力，未来将在LTX Studio推出商业版本。

2025年7月18号 13:49

710

Aider Leaderboard公布测试结果 Kimi K2编程能力与Qwen3-235B-A22B相当

Aider Leaderboard最新测试显示，Moonshot AI开源模型Kimi K2编程能力表现亮眼，与Qwen3-235B-A22B相当，接近o3-mini-high和Claude-3.7-Sonnet水平。该模型采用1万亿参数MoE架构，支持128k上下文，在SWE-bench等测试中表现优异，单次尝试准确率达65.8%。凭借0.14美元/百万token的低成本优势，成为终端编码Agent理想选择。支持网页生成、自动化工作流等场景，通过vLLM和Hugging Face部署，MIT协议开源特性推动社区采用，展现中国AI企业在开源生态的领先地位。

2025年7月18号 10:45

800

字节跳动视觉大模型负责人杨建朝宣布暂时休息，周畅接任引发关注

字节跳动视觉大模型团队负责人杨建朝因家庭因素宣布暂时休息，由前阿里通义千问技术负责人周畅接任。此次人事变动正值字节AI部门调整期，引发外界对技术路线稳定性的关注。杨建朝的工作资料仍保留在内部系统，周畅将带领分布全球的Seed团队继续视觉多模态生成等研究。公司强调将持续投入基础研究，期待新负责人带来创新活力。这一变动凸显了科技行业在快速发展中平衡工作与健康的重要性。

2025年7月18号 10:04

1.0k

5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B

NVIDIA发布突破性混合模型Canary-Qwen-2.5B，以5.63%词错率创Hugging Face OpenASR纪录。该模型采用CC-BY许可，支持商业应用，统一语音识别与语言处理功能。核心创新在于FastConformer编码器与Qwen3-1.7B LLM解码器的混合架构，仅25亿参数却实现高效处理。支持多种NVIDIA GPU硬件，适用于云推理和边缘计算。开源特性促进语音AI发展，为企业提供转录服务、知识提取等商业应用场景，推动下一代语音AI发展。

2025年7月18号 9:57

1.6k

朗新科技首发AI能源大模型，电力交易将实现智能化

朗新科技在链博会发布"朗新九功AI能源大模型"，该模型具备两大核心技术：时序预测引擎基于千亿级预训练数据，电力价格预测准确率超90%，可应对冷启动环境；AI智能体引擎支持动态数据融合和秒级响应，能7×24小时自动监控电力市场并生成对冲策略。目前已在广东、山东、浙江等电力现货市场应用，推动电力交易智能化发展，为能源管理提供科学决策支持。

2025年7月18号 9:09

680

首个直播流扩散AI模型MirageLSD震撼发布，实时视频转换开启无限可能！

全球首款AI实时视频转换模型MirageLSD发布，实现40毫秒超低延迟处理。该模型由Decart AI团队研发，支持24帧/秒实时转换任意视频流，突破传统视频生成技术瓶颈。通过手势控制等简单交互，用户可实时改变视频场景、服装等元素，大幅降低创作门槛。应用场景涵盖游戏开发（30分钟快速构建游戏）、直播、动画制作等领域，其核心技术LSD模型采用Diffusion Forcing技术，解决长时间生成的误差累积问题。目前该模型已开放试用，将推动AI与内容创作的深度融合。

2025年7月18号 8:57

1.5k

字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”

【140字概括】字节跳动视觉AI负责人杨建朝因工作强度及家庭原因暂别岗位，由原阿里M6负责人周畅接任。杨建朝是字节AI核心人物，2018年加入后主导视觉模型研发；继任者周畅为复旦北大背景的AI专家，曾打造阿里M6模型。此次人事变动引发对团队稳定性关注，但字节强调Seed视觉模型团队（专注图像/视频生成）的全球布局及基础研究投入不变。核心团队向谷歌DeepMind前副总裁吴永辉汇报。

2025年7月17号 17:49

1.5k

AI影响语言交流！我们的日常对话越来越多“GPT 词汇”

德国研究发现AI正显著影响人类语言，ChatGPT等工具催生"GPT词汇"。研究人员通过分析数百万篇人类文本经AI润色后的变化，识别出AI偏爱的词汇如"深入研究"等。追踪数据显示，这些词汇在YouTube视频和播客中的使用频率明显上升。研究表明人类会无意识模仿被视为智慧存在的AI语言模式，这反映了科技对人类思维的潜在影响，也引发对未来语言演变的思考。

2025年7月17号 16:09

1.1k

Windsurf重新上线Claude Sonnet 4模型

AI编码工具Windsurf宣布重新上线Anthropic的Claude Sonnet4模型，为Pro用户提供每月250次调用权限（2倍信用消耗）。该模型以72.7%的SWE-bench测试表现著称，支持200K token上下文窗口，能实现代码生成、复杂重构等功能。此前因Anthropic限制直接访问，Windsurf曾推出BYOK方案应对。此次恢复合作被视为市场竞争下的重要突破，但2倍计费模式可能增加用户成本。未来平台或将进一步优化模型集成与定价策略。

2025年7月17号 14:40

1.9k

谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

谷歌DeepMind推出创新架构Mixture-of-Recursions(MoR)，通过动态token级路由和递归深度分配，在保持参数高效的同时提升模型性能。该架构采用选择性缓存机制降低内存压力，实验显示其以更少参数超越传统Transformer，在360M规模以上表现尤为突出。MoR通过计算资源优化，为大规模语言模型部署提供高效解决方案，成为AI领域的重要突破。

2025年7月17号 13:55

1.7k