基于视觉追踪!机器人在捉人游戏中能“以智取胜”了

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
马斯克旗下xAI发布Grok4 AI聊天机器人,标榜"追求真理"却引发争议。测试显示该AI在敏感话题上常引用马斯克个人社交媒体观点,如巴以冲突、移民政策等。此前Grok曾因反犹言论被迫修改系统,暴露出将AI与创始人观点绑定的风险。虽然Grok4在部分测试中超越竞争对手,但频繁失误和缺乏透明度(未发布系统卡)可能影响其商业化前景。目前xAI正推动300美元/月的订阅服务和企业API应用。
Hugging Face推出两款Reachy Mini桌面机器人套件:无线版449美元和Lite版299美元,专为AI开发者设计。这些开源机器人可编程、支持Python,预装演示程序并与Hugging Face Hub平台深度集成。CEO表示产品基于社区反馈开发,旨在让开发者自由创造AI应用。Lite版下月发货,无线版年底交付。公司强调开源硬件理念,反对机器人技术被少数公司垄断。
微软AI应用成效显著:呼叫中心节省5亿美元成本,35%新代码由AI生成,GitHub Copilot用户达1500万。但AI推广也带来结构性调整,公司宣布裁员9000人以控制AI基础设施投资成本,延续今年累计裁员2.4万人的趋势。科技行业普遍面临AI自动化带来的岗位变革,Salesforce等企业30%工作已由AI完成,引发员工"替代焦虑"。AI在提升效率的同时,正重塑行业就业格局。
智元机器人公司近日公布一项机器人运动控制模型训练专利。该专利通过对比机器人实际接触序列与预期接触序列的差异,生成摆动激励值来优化模型参数。其中预期接触序列基于相位变量和步态映射关系生成,包含摆动相占空比和足间相位偏移量等信息。该方法能有效提升机器人运动控制精度,使机器人动作更加精准稳定。
英特尔等研究团队发现大型语言模型存在"信息过载"安全漏洞。研究人员开发出"InfoFlood"攻击系统,通过填充大量信息使AI模型安全过滤器失效,诱使其回答本应拒绝的问题。实验显示,即使ChatGPT等先进AI具备多重防护,仍可能因信息过载而误判恶意请求。该研究揭示了AI在处理复杂信息时的脆弱性,团队已着手向相关企业通报此安全隐患。
研究人员发现新型AI攻击方法"信息过载"(InfoFlood),通过向聊天机器人发送过量信息可绕过安全防护。该系统利用虚假引用和无关声明干扰AI判断,使ChatGPT等模型违反安全规则。研究表明传统关键词过滤在面对信息轰炸时会失效,恶意用户可借此植入有害内容。专家呼吁加强AI安全措施,推动相关伦理讨论。
苹果与哥伦比亚大学合作开发SceneScout AI导航系统,专为视障人士设计。该系统整合Apple Maps API和GPT-4o多模态模型,提供个性化环境描述。核心功能包括路线预览(评估人行道质量等)和虚拟探索(支持场景查询)。测试显示72%的AI描述准确,虚拟探索功能尤其受10位视障测试者好评。研究论文已发布在arXiv平台。
香港理工大学与OPPO研究院联合推出DLoRAL视频超分辨率框架,采用创新的双LoRA架构:CLoRA负责保持帧间时序一致性,DLoRA增强空间细节。通过双阶段交替训练策略,在保证视频流畅性的同时提升清晰度,推理速度比传统方法快10倍。该开源项目已在GitHub发布代码和预训练模型,虽在极小文本恢复上仍有局限,但为视频高清化提供了高效解决方案,有望推动实时视频增强等应用发展。
中科院计算所推出Stream-Omni多模态大模型,支持文本、视觉、语音三种模态交互。创新采用针对性模态对齐技术,减少对大规模三模态数据的依赖,实现语音与文本的实时转换。模型支持任意模态组合,在视觉理解和语音交互方面表现优异,虽在拟人化方面有待改进,但为多模态智能交互提供了新思路。相关论文和代码已开源。
【AI日报速览】B站将推"代号H"AI工具助力视频播客创作;智元发布双形态切换机器人灵犀X2-N;宇树科技冲刺科创板IPO获120亿估值;开源模型EarthMind革新地球数据分析;Gemini CLI更新音视频处理功能;macOS助手Glass开源爆火;Claude将发布数学超强新模型Neptune v3;OpenAI宣布GPT-5将整合多模型实现突破。AI领域持续创新,涵盖创作工具、机器人、大模型等多个方向。