初创团队Genesis AI发布首个机器人基础模型GENE-26.5,标志着通用机器人在高难度非结构化任务上取得突破。演示中,机器人展现惊人灵活性与自主性,能完成单手打蛋、解魔方等精细任务,提升了对力度、逻辑、空间感知及节奏精准度的控制能力。
Google DeepMind 新推出的 Lyria 3 Pro 模型将音乐生成时长从 30 秒大幅提升至 3 分钟,并新增“结构感知”能力,使模型能理解并生成包含前奏、主歌、副歌等完整结构的歌曲,突破了此前仅能生成背景音效的限制。
谷歌推出Gemini API新功能"地图接地",开发者可将AI应用直接接入谷歌地图超2.5亿地点数据。该功能支持自动识别地理位置查询,提取地址、营业时间等实时结构化信息,显著提升位置感知型AI应用的开发效率。
阿里国际数字贸易集团AI团队发布多模态大语言模型Ovis2.5,提供9B和2B两种参数规模。该模型定位经济型视觉推理解决方案,具备原生分辨率感知能力,采用NaViT视觉编码器保留图像细节和全局结构,确保高质量视觉处理。
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
Bytedance
-
Baidu
32
Xai
$1.4
$10.5
256
$1.75
$14
400
Chatglm
$8
$16
128
Alibaba
$0.3
Tencent
$3
$9
16
$1
4
Huawei
$56
1k
$4
$12
28
$2
$6
$18
250
OpenGVLab
基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型,通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM
InternVideo2.5 是一个基于 InternVL2.5 构建的视频多模态大语言模型(MLLM),通过长且丰富的上下文(LRC)建模进行了增强,能够感知细粒度细节并捕捉长时态结构。
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
CSHaitao
SAILER是一款面向法律案例检索的结构感知预训练语言模型,深度利用法律文书结构信息,具备卓越的法律要素识别能力。
DeepContext是一个MCP服务器,为代码助手提供基于符号感知的语义搜索功能,通过智能解析代码结构和语义关系,在大型代码库中精准定位相关代码片段,提升开发效率。
Blockscout MCP Server是一个基于Model Context Protocol(MCP)的开源服务,旨在为AI代理、IDE和自动化工具提供结构化的区块链数据访问。它封装了Blockscout API,支持多链查询,包括余额、代币、NFT和合约元数据等,并通过上下文感知的API使工具如Claude、Cursor等能够分析和利用这些数据。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
DevContext是一个强大的AI开发上下文系统,为开发者提供项目中心化的持续上下文感知能力,包含短期/长期/情景/语义四种记忆类型,支持代码结构分析和向量搜索,显著提升开发效率。
基于MCP协议的医疗数据库连接服务器,提供虚拟文件系统导航、智能表结构查询、安全SQL执行和时间感知功能,帮助AI助手安全访问医院管理数据。
LayerZero OFT MCP是一个基于TypeScript/Node.js的模型上下文协议服务器,用于创建、部署和跨链桥接Omnichain Fungible Tokens(OFTs)。它通过抽象化跨链交互的复杂性,提供了一个结构化的、上下文感知的层,便于与LLM代理、机器人或需要去中心化跨链功能的应用程序集成。
MotaWord MCP是一个私有接口协议,提供对翻译项目数据的结构化实时访问,支持外部系统(如LLM、自动化工具等)获取翻译工作流的上下文感知信息,实现项目状态监控与集成。
Lex是一个为AI代理提供情景记忆和架构感知的TypeScript框架,解决长流程开发中的上下文丢失问题,通过记忆快照、模块依赖导航和架构策略执行,让AI助手记住工作进度并理解代码结构。