美团开源多模态大模型LongCat-Flash-Omni实现技术突破,在多项基准测试中超越闭源竞品,达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理,具备近乎零延迟的交互能力,将本地化多模态AI应用推向新高度。
美团发布LongCat-Flash-Omni模型,采用ScMoE技术实现全模态实时交互突破,在多个领域表现优异,开启人机交互新时代。
9月1日,美团开源LongCat-Flash系列模型后,再推新成员LongCat-Flash-Omni。该模型基于高效架构,采用创新的ScMoE技术,实现全模态实时交互突破,开启多模态AI新时代。
谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。
提供语音、视频和聊天API,用于实时交互,加速应用增长。
实时文本转语音,带有笑声和情感。
Matrix Game 2提供实时交互式世界生成。
AI 图像生成进入 “毫秒级” 时代,速度快、质量高。
openai
$0.36
Input tokens/M
$2.88
Output tokens/M
400k
Context Length
google
$0.72
1M
tencent
$3
$9
8k
anthropic
$5.76
$28.8
200k
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
VITA-MLLM
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
wangyueqian
MMDuet是一个支持视频播放时实时交互的VideoLLM模型,专注于时间敏感的视频理解任务。
openbmb
OmniLMM-12B是基于EVA02-5B和Zephyr-7B-β构建的多模态大模型,通过感知器重采样层连接,采用渐进式课程学习策略训练,具有卓越性能、可信行为和实时多模态交互能力。
一个基于Express.js的MCP服务器,提供加密工具包括密钥对生成、共享密钥派生和消息加密/解密功能,支持SSE实时通信。
Alpaca MCP服务器是一个实现Alpaca交易API的模型上下文协议(MCP)服务,允许大型语言模型通过自然语言与Alpaca交易系统交互,支持股票/期权交易、投资组合管理和实时市场数据获取。
Selector AI的MCP协议实现,提供实时交互的AI服务
Unity MCP服务器是一个基于C#的模型上下文协议(MCP)服务,用于连接Unity编辑器与外部大型语言模型(LLM)或云端AI代理,实现实时自动化与智能交互。
Dynatrace MCP服务器是一个远程服务,允许开发者与Dynatrace可观测性平台交互,将实时监控数据直接集成到开发工作流中,支持问题检测、日志查询、安全漏洞分析等功能。
Revit MCP服务器是一个基于TypeScript的桥梁服务,实现Claude AI与Autodesk Revit之间的实时模型数据交互
一个简单的MCP服务器,用于与Pure Storage存储阵列交互,实时获取FlashBlade阵列信息
该项目是一个基于Quarkus的Twitch聊天MCP服务器,通过整合Twitch聊天功能与MCP协议,为Claude等工具提供实时聊天交互服务。
一个用于监控Cursor AI编辑器中MCP交互的.NET控制台应用,提供实时日志分析、错误调试和协议交互可视化功能。
Bitbucket MCP服务器项目,为AI助手提供与Bitbucket实例的安全桥梁,实现代码仓库、拉取请求等数据的实时交互。
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
该项目是一个基于Python的MCP服务器,用于与Apache Pinot交互,支持实时分析、元数据查询,并能与Claude桌面应用集成。
一个用于通过远程Python执行与Unreal Engine实例交互的服务器实现,支持节点管理、远程代码执行和实时监控。
Calva MCP Server是一个VS Code扩展,为Clojure/ClojureScript开发提供AI编程助手功能,通过连接REPL实现交互式编程,让AI能够实时执行和测试代码。
一个基于Python的Solana区块链模型上下文协议服务器,提供实时数据处理、模型交互接口及RESTful API,支持Docker部署。
Pinax开发的MCP客户端工具,用于连接兼容MCP协议的服务,提供基于SSE的实时数据交互功能,需通过thegraph.market平台获取访问令牌进行认证。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
一个基于React的现代浏览器应用,提供用户友好的界面,通过服务器发送事件(SSE)与模型上下文协议(MCP)服务器进行实时交互,支持主题切换、截图预览和消息历史等功能。
基于ableton-js的MCP服务器,用于实时交互和控制Ableton Live,辅助音乐制作人进行音乐创作。