微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
2025光明科学城论坛在深圳举行,聚焦智能算力与大模型智能体。鹏城实验室等机构发布四项重要成果:鹏城脑海2.1开源多模态模型及配套数据集与工具链;国产万卡推理引擎FenixCOS首次亮相,支持大规模并行与高效切换;气象智能体“阿福”接入鹏城云脑Ⅲ,将服务第十五届全国运动会。
Kling AI发布2.6版本,新增原生音频生成功能,支持中英双语对白、歌唱与音效同步输出,实现文本到视频的完整创作流程,标志着AI视频进入有声时代。
美国Arcee AI推出Trinity系列开源模型,旨在提升美国在AI领域的竞争力。该系列采用混合专家架构,训练完全在美国进行,目前包括Trinity Mini和Nano Preview两个模型,用户可通过官网体验,开发者可在Hugging Face平台获取。
开源平台,提供LLM应用的提示管理、评估和可观测性工具。
FLUX 2 Dev是用于图像生成与编辑的开源权重模型,支持多参考编辑等
EverMind赋予AI无限记忆与长期一致性,含开源内存系统及先进模型。
VORAvideo连接多AI模型,支持文生视频、图生视频,享Sora 2特惠
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
Bytedance
$1.2
$3.6
4
PrimeIntellect
INTELLECT-3是一个拥有1060亿参数的混合专家(MoE)模型,通过大规模强化学习训练而成。在数学、编码和推理基准测试中展现出卓越性能,模型、训练框架和环境均以宽松许可协议开源。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
00quebec
这是一个专门为 Qwen-Image 设计的开源 LoRA 模型,专注于模拟现代 iPhone 摄影的真实感外观和感觉。模型基于5000多张真实 iPhone 风格照片训练,能够生成清晰、自然、适合社交媒体分享的图像。
prithivMLmods
Olmo-3-Think是艾伦人工智能研究所推出的完全开源的语言模型系列,包含7B和32B两种规模。该模型经过专门训练,能够展现明确的推理链,支持透明的逐步推理和可检查的中间思维痕迹,在推理、数学和代码任务中表现出色。
vanta-research
Atom-Olmo3-7B是基于Olmo-3-7B-Instruct微调的语言模型,专门为协作式问题解决和创造性探索而设计。该模型在处理复杂问题时能提供深思熟虑且结构化的分析,同时保持引人入胜的对话风格,具有Apache 2.0开源许可证。
yaleiyaleichiling
首个真正开源、无限制的二次元视频生成模型,基于Wan2.2-5B架构,仅需6GB显存即可运行,能够生成惊艳的二次元动画内容
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
Mungert
MiroThinker v1.0是一个开源研究智能体,通过模型级别的交互式扩展提升工具增强推理和信息搜索能力。该模型在多个基准测试中表现出色,支持长上下文和深度多步分析。
allenai
Olmo 3是由Allen Institute for AI开发的开源语言模型系列,包含7B和32B两种规格,分为指令(Instruct)和思考(Think)两种变体。该模型具有出色的长链思维能力,能够显著提升数学和编码等推理任务的表现。
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
Olmo 3是Allen Institute for AI (Ai2)开发的全新32B参数语言模型家族,包含Base、Instruct和Think等变体。该模型基于Dolma 3数据集训练,支持65,536的长上下文处理,旨在推动语言模型科学发展。模型完全开源,遵循Apache 2.0许可证。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
unsloth
JanusCoder-14B 是基于 Qwen3-14B 构建的 14B 参数开源基础模型,旨在为代码智能建立统一的视觉编程接口。该模型在 JANUSCODE-800K 多模态代码语料库上训练,能够统一处理各种视觉编程任务。
JanusCoder-8B是基于Qwen3-8B构建的开源代码智能基础模型,旨在建立统一的视觉编程接口。该模型在JANUSCODE-800K(迄今为止最大的多模态代码语料库)上训练,能够处理各种视觉编程任务,包括数据可视化、交互式Web UI和代码驱动动画等。
OpenMOSS-Team
MOSS-TTSD是一个开源的双语口语对话合成模型,支持中文和英文,能够将两人对话脚本转化为自然、富有表现力的对话语音,支持语音克隆且单轮语音生成时长最长可达1700秒。
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
Lamapi
Next 12B是基于Gemma 3的120亿参数多模态视觉语言模型,是土耳其最先进的开源视觉语言模型。该模型在文本和图像理解方面表现出色,具备先进的推理和上下文感知多模态输出能力,特别提供专业级的土耳其语支持,同时具备广泛的多语言能力。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
onnx-community
Granite-4.0-1B是IBM开发的轻量级指令模型,基于Granite-4.0-1B-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型合并等技术开发,适合设备端部署和研究用例。
Klavis AI是一个开源项目,提供在Slack、Discord和Web平台上简单易用的MCP(模型上下文协议)服务,包括报告生成、YouTube工具、文档转换等多种功能,支持非技术用户和开发者使用AI工作流。
Genkit是一个用于构建AI驱动应用的开源框架,提供Node.js和Go库,支持多种AI模型和向量数据库集成,包含开发工具和插件生态系统。
OpenDia是一款开源浏览器扩展工具,允许AI模型直接控制用户浏览器,利用现有登录状态、书签等数据进行自动化操作,支持多种浏览器和AI模型,注重隐私保护。
Portainer MCP是一个实现模型上下文协议(MCP)的开源项目,通过标准化接口将AI助手与Portainer容器管理平台连接,支持查询和管理Docker/Kubernetes环境。
openai-tool2mcp是一个开源桥梁工具,将OpenAI内置的高质量工具(如网页搜索、代码解释器等)封装为MCP协议服务器,使Claude等兼容MCP的模型也能使用这些强大功能。
OpenManus是一个无需邀请码即可实现各种想法的开源项目,由MetaGPT团队成员在3小时内构建完成。它提供了一个简单的实现,允许用户创建自己的智能代理,并支持多种语言和配置。项目欢迎建议、贡献和反馈,未来计划包括更好的规划、实时演示、回放功能、RL微调模型和全面的基准测试。
Flutter MCP Server是一个开源的Dart/Flutter生态模型上下文协议(MCP)实现,为AI助手和开发者工具提供统一的API接口,支持远程调用Dart/Flutter开发工具链,实现安全、可编程的自动化开发流程。
OpenAlex MCP Server是一个开源项目,实现了模型配置协议(MCP),为AI助手提供全球学术文献的结构化访问服务。
LOTUS-MCP是一个开源的模型协调协议,整合Mistral和Gemini两大AI模型,提供统一接口、上下文共享和工具集成,实现智能路由和成本优化。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区构建的服务器,使大型语言模型(LLMs)能够安全、可控地访问工具和数据源。该项目包含多种功能服务器实现,涵盖文件系统、数据库、搜索、API集成等领域,并支持TypeScript和Python SDK开发。
SEC EDGAR MCP是一个开源MCP服务器,连接AI模型与美国证券交易委员会(SEC)的EDGAR数据库,提供公司财务数据查询工具。
MacPilot CLI是一个开源工具,通过MCP协议让大语言模型与macOS系统交互,提供系统操作功能。
mcp-chat是一个开源的通用MCP客户端工具,用于测试和评估MCP服务器与代理。支持命令行交互和网页模式,可连接各类MCP服务器(JS/Python/Docker),提供聊天历史记录、模型选择、系统提示定制等功能,帮助开发者调试MCP服务。
SolidPilot是一个开源的SolidWorks AI助手,采用模块化架构,通过MCP协议与本地语言模型(如Claude)交互,包含Python层、C#适配层和COM桥接等技术组件。
该项目包含模型上下文协议的规范及协议模式,提供TypeScript和JSON Schema两种格式定义,并开源贡献指南及MIT许可。
NetBrain MCP是一个开源网络运维平台,通过Model Context Protocol连接大型语言模型与网络设备,实现AI驱动的网络配置、诊断和管理,并提供专业的Web终端界面和网络拓扑可视化功能。
Lspace是一个开源API后端和服务器,实现了模型上下文协议(MCP),帮助开发者将AI会话中的见解转化为可搜索的持久知识库,并集成到各种工具中。
Trellis MCP是一个连接AI助手与Trellis 3D生成模型的接口服务,支持通过自然语言快速生成3D资产并导入Blender。该项目基于开源模型,需自行部署API后端,具有快速、免费的特点,但存在稳定性风险。
一个连接本地LLM与MCP服务器的TypeScript桥梁项目,提供Web界面使开源模型能使用类似Claude的工具能力,支持文件系统、网络搜索和复杂推理等功能。
Createve.AI Nexus是一个开源项目,通过实现模型上下文协议(MCP)标准,为AI代理与企业系统之间搭建桥梁,提供安全、实时的数据访问和系统集成能力。它支持多种AI平台,具备企业级安全架构,并能连接各类业务应用、传感器数据和文档管理系统。