国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
思科将OpenAI的Codex模型深度集成到企业软件开发流程,使其从代码补全工具升级为“AI工程队友”。该模型已应用于C/C++等复杂语言的大规模代码库,推动AI从辅助角色转变为生产核心。
中国生成式AI竞争进入用户争夺新阶段。百度“文心一言”月活突破2亿,成为首个进入“两亿俱乐部”的国产大模型。阿里巴巴“通义千问”上线两个月月活超1亿,增长迅猛。百度采取“全域融合”策略,将AI能力全面融入搜索等核心产品,加速应用落地。
四川长虹推出家电行业首个通过国家备案的垂类AI大模型“长虹云帆”,已率先应用于电视产品,推动传统智能电视向“AI TV”升级。该模型聚焦智慧家电垂直场景,获多家机构调研关注。
开源平台,提供LLM应用的提示管理、评估和可观测性工具。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
使用Scorecard简单构建和测试LLM应用,提供可预测且不断改进的AI体验。
Snowglobe帮助AI团队在规模上测试LLM应用。在推出之前模拟真实对话,发现风险并提高模型性能。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
Smith-3
这是一个专为圣西蒙大学科学与技术学院学生设计的微调AI模型,集成在TecnoTime应用程序中,帮助学生保持学习组织性、提高学术连续性,通过结构化通知和激励信息强化学习习惯。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
noctrex
这是Qwen3-VL-235B-A22B-Instruct模型的MXFP4_MOE量化版本,通过特定的量化处理优化模型性能,使模型在资源受限环境下能够更高效运行,解决了大模型在部署和应用中的资源挑战。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
Nemotron-Flash-3B 是英伟达推出的新型混合小型语言模型,专门针对实际应用中的低延迟需求设计。该模型在数学、编码和常识推理等任务中展现出卓越性能,同时具备出色的小批量低延迟和大批量高吞吐量特性。
NexaAI
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
codeintegrity-ai
ModernBERT PromptGuard是一个高性能二分类器,专门用于检测大语言模型应用中的恶意提示,包括提示注入和越狱攻击。
jeevanrushi07
OpenLLaMA 3B v2是一个基于Transformer架构的开源大语言模型,拥有30亿参数。该模型采用MIT许可证,主要用于英文文本生成任务,支持聊天机器人等多种应用场景。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
Guilherme34
Qwen2.5-14B-Instruct是一个140亿参数的大语言模型,专为聊天和文本生成场景设计。该模型基于transformers库构建,适用于内部测试和轻量级应用部署。
merve
Isaac 0.1是感知器公司推出的首个感知语言模型,拥有20亿参数,专为现实世界应用设计。该模型在效率方面树立了新标准,性能达到甚至超越了比它大50倍以上的模型,具备强大的视觉理解和空间推理能力。
PerceptronAI
Isaac-0.1是感知公司推出的首个开源视觉语言模型,拥有20亿参数,专为现实世界应用设计。该模型在多模态理解和空间推理方面表现出色,性能达到甚至超越比它大50倍以上的模型,树立了新的效率标准。
Kwai-Klear
Klear是由快手Kwai-Klear团队开发的稀疏混合专家(MoE)大语言模型,具备高性能和推理效率的特点。总参数460亿,激活参数仅25亿,在多个能力基准测试中表现出色,为实际应用提供了高效且强大的解决方案。
NVIDIA-Nemotron-Nano-9B-v2是NVIDIA从头训练的大语言模型,专为推理和非推理任务设计。采用Mamba2-Transformer混合架构,支持多语言处理,具备可控推理能力,允许用户指定思考预算,在商业应用和AI代理系统中表现出色。
DavidAU
基于OpenAI的gpt-oss-120b模型优化的大型语言模型,使用NEO数据集进行性能提升,支持多场景应用,可在CPU、GPU或部分卸载模式下运行,具有128k上下文长度和最多128个专家的混合专家架构。
Mungert
基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段训练优化,在推理、聊天等任务上表现出色,支持多种语言,适用于多种AI应用场景。采用神经架构搜索技术优化,能够在单个H100-80GB GPU上高效运行。
HiveChat是一个专为中小团队设计的AI聊天应用,支持多种大模型服务商,提供分组管理、Token限额、第三方登录等功能。
该项目是一个基于Model Context Protocol (MCP)标准的文档处理服务器,通过构建向量数据库和MCP接口,使AI助手能够访问外部文档资源,突破大语言模型的知识限制。项目包含文档处理流水线和MCP服务端两大组件,支持多种嵌入模型和文件格式,可应用于最新技术文档查询、私有代码库理解等场景。
Wanaku MCP路由器是一个基于模型上下文协议(MCP)的AI应用路由器,旨在标准化应用程序向大型语言模型(LLM)提供上下文的方式。
MCP Palette是一款用于管理Model Context Protocol服务器配置的桌面应用程序,提供集中式界面来配置、管理和部署用于大型语言模型的MCP服务器。
GUARDRAIL是一个专为大型语言模型(LLM)应用生态系统设计的安全框架,特别针对模型上下文协议(MCP)提供全面保护。它采用多层架构,包括信息网关层、上下文验证层、请求控制层、执行隔离层和审计监控层,旨在防止数据泄露、未授权访问和资源滥用。该框架强调渐进式采用,允许开发者逐步增强安全性,同时保持高性能和易用性。
File Context MCP是一个基于TypeScript的应用程序,提供API通过本地文件内容查询大型语言模型(LLMs),支持多种LLM提供商(Ollama和Together.ai),可处理多种文件类型生成上下文感知的响应。
该项目实现了一个ClickHouse的MCP服务器,用于将ClickHouse数据库与大型语言模型(LLMs)等AI应用无缝集成,支持查询数据库、获取表结构等功能。
Okta MCP Server 是一个基于 Model Context Protocol 的服务器,允许大型语言模型和AI代理通过自然语言指令管理Okta组织,支持用户、群组、应用程序、策略和日志等管理操作。
OtterBridge是一个轻量级的MCP服务器,用于连接应用程序与多种大型语言模型提供商,支持Ollama等模型,设计简洁灵活。
百度云向量数据库MCP Server是一个提供对百度云向量数据库功能访问的服务器,支持与多种大语言模型应用程序配合使用。
基于MCP与QWEN大模型的自然语言MySQL数据库查询系统,提供GUI界面支持
一个为Claude桌面应用设计的MCP服务器实现,提供大语言模型的持久化记忆功能,包含分层记忆架构、多种记忆类型和语义搜索等特性。
该项目实现了一个MCP服务器,用于与Wolfram Alpha API交互,使聊天应用能执行计算查询并获取结构化知识。包含基于Gemini的MCP客户端示例,展示如何将大语言模型连接到MCP服务器,实现与Wolfram Alpha知识引擎的实时交互。
Model Context Protocol (MCP) .NET示例库,展示如何在.NET应用中利用MCP协议标准化大型语言模型(LLM)的上下文交互。包含YouTube字幕提取器等示例,支持灵活切换LLM供应商并构建AI工作流。
MCP-Memos是一款基于MCP协议的备忘录工具,专为开发者设计,支持快速记录和检索文本信息,无需切换应用。它利用大型语言模型提供强大的模糊搜索能力,包括语义理解、上下文感知和自然语言查询等功能。
Tome是一款由Runebook团队开发的MacOS应用(即将支持Windows和Linux),旨在简化本地大型语言模型(LLM)与MCP服务器的使用。它通过集成Ollama和管理MCP服务器,使用户无需处理复杂的配置即可快速开始与MCP驱动的模型对话。
该项目提供了一系列基于Quarkus框架的Model Context Protocol (MCP)服务器实现,用于扩展支持MCP的大型语言模型(LLM)应用功能。包含JDBC数据库、文件系统、JavaFX绘图、Kubernetes和容器等多种服务。
一个基于Electron的跨平台桌面应用,通过MCP协议连接多种大语言模型,提供简洁高效的交互界面。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。
该项目是一个基于Model Context Protocol (MCP)的服务端,为Brandfetch API提供桥梁,使大型语言模型(LLM)应用能够搜索品牌并获取详细信息。