Mistral AI推出Voxtral系列模型,整合文本与音频处理能力。该系列包括Voxtral-Mini-3B-2507和Voxtral-Small-24B-2507两款。前者为3亿参数模型,适合快速音频转录和基础多模态理解;后者拥有240亿参数,支持复杂音频文本智能和多语言处理,适用于企业级应用。两款模型均支持30至40分钟音频上下文处理。
美的集团旗下美的医疗推出自主知识产权“医学影像多模态智能诊断大模型”,实现AI医疗关键突破。该模型可一次性自动检测肺结核、肺炎、气胸、骨折等常见胸部疾病,并生成结构化诊断报告,显著提升基层医疗机构阅片效率与诊断一致性。
大模型时代,算力需求激增,但中小企业与科研机构面临GPU获取难题:本地部署成本高、维护难;传统云服务配置复杂、调度不灵活。需探索更经济、灵活的算力解决方案。
OpenAI与埃森哲达成战略合作,将为企业提供一站式AI转型方案。埃森哲7万名顾问将配备ChatGPT Enterprise,双方将共同开发行业专用大模型与数据平台。合作覆盖医疗、金融、制造和公共部门,提供从AI战略咨询到模型部署的全流程服务。消息公布后,埃森哲股价盘前上涨超5%,市值一度增加超70亿美元。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Nexa SDK可在数分钟内将AI模型部署到任何设备上,快速、私密且适用于多场景。
为开发者提供快速的AI平台,部署、优化和运行200多个LLM和多模型。
Radal是一个无代码平台,可使用您自己的数据微调小型语言模型。连接数据集,通过可视化配置训练,并在几分钟内部署模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
DevQuasar
本项目提供了 Qwen/Qwen3-VL-32B-Thinking 的量化版本(Int4),致力于降低模型部署的硬件门槛,让先进的视觉语言模型知识为每个人所用。
mradermacher
这是一个专注于网络安全领域的20B参数开源大语言模型,基于GPT-OSS架构,并融合了多个网络安全指令数据集进行微调。模型提供了多种量化版本,便于在资源受限的环境中部署,可用于生成网络安全相关的文本、代码和分析报告。
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
ss-lab
这是一个基于Meta LLaMA 3 8B模型,使用Unsloth框架进行高效微调,并转换为GGUF格式的轻量级文本生成模型。模型针对Alpaca数据集进行了优化,适用于本地部署和推理,特别适合在资源受限的环境中使用。
huawei-csl
这是使用华为SINQ(Sinkhorn归一化量化)方法对Qwen3-Next-80B大语言模型进行4位量化后的版本。SINQ是一种新颖、快速且高质量的量化方法,旨在显著压缩模型体积(约减少75%),同时保持与原始模型几乎不变的准确性,使其更易于部署。
ubergarm
这是ai-sage/GigaChat3-10B-A1.8B-bf16模型的GGUF量化版本,提供了多种量化选项,从高精度的Q8_0到极度压缩的smol-IQ1_KT,满足不同硬件条件下的部署需求。该模型支持32K上下文长度,采用MLA架构,专为对话场景优化。
bartowski
这是kldzj的GPT-OSS-120B-Heretic-v2模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该模型通过量化技术显著减少了存储和计算资源需求,同时保持了较好的模型性能,便于在各种设备上部署运行。
本项目提供了Qwen3-4B-Thinking-2507模型的GGUF格式文件,这是一个具有思维链推理能力的4B参数大语言模型,支持多种量化版本,便于在各种硬件上部署运行。
本项目提供了cerebras/MiniMax-M2-REAP-172B-A10B模型的量化版本,致力于让知识为大众所用。这是一个1720亿参数的大型语言模型,经过优化和量化处理,旨在降低部署成本和提高推理效率。
noctrex
这是MiniMax-M2-REAP-172B-A10B模型的MXFP4_MOE量化版本,是一个内存高效的压缩模型。通过REAP(路由加权专家激活剪枝)方法,在保持性能的同时将模型从230B参数压缩到172B参数,体积缩小25%,适用于资源受限的环境、本地部署和学术研究。
fibonacciai
RealRobot_chatbot_llm是基于Gemma3n架构的专业产品人工智能模型,专门在RealRobot产品目录的专有数据集上进行了微调。该模型能够根据企业自身的产品数据,快速创建准确、经济高效且可部署的专业语言模型,提供高度专业化的产品问答服务。
这是WeiboAI/VibeThinker-1.5B的量化版本,致力于让知识为每个人所用。该项目提供了经过优化的模型权重,使模型更易于部署和使用。
geoffmunn
这是Qwen/Qwen3-Coder-30B-A3B-Instruct语言模型的GGUF量化版本,专门针对代码生成和编程任务优化,采用FP32精度转换,适用于本地推理部署。
samwell
NV-Reason-CXR-3B GGUF是NVIDIA NV-Reason-CXR-3B视觉语言模型的量化版本,专为边缘设备部署优化。这是一个30亿参数的模型,专注于胸部X光分析,已转换为GGUF格式并进行量化处理,可在移动设备、桌面设备和嵌入式系统上高效运行。
本项目提供了 `yanolja/YanoljaNEXT-Rosetta-4B-2511` 模型的 GGUF 量化版本。该模型是一个专注于多语言翻译任务的大语言模型,支持包括中文、英语、日语、韩语、法语、德语等在内的 33 种语言。量化版本由 mradermacher 创建,提供了多种不同精度和文件大小的量化选项,便于在资源受限的环境下部署和使用。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
s3dev-ai
这是Google embeddinggemma-300m基础模型的各种GGUF格式量化版本,专门为高效部署和不同场景使用而优化。该模型专注于句子嵌入和相似度计算任务。
Gelato-30B-A3B是针对GUI计算机使用任务进行微调的最先进(SOTA)模型,提供了量化版本以优化部署效率。该模型专门设计用于理解和处理图形用户界面相关的任务。
QuantStack
这是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,专门用于图像转视频任务。该模型保留了原始模型的所有功能,同时通过GGUF格式优化了部署和运行效率。
FastAPI-MCP是一个将FastAPI端点作为模型上下文协议(MCP)工具暴露的库,内置认证功能,支持灵活部署和ASGI传输。
MCP Atlassian是一个为Atlassian产品(Confluence和Jira)设计的模型上下文协议服务器,支持云端和本地部署,提供AI助手集成功能。
XiYan MCP Server是一个基于XiYan-SQL的模型上下文协议服务器,支持通过自然语言查询数据库,提供多种LLM模型配置和数据库连接方式,适用于本地或远程部署。
XiYan MCP Server是一个基于XiYan-SQL的模型上下文协议服务器,支持通过自然语言查询数据库,提供多种LLM模型集成和本地化部署选项。
Netlify MCP Server是一个遵循模型上下文协议(MCP)的服务,它允许代码代理通过自然语言指令使用Netlify API和CLI来创建、构建、部署和管理Netlify资源。
Cyclops MCP是一个允许AI代理通过模型上下文协议安全管理和部署Kubernetes应用的工具,提供模板验证和应用创建/更新功能
NextChat的定制版本,通过聊天交互创建和部署MCP服务器,集成OpenRouter的LLM模型,提供工具提取、一键部署和AI系统集成指南功能。
WiseVision ROS2 MCP服务器是一个基于Python的ROS2模型上下文协议(MCP)实现,提供ROS2主题和服务管理、消息订阅发布、数据黑盒访问等功能,支持通过Docker容器化部署。
这是一个基于Cloudflare Workers的轻量级模型控制协议(MCP)服务器,用于让代理(如Cursor代理)与WorkOS API交互。项目提供自动化部署和工具扩展功能。
一个轻量级的模型控制协议(MCP)服务器,用于通过Cursor等代理工具与Neon REST API交互,部署在Cloudflare Workers上。
该项目是一个专为DevOps工具和平台设计的Model Context Protocol (MCP)服务器集合,通过标准化方式让大型语言模型(LLM)直接与主流DevOps系统交互,实现基础设施、部署流水线、监控等操作的自动化控制。
一个基于Model Context Protocol的以太坊Layer2网络交互服务器,为AI模型提供标准化接口,支持代币部署、交易管理和跨链操作。
Swarms API 是一个用于构建、部署和管理多智能体系统的REST API,支持多种AI模型和群架构,提供实时监控、批量处理和任务调度等功能。
Socket MCP服务器是一个用于依赖项安全扫描的模型上下文协议服务,提供npm、PyPI等软件包生态系统的安全评分和漏洞检测功能,支持AI助手集成和多种部署方式。
plugged.in App是一个用于管理模型上下文协议(MCP)服务器的综合Web应用,提供统一界面来发现、配置和使用跨多个MCP服务器的AI工具。它支持多工作区、交互式测试平台、工具管理、资源发现等功能,可与各种MCP客户端集成,并支持自托管部署。
该项目提供了一套完整的MCP服务器构建指南,用于部署训练好的随机森林模型,并与Bee框架集成实现ReAct交互功能。
Pop MCP Server 是一个为 Polkadot 生态提供全面开发支持的模型上下文协议服务器,集成了 Pop CLI 工具链,支持智能合约、平行链、运行时模块的创建、构建、测试和部署,并提供完整的 Polkadot、ink! 和 XCM 文档资源,让开发者能够通过自然语言与 AI 助手交互完成整个开发流程。
MCP Palette是一款用于管理Model Context Protocol服务器配置的桌面应用程序,提供集中式界面来配置、管理和部署用于大型语言模型的MCP服务器。
一个用于快速构建模型上下文协议(MCP)服务器的Python模板项目,提供工具和提示的注册与暴露功能,支持多种部署方式。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。