騰訊混元開源翻譯模型1.5版本,推出1.8B和7B兩個尺寸模型,主打高效與高質量翻譯,優化端雲協同體驗。其中1.8B模型專爲手機等設備設計,量化後僅需1GB內存即可離線流暢運行,實現端側部署與卓越性能。
階躍星辰開源320億參數深度研究模型Step-DeepResearch,能在開放環境中自主探索信息並生成專業報告。其研究能力接近OpenAI o3-mini等頂級商業模型,但部署成本僅爲傳統模型的十分之一,單次調用成本低於0.5元人民幣。
Mistral AI推出Voxtral系列模型,整合文本與音頻處理能力。該系列包括Voxtral-Mini-3B-2507和Voxtral-Small-24B-2507兩款。前者爲3億參數模型,適合快速音頻轉錄和基礎多模態理解;後者擁有240億參數,支持複雜音頻文本智能和多語言處理,適用於企業級應用。兩款模型均支持30至40分鐘音頻上下文處理。
美的集團旗下美的醫療推出自主知識產權“醫學影像多模態智能診斷大模型”,實現AI醫療關鍵突破。該模型可一次性自動檢測肺結核、肺炎、氣胸、骨折等常見胸部疾病,並生成結構化診斷報告,顯著提升基層醫療機構閱片效率與診斷一致性。
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
Nexa SDK可在數分鐘內將AI模型部署到任何設備上,快速、私密且適用於多場景。
為開發者提供快速的AI平臺,部署、優化和運行200多個LLM和多模型。
Radal是一個無代碼平臺,可使用您自己的數據微調小型語言模型。連接數據集,通過可視化配置訓練,並在幾分鐘內部署模型。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
ubergarm
這是ai-sage/GigaChat3-10B-A1.8B-bf16模型的GGUF量化版本,提供了多種量化選項,從高精度的Q8_0到極度壓縮的smol-IQ1_KT,滿足不同硬件條件下的部署需求。該模型支持32K上下文長度,採用MLA架構,專為對話場景優化。
bartowski
這是kldzj的GPT-OSS-120B-Heretic-v2模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該模型通過量化技術顯著減少了存儲和計算資源需求,同時保持了較好的模型性能,便於在各種設備上部署運行。
MaziyarPanahi
本項目提供了Qwen3-4B-Thinking-2507模型的GGUF格式文件,這是一個具有思維鏈推理能力的4B參數大語言模型,支持多種量化版本,便於在各種硬件上部署運行。
DevQuasar
本項目提供了cerebras/MiniMax-M2-REAP-172B-A10B模型的量化版本,致力於讓知識為大眾所用。這是一個1720億參數的大型語言模型,經過優化和量化處理,旨在降低部署成本和提高推理效率。
noctrex
這是MiniMax-M2-REAP-172B-A10B模型的MXFP4_MOE量化版本,是一個內存高效的壓縮模型。通過REAP(路由加權專家激活剪枝)方法,在保持性能的同時將模型從230B參數壓縮到172B參數,體積縮小25%,適用於資源受限的環境、本地部署和學術研究。
fibonacciai
RealRobot_chatbot_llm是基於Gemma3n架構的專業產品人工智能模型,專門在RealRobot產品目錄的專有數據集上進行了微調。該模型能夠根據企業自身的產品數據,快速創建準確、經濟高效且可部署的專業語言模型,提供高度專業化的產品問答服務。
這是WeiboAI/VibeThinker-1.5B的量化版本,致力於讓知識為每個人所用。該項目提供了經過優化的模型權重,使模型更易於部署和使用。
geoffmunn
這是Qwen/Qwen3-Coder-30B-A3B-Instruct語言模型的GGUF量化版本,專門針對代碼生成和編程任務優化,採用FP32精度轉換,適用於本地推理部署。
samwell
NV-Reason-CXR-3B GGUF是NVIDIA NV-Reason-CXR-3B視覺語言模型的量化版本,專為邊緣設備部署優化。這是一個30億參數的模型,專注於胸部X光分析,已轉換為GGUF格式並進行量化處理,可在移動設備、桌面設備和嵌入式系統上高效運行。
unsloth
Qwen3-VL是通義系列中最強大的視覺語言模型,在文本理解與生成、視覺感知與推理、上下文長度、空間和視頻動態理解以及智能體交互能力等方面全面升級。該模型提供密集架構和混合專家架構,支持從邊緣設備到雲端的靈活部署。
Qwen3-VL是阿里巴巴推出的新一代視覺語言模型,在文本理解、視覺感知、空間理解、長上下文處理和智能體交互等方面全面升級,支持從邊緣設備到雲端的靈活部署。
s3dev-ai
這是Google embeddinggemma-300m基礎模型的各種GGUF格式量化版本,專門為高效部署和不同場景使用而優化。該模型專注於句子嵌入和相似度計算任務。
Gelato-30B-A3B是針對GUI計算機使用任務進行微調的最先進(SOTA)模型,提供了量化版本以優化部署效率。該模型專門設計用於理解和處理圖形用戶界面相關的任務。
QuantStack
這是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,專門用於圖像轉視頻任務。該模型保留了原始模型的所有功能,同時通過GGUF格式優化了部署和運行效率。
Qwen3-VL是通義系列中最強大的視覺語言模型,在文本理解與生成、視覺感知與推理、上下文長度、空間和視頻動態理解以及智能體交互能力等方面都進行了全面升級。該模型提供密集架構和混合專家架構,支持從邊緣設備到雲端的靈活部署。
Granite-4.0-H-350M是IBM開發的輕量級指令模型,具有350M參數,在多語言處理和指令遵循方面表現出色,專為設備端部署和研究場景設計。
mattritchey
本模型是基於RUC-DataLab/DeepAnalyze-8B轉換的GGUF格式版本,專門用於文本生成任務。通過llama.cpp工具進行格式轉換,支持高效的推理部署。
richardyoung
這是一個高性能的4位量化版本的Kimi K2 Instruct模型,專為使用MLX框架在Apple Silicon(M1/M2/M3/M4)Mac上運行而優化。該模型擁有6710億參數,支持128K上下文窗口,在質量和效率之間實現了出色的平衡,是大多數實際部署的理想選擇。
onnx-community
Granite-4.0-1B是IBM開發的輕量級指令模型,基於Granite-4.0-1B-Base微調而成。該模型結合了開源指令數據集和內部合成數據集,採用監督微調、強化學習和模型合併等技術開發,適合設備端部署和研究用例。
Granite-4.0-350M是IBM開發的輕量級指令模型,基於Granite-4.0-350M-Base微調而成。該模型結合了開源指令數據集和內部合成數據集,採用監督微調、強化學習和模型融合等技術開發,具備強大的指令跟隨能力,特別適合設備端部署和研究場景。
微軟官方MCP服務器集合,提供Azure、GitHub、Microsoft 365、Fabric等多種服務的AI助手集成工具,支持本地和遠程部署,幫助開發者通過標準化協議連接AI模型與各類數據源和工具。
MCP Atlassian是一個為Atlassian產品(Confluence和Jira)設計的模型上下文協議服務器,支持雲端和本地部署,提供AI助手集成功能。
FastAPI-MCP是一個將FastAPI端點作為模型上下文協議(MCP)工具暴露的庫,內置認證功能,支持靈活部署和ASGI傳輸。
XiYan MCP Server是一個基於XiYan-SQL的模型上下文協議服務器,支持通過自然語言查詢數據庫,提供多種LLM模型集成和本地化部署選項。
XiYan MCP Server是一個基於XiYan-SQL的模型上下文協議服務器,支持通過自然語言查詢數據庫,提供多種LLM模型配置和數據庫連接方式,適用於本地或遠程部署。
一個基於Model Context Protocol的以太坊Layer2網絡交互服務器,為AI模型提供標準化接口,支持代幣部署、交易管理和跨鏈操作。
MCP Hub是一個用於創建和管理模型上下文協議(MCP)服務器與客戶端的框架,集成了UV工具以簡化包管理和配置。項目包含AI相關的計算機視覺腳本和數據集處理工具,支持快速部署和開發。
天工AI模型上下文協議(MCP)服務器,支持多種通信協議,包括STDIO和Streamable Http,提供便捷的部署和開發支持。
本實驗指導用戶如何部署MCP服務器並將其集成到Microsoft Copilot Studio中,通過標準化協議連接AI模型與數據源,實現即時數據訪問和笑話生成功能。
一個基於Spring Boot 3和Java 24的OAuth2授權服務器項目,支持GraalVM原生鏡像、CRaC檢查點恢復、本地AI模型測試及Docker部署。
Trellis MCP是一個連接AI助手與Trellis 3D生成模型的接口服務,支持通過自然語言快速生成3D資產並導入Blender。該項目基於開源模型,需自行部署API後端,具有快速、免費的特點,但存在穩定性風險。
MCP Palette是一款用於管理Model Context Protocol服務器配置的桌面應用程序,提供集中式界面來配置、管理和部署用於大型語言模型的MCP服務器。
Arc MCP Server是一個簡化框架部署的模型上下文協議服務器,專注於共享託管環境,支持多平臺部署和引導式操作。
Swarms API 是一個用於構建、部署和管理多智能體系統的REST API,支持多種AI模型和群架構,提供即時監控、批量處理和任務調度等功能。
一個為Prometheus提供模型上下文協議(MCP)接口的服務,支持執行PromQL查詢、探索指標數據,並提供認證和容器化部署支持。
Apple Health MCP Server是一個基於FastMCP框架的模型上下文協議服務器,專為LLM代理與蘋果健康數據交互設計。它提供標準化接口,通過Elasticsearch索引和查詢健康數據,支持自然語言搜索、分析和統計功能,包含XML和Elasticsearch兩大工具集,支持Docker部署。
Netlify MCP Server是一個遵循模型上下文協議(MCP)的服務,它允許代碼代理通過自然語言指令使用Netlify API和CLI來創建、構建、部署和管理Netlify資源。
Coolify MCP Server是一個與Coolify API集成的模型上下文協議服務器,提供團隊管理、服務器管理、服務生命週期管理、應用部署等功能。
一個為Rollbar服務的模型上下文協議(MCP)服務器,提供多種工具查詢Rollbar項目數據,如獲取錯誤詳情、部署記錄等。
一個生產就緒的MCP服務器模板,用於託管自定義AI工具和提示模板,支持遠程部署和本地運行,幫助開發者快速構建AI模型交互工具。