在第九屆數字中國建設峯會上,中國移動將首次公開展示其自研的“九天”35B通用大模型。摩爾線程宣佈,其旗艦GPU MTT S5000已完成對該模型的全流程適配與推理驗證,這標誌着國產算力生態的重要突破。通過自研MUSA軟件棧和SGLang-MUSA高性能推理引擎,摩爾線程實現了“九天”35B模型推理全鏈路的深度融合與優化。
Speechify發佈原生Windows客戶端,從文本轉語音工具升級爲全棧語音助手。應用集成三類本地AI模型,支持跨應用實時聽寫與文檔轉錄,對標Superwhisper等競品。爲保障響應速度與隱私,在Copilot+ PC等高性能設備上支持完全本地化運行,用戶無需上傳音頻至雲端,即可利用本地NPU或GPU驅動的Whisper模型。
法國AI初創公司Mistral AI完成8.3億美元債務融資,將用於在巴黎附近建設AI數據中心。該中心將部署44MW算力,配備13800塊英偉達GB300 GPU,以支持AI應用發展。
歐洲AI公司Mistral AI完成8.3億美元債務融資,將用於在巴黎近郊建設頂級AI數據中心。該中心計劃部署超1.3萬塊英偉達GB300 GPU,以大幅提升算力。融資獲七家國際銀行支持,顯示金融界對歐洲AI發展的信心。
檢測硬件,瞭解本地可運行的AI模型,支持GPU、CPU和RAM分析
即時對比各雲服務提供商H100、H200等GPU實例價格,找最優方案。
提供穩定高效的 AI 算力及 GPU 租賃服務。
智能算力即開即用,全面提升效率與競爭力。
Openai
$2.8
輸入tokens/百萬
$11.2
輸出tokens/百萬
1k
上下文長度
-
Bytedance
$0.8
$2
128
Alibaba
$0.4
$8.75
$70
400
$0.35
$1.75
$14
64
$0.63
$3.15
131
$1.8
$5.4
16
Tencent
32
$17.5
$56
$0.7
$2.4
$9.6
Google
$0.14
$0.28
drbaph
Z-Image(造相)是一個擁有60億參數的高效圖像生成基礎模型,專門解決圖像生成領域的效率和質量問題。其蒸餾版本Z-Image-Turbo僅需8次函數評估就能達到或超越領先競品,在企業級H800 GPU上可實現亞秒級推理延遲,並能在16G VRAM的消費級設備上運行。
silveroxides
基於 black-forest-labs/FLUX.2-dev 的優化版本圖像生成模型,支持圖像到圖像的生成和編輯任務,採用 fp8_scaled 量化技術提升推理速度,特別適合在低顯存 GPU 上使用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基於GLM-4.5-Iceblink-v2-106B-A12B模型,採用最先進的混合專家量化方法進行FP8量化的版本。該模型專門針對支持硬件FP8的Ada、Hopper或Blackwell系列GPU優化,在保持高質量輸出的同時顯著提升推理效率。
tencent
混元視頻-1.5是一款輕量級高性能視頻生成模型,僅用83億參數就能提供頂級的視頻質量,顯著降低了使用門檻。它能在消費級GPU上流暢運行,支持文本到視頻和圖像到視頻生成,讓每個開發者和創作者都能輕鬆使用。
pnnbao-ump
VieNeu-TTS-1000h是一款先進的越南語端側文本轉語音模型,基於約1000小時高質量越南語語音數據訓練,具備即時語音克隆功能,支持越南語與英語的無縫切換,能在CPU或GPU上即時合成24kHz波形。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基於quanhaol/Wan2.2-TI2V-5B-Turbo基礎模型轉換而來的圖像轉視頻模型,經過優化可在4GB GPU上運行,具有出色的通用性和高效推理能力。
FastVideo
FastVideo團隊推出的圖像轉視頻模型,屬於CausalWan2.2 I2V A14B系列,支持8步推理,能適配從H100到4090等多種GPU,也支持Mac用戶使用。
QuantStack
本項目是基於Flux架構的文本到圖像模型Nepotism的量化版本,採用SVDQuant技術進行優化。提供了INT4和FP4兩種量化格式,分別適用於不同世代的GPU硬件,在保持圖像生成質量的同時顯著減少模型大小和內存佔用。
Qwen
Qwen3-VL是通義系列最強大的視覺語言模型,採用混合專家模型架構(MoE),提供GGUF格式權重,支持在CPU、GPU等設備上進行高效推理。模型在文本理解、視覺感知、空間理解、視頻處理等方面全面升級。
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。本倉庫提供GGUF格式權重,支持在CPU、GPU等設備上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通義千問系列的多模態視覺語言模型的GGUF量化版本,具備20億參數,支持圖像理解和文本生成的無縫融合,可在CPU、GPU等設備上高效運行。
這是基於Danrisi的Flux架構文本到圖像模型UltraReal Fine-Tune的Nunchaku量化(SVDQ)版本。該模型提供了兩種量化格式:INT4適用於非Blackwell架構GPU(50系列之前),NVFP4適用於Blackwell架構GPU(50系列),旨在降低硬件需求同時保持圖像生成質量。
spooknik
這是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基於Flux開發,是一款文本到圖像生成模型。該版本提供了多種量化方案,適配不同GPU硬件,特別針對非Blackwell系列和Blackwell系列GPU進行了優化。
sanchezalonsodavid17
這是DeepSeek-OCR的模態平衡量化(MBQ)變體,通過對視覺編碼器採用4位NF4量化減少內存佔用,同時保持投影器和語言/解碼器的BF16精度,可在普通GPU上進行本地部署和快速CPU試驗。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微調版本,由TheStage AI針對多平臺(NVIDIA GPU和Apple Silicon)的即時、低延遲和低功耗語音轉文本推理進行了優化。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一個經過FP4量化處理的多語言大語言模型,基於Meta-Llama-3.1架構,專為商業和研究用途設計。該模型通過將權重和激活量化為FP4數據類型,顯著減少了磁盤空間和GPU內存需求,同時保持較好的性能表現。
Project0 SVDQ 是基於 Flux Dev 和 Flux Krea 的文本到圖像模型的量化版本,採用 SVDQuant 技術進行優化,提供 INT4 和 FP4 兩種量化格式,分別適用於不同世代的 GPU 硬件。
這是Project0模型的SVDQ量化版本,基於Flux Dev和Flux Krea創建的文本到圖像模型。該模型提供了多種量化格式,針對不同GPU架構進行了優化,包括INT4和FP4量化版本,適用於Blackwell和非Blackwell GPU用戶。
kenpath
Svara-TTS是一款面向印度語言的開源多語言文本轉語音模型,支持19種語言(18種印度語言+印度英語)。該模型基於Orpheus風格的離散音頻令牌方法構建,旨在普通GPU/CPU上實現清晰、富有表現力且低延遲的語音合成。
DiffuGen是一個先進的本地圖像生成工具,集成了MCP協議,支持多種AI模型(包括Flux和Stable Diffusion系列),可直接在開發環境中生成高質量圖像。它提供了靈活的配置選項、多GPU支持,並可通過MCP協議與多種IDE集成,同時提供OpenAPI接口供外部調用。
用於Kubernetes集群中NVIDIA GPU硬件診斷的即時SRE診斷代理,通過MCP協議提供即時GPU硬件檢測和故障排查功能。
VkRunner是一個基於Piglit的shader_runner的Vulkan著色器測試工具,旨在支持與Piglit的shader_test格式儘可能相似的測試腳本。它支持通過GLSL或SPIR-V編寫著色器,並提供豐富的測試命令來驗證著色器的行為,包括繪製、計算、探針檢測等功能。
一個全面的MCP服務器,提供機器學習模型訓練、微調和實驗管理功能,支持多後端訓練、雲GPU部署和成本估算。
該項目集成Graphistry的GPU加速圖可視化平臺與模型控制協議(MCP),為AI助手和大型語言模型提供先進的圖分析能力,支持多種數據格式和網絡分析功能。
QuantConnect Lean算法交易引擎一體化Docker鏡像,支持GPU自動選擇、現代Web界面、REST API和MCP協議集成
Kyutai TTS的Docker部署方案,提供一鍵啟動的Web界面、REST API和MCP工具支持,支持GPU加速和多語言界面。
Hyperbolic GPU MCP服務器是一個與Hyperbolic GPU雲交互的工具,允許代理和LLM查看、租用GPU,並通過SSH連接運行GPU加速的工作負載。
Hyperbolic GPU MCP服務器是一個基於Node.js的工具,允許用戶通過API管理和租用Hyperbolic雲平臺上的GPU資源,包括查看可用GPU、租用實例、SSH連接及運行GPU工作負載等功能。
一個MCP服務器,用於在Google Colab的GPU運行時(T4/L4)上分配資源並執行Python代碼,使AI助手能夠遠程運行GPU加速的計算任務。
MiniMind Docker是一個一體化部署解決方案,提供包含Web界面、API和MCP支持的MiniMind大語言模型服務,支持一鍵Docker部署、智能GPU管理和多語言界面。
Scalene-MCP是一個基於FastMCP v2的服務器,為LLM提供對Scalene性能分析工具的結構化訪問,支持CPU、GPU和內存分析,並集成到GitHub Copilot、Claude Code等LLM代理中。
MCP說話人分離與識別系統是一個集成了GPU加速的說話人分離、語音識別、情感檢測和Web界面的完整解決方案。它結合了pyannote.audio的說話人分離與faster-whisper轉錄技術,支持持久化說話人識別(一次註冊,永久識別)、雙檢測器情感分析(結合通用AI與個性化聲紋)、即時流處理、REST API和MCP服務器,專為AI智能體集成和愛好項目設計。