AI芯片公司Mythic獲1.25億美元融資,將開發能效比GPU高100倍的模擬處理單元。本輪融資由DCVC領投,資金用於產品開發、軟件完善及商業擴展。
谷歌正推進“TorchTPU”計劃,旨在提升其TPU芯片對PyTorch框架的兼容性,以降低開發者從英偉達GPU遷移至谷歌TPU的成本。此舉意在挑戰英偉達在AI芯片領域的統治地位,打破PyTorch與英偉達CUDA的深度綁定。
美國商務部批准英偉達向中國特定客戶出口H200 AI芯片,標誌着其高端GPU時隔數月重返中國市場。美國政府將從相關銷售中收取25%分成。特朗普在社交媒體上宣佈決定,英偉達發表聲明表示歡迎。
大模型時代,算力需求激增,但中小企業與科研機構面臨GPU獲取難題:本地部署成本高、維護難;傳統雲服務配置複雜、調度不靈活。需探索更經濟、靈活的算力解決方案。
智能算力即開即用,全面提升效率與競爭力。
歐盟地區可快速租賃的私密、實惠GPU服務器,提供多種配置和AI模板。
提供高性能GPU出租服務,包括B200、H200、RTX4090、H100等型號。即時部署,價格透明。
通過先進的MoE技術在消費級GPU上將文本和圖像轉換為720P視頻。
Openai
$2.8
輸入tokens/百萬
$11.2
輸出tokens/百萬
1k
上下文長度
-
Bytedance
$0.8
$2
128
Alibaba
$0.4
$8.75
$70
400
$0.35
$1.75
$14
64
$0.63
$3.15
131
$1.8
$5.4
16
Tencent
32
$17.5
$56
$0.7
$2.4
$9.6
Google
$1.4
drbaph
Z-Image(造相)是一個擁有60億參數的高效圖像生成基礎模型,專門解決圖像生成領域的效率和質量問題。其蒸餾版本Z-Image-Turbo僅需8次函數評估就能達到或超越領先競品,在企業級H800 GPU上可實現亞秒級推理延遲,並能在16G VRAM的消費級設備上運行。
silveroxides
基於 black-forest-labs/FLUX.2-dev 的優化版本圖像生成模型,支持圖像到圖像的生成和編輯任務,採用 fp8_scaled 量化技術提升推理速度,特別適合在低顯存 GPU 上使用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基於GLM-4.5-Iceblink-v2-106B-A12B模型,採用最先進的混合專家量化方法進行FP8量化的版本。該模型專門針對支持硬件FP8的Ada、Hopper或Blackwell系列GPU優化,在保持高質量輸出的同時顯著提升推理效率。
tencent
混元視頻-1.5是一款輕量級高性能視頻生成模型,僅用83億參數就能提供頂級的視頻質量,顯著降低了使用門檻。它能在消費級GPU上流暢運行,支持文本到視頻和圖像到視頻生成,讓每個開發者和創作者都能輕鬆使用。
pnnbao-ump
VieNeu-TTS-1000h是一款先進的越南語端側文本轉語音模型,基於約1000小時高質量越南語語音數據訓練,具備即時語音克隆功能,支持越南語與英語的無縫切換,能在CPU或GPU上即時合成24kHz波形。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基於quanhaol/Wan2.2-TI2V-5B-Turbo基礎模型轉換而來的圖像轉視頻模型,經過優化可在4GB GPU上運行,具有出色的通用性和高效推理能力。
FastVideo
FastVideo團隊推出的圖像轉視頻模型,屬於CausalWan2.2 I2V A14B系列,支持8步推理,能適配從H100到4090等多種GPU,也支持Mac用戶使用。
QuantStack
本項目是基於Flux架構的文本到圖像模型Nepotism的量化版本,採用SVDQuant技術進行優化。提供了INT4和FP4兩種量化格式,分別適用於不同世代的GPU硬件,在保持圖像生成質量的同時顯著減少模型大小和內存佔用。
Qwen
Qwen3-VL是通義系列最強大的視覺語言模型,採用混合專家模型架構(MoE),提供GGUF格式權重,支持在CPU、GPU等設備上進行高效推理。模型在文本理解、視覺感知、空間理解、視頻處理等方面全面升級。
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。本倉庫提供GGUF格式權重,支持在CPU、GPU等設備上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通義千問系列的多模態視覺語言模型的GGUF量化版本,具備20億參數,支持圖像理解和文本生成的無縫融合,可在CPU、GPU等設備上高效運行。
這是基於Danrisi的Flux架構文本到圖像模型UltraReal Fine-Tune的Nunchaku量化(SVDQ)版本。該模型提供了兩種量化格式:INT4適用於非Blackwell架構GPU(50系列之前),NVFP4適用於Blackwell架構GPU(50系列),旨在降低硬件需求同時保持圖像生成質量。
spooknik
這是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基於Flux開發,是一款文本到圖像生成模型。該版本提供了多種量化方案,適配不同GPU硬件,特別針對非Blackwell系列和Blackwell系列GPU進行了優化。
sanchezalonsodavid17
這是DeepSeek-OCR的模態平衡量化(MBQ)變體,通過對視覺編碼器採用4位NF4量化減少內存佔用,同時保持投影器和語言/解碼器的BF16精度,可在普通GPU上進行本地部署和快速CPU試驗。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微調版本,由TheStage AI針對多平臺(NVIDIA GPU和Apple Silicon)的即時、低延遲和低功耗語音轉文本推理進行了優化。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一個經過FP4量化處理的多語言大語言模型,基於Meta-Llama-3.1架構,專為商業和研究用途設計。該模型通過將權重和激活量化為FP4數據類型,顯著減少了磁盤空間和GPU內存需求,同時保持較好的性能表現。
Project0 SVDQ 是基於 Flux Dev 和 Flux Krea 的文本到圖像模型的量化版本,採用 SVDQuant 技術進行優化,提供 INT4 和 FP4 兩種量化格式,分別適用於不同世代的 GPU 硬件。
這是Project0模型的SVDQ量化版本,基於Flux Dev和Flux Krea創建的文本到圖像模型。該模型提供了多種量化格式,針對不同GPU架構進行了優化,包括INT4和FP4量化版本,適用於Blackwell和非Blackwell GPU用戶。
kenpath
Svara-TTS是一款面向印度語言的開源多語言文本轉語音模型,支持19種語言(18種印度語言+印度英語)。該模型基於Orpheus風格的離散音頻令牌方法構建,旨在普通GPU/CPU上實現清晰、富有表現力且低延遲的語音合成。
DiffuGen是一個先進的本地圖像生成工具,集成了MCP協議,支持多種AI模型(包括Flux和Stable Diffusion系列),可直接在開發環境中生成高質量圖像。它提供了靈活的配置選項、多GPU支持,並可通過MCP協議與多種IDE集成,同時提供OpenAPI接口供外部調用。
VkRunner是一個基於Piglit的shader_runner的Vulkan著色器測試工具,旨在支持與Piglit的shader_test格式儘可能相似的測試腳本。它支持通過GLSL或SPIR-V編寫著色器,並提供豐富的測試命令來驗證著色器的行為,包括繪製、計算、探針檢測等功能。
該項目集成Graphistry的GPU加速圖可視化平臺與模型控制協議(MCP),為AI助手和大型語言模型提供先進的圖分析能力,支持多種數據格式和網絡分析功能。
Hyperbolic GPU MCP服務器是一個與Hyperbolic GPU雲交互的工具,允許代理和LLM查看、租用GPU,並通過SSH連接運行GPU加速的工作負載。
Hyperbolic GPU MCP服務器是一個基於Node.js的工具,允許用戶通過API管理和租用Hyperbolic雲平臺上的GPU資源,包括查看可用GPU、租用實例、SSH連接及運行GPU工作負載等功能。
MCP說話人分離與識別系統是一個集成了GPU加速的說話人分離、語音識別、情感檢測和Web界面的完整解決方案。它結合了pyannote.audio的說話人分離與faster-whisper轉錄技術,支持持久化說話人識別(一次註冊,永久識別)、雙檢測器情感分析(結合通用AI與個性化聲紋)、即時流處理、REST API和MCP服務器,專為AI智能體集成和愛好項目設計。