埃隆·馬斯克否認xAI完成150億美元融資的傳聞。此前CNBC報道稱,xAI正融資採購GPU算力訓練Grok模型,估值或達2000億美元。在AI融資熱潮下,此消息引發關注,對比OpenAI近期融資66億美元、估值5000億美元。
騰訊2023年Q3財報顯示,儘管營收利潤增長,但資本開支低於預期,引發AI項目關注。總裁劉熾平解釋稱,GPU儲備充足,能滿足內部需求,特別是支持“元寶”項目。
人工智能公司Anthropic計劃投資500億美元在美國建設AI基礎設施,首期項目將在得克薩斯州和紐約州建設定製數據中心,以支持企業業務和長期研究。該項目與AI雲平臺Fluidstack合作開發,後者爲Meta等客戶提供GPU集羣服務。預計2026年首批數據中心投入運營,將創造800個永久崗位和2000多個建築崗位。
Maya Research推出Maya1文本轉語音模型,30億參數,可在單GPU實時運行。模型通過自然語言描述和文本輸入,生成可控且富有表現力的語音,精準模擬人類情感與聲音細節,如指定年齡、口音或角色特徵。
提供高性能GPU出租服務,包括B200、H200、RTX4090、H100等型號。即時部署,價格透明。
通過先進的MoE技術在消費級GPU上將文本和圖像轉換為720P視頻。
專注於 GPU 算力雲服務,提供高效算力解決方案。
基於 Intel Arc GPU 的 AI 圖像生成與聊天機器人應用。
nvidia
-
輸入tokens/百萬
輸出tokens/百萬
128k
上下文長度
xai
$21.6
$108
1M
mistral
$0.72
$2.16
256k
ai21-labs
$3.53
$7.99
260k
258k
Qwen
Qwen3-VL是通義系列最強大的視覺語言模型,採用混合專家模型架構(MoE),提供GGUF格式權重,支持在CPU、GPU等設備上進行高效推理。模型在文本理解、視覺感知、空間理解、視頻處理等方面全面升級。
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。本倉庫提供GGUF格式權重,支持在CPU、GPU等設備上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通義千問系列的多模態視覺語言模型的GGUF量化版本,具備20億參數,支持圖像理解和文本生成的無縫融合,可在CPU、GPU等設備上高效運行。
spooknik
這是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基於Flux開發,是一款文本到圖像生成模型。該版本提供了多種量化方案,適配不同GPU硬件,特別針對非Blackwell系列和Blackwell系列GPU進行了優化。
sanchezalonsodavid17
這是DeepSeek-OCR的模態平衡量化(MBQ)變體,通過對視覺編碼器採用4位NF4量化減少內存佔用,同時保持投影器和語言/解碼器的BF16精度,可在普通GPU上進行本地部署和快速CPU試驗。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微調版本,由TheStage AI針對多平臺(NVIDIA GPU和Apple Silicon)的即時、低延遲和低功耗語音轉文本推理進行了優化。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一個經過FP4量化處理的多語言大語言模型,基於Meta-Llama-3.1架構,專為商業和研究用途設計。該模型通過將權重和激活量化為FP4數據類型,顯著減少了磁盤空間和GPU內存需求,同時保持較好的性能表現。
這是Project0模型的SVDQ量化版本,基於Flux Dev和Flux Krea創建的文本到圖像模型。該模型提供了多種量化格式,針對不同GPU架構進行了優化,包括INT4和FP4量化版本,適用於Blackwell和非Blackwell GPU用戶。
kenpath
Svara-TTS是一款面向印度語言的開源多語言文本轉語音模型,支持19種語言(18種印度語言+印度英語)。該模型基於Orpheus風格的離散音頻令牌方法構建,旨在普通GPU/CPU上實現清晰、富有表現力且低延遲的語音合成。
Jalea96
DeepSeek-OCR-bnb-4bit-NF4 是 deepseek-ai/DeepSeek-OCR 的 4 位 NF4 量化版本,使用 bitsandbytes 創建。它在保持高精度的同時,顯著減少了顯存使用量(最多可減少至 8GB),非常適合消費級 GPU。
gravitee-io
這是一個專門用於壓縮短用戶提示(≤64個標記)的序列到序列模型,在現代GPU上可實現亞100毫秒的低延遲運行,作為輕量級預處理階段為高容量大語言模型提供支持。
基於J1B的Flux.1-Dev開發的文本到圖像生成模型的量化版本,採用SVDQuant技術進行優化,提供INT4和FP4兩種量化格式,適用於不同GPU架構的用戶。
PixelWave是基於Flux.1開發的文本到圖像模型,經過Nunchaku量化(SVDQ)優化,為不同GPU配置的用戶提供了高效的圖像生成解決方案。
這是Qwen3-235B-A22B-Instruct-2507模型的量化版本,通過將權重和激活量化為FP4數據類型,顯著降低了磁盤大小和GPU內存需求,同時保持與原始模型相近的性能表現。
CenKreChro-SVDQ 是基於 Chroma 和 Flux Krea 合併的文本到圖像生成模型的量化版本,採用 SVDQuant 技術進行優化,提供 INT4 和 FP4 兩種量化格式,分別適用於不同世代的 GPU 硬件。
這是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通過對權重和激活值進行FP8量化,顯著減少了磁盤大小和GPU內存需求,同時保持了良好的模型性能。
Downtown-Case
GLM 4.6是一款專為128GB內存+單GPU配置優化的量化模型,採用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的質量和性能。該模型需要配合ik_llama.cpp使用,在128GB雙通道DDR5內存、單CCD Ryzen 7000處理器+單張3090顯卡配置下,文本生成速度可達每秒約6.8個token。
這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本,通過將權重和激活量化為FP8數據類型實現優化,顯著減少磁盤大小和GPU內存需求約50%,同時保持出色的文本生成性能。
bartowski
這是TheDrummer/Snowpiercer-15B-v3模型的GGUF量化版本,提供了多種量化選項,從高質量到低內存佔用,支持在CPU和GPU上高效運行。模型使用llama.cpp進行量化,並針對不同硬件進行了優化。
DiffuGen是一個先進的本地圖像生成工具,集成了MCP協議,支持多種AI模型(包括Flux和Stable Diffusion系列),可直接在開發環境中生成高質量圖像。它提供了靈活的配置選項、多GPU支持,並可通過MCP協議與多種IDE集成,同時提供OpenAPI接口供外部調用。
VkRunner是一個基於Piglit的shader_runner的Vulkan著色器測試工具,旨在支持與Piglit的shader_test格式儘可能相似的測試腳本。它支持通過GLSL或SPIR-V編寫著色器,並提供豐富的測試命令來驗證著色器的行為,包括繪製、計算、探針檢測等功能。
該項目集成Graphistry的GPU加速圖可視化平臺與模型控制協議(MCP),為AI助手和大型語言模型提供先進的圖分析能力,支持多種數據格式和網絡分析功能。
Hyperbolic GPU MCP服務器是一個與Hyperbolic GPU雲交互的工具,允許代理和LLM查看、租用GPU,並通過SSH連接運行GPU加速的工作負載。
Hyperbolic GPU MCP服務器是一個基於Node.js的工具,允許用戶通過API管理和租用Hyperbolic雲平臺上的GPU資源,包括查看可用GPU、租用實例、SSH連接及運行GPU工作負載等功能。