埃隆·马斯克否认xAI完成150亿美元融资的传闻。此前CNBC报道称,xAI正融资采购GPU算力训练Grok模型,估值或达2000亿美元。在AI融资热潮下,此消息引发关注,对比OpenAI近期融资66亿美元、估值5000亿美元。
腾讯2023年Q3财报显示,尽管营收利润增长,但资本开支低于预期,引发AI项目关注。总裁刘炽平解释称,GPU储备充足,能满足内部需求,特别是支持“元宝”项目。
人工智能公司Anthropic计划投资500亿美元在美国建设AI基础设施,首期项目将在得克萨斯州和纽约州建设定制数据中心,以支持企业业务和长期研究。该项目与AI云平台Fluidstack合作开发,后者为Meta等客户提供GPU集群服务。预计2026年首批数据中心投入运营,将创造800个永久岗位和2000多个建筑岗位。
Maya Research推出Maya1文本转语音模型,30亿参数,可在单GPU实时运行。模型通过自然语言描述和文本输入,生成可控且富有表现力的语音,精准模拟人类情感与声音细节,如指定年龄、口音或角色特征。
提供高性能GPU出租服务,包括B200、H200、RTX4090、H100等型号。即时部署,价格透明。
通过先进的MoE技术在消费级GPU上将文本和图像转换为720P视频。
专注于 GPU 算力云服务,提供高效算力解决方案。
基于 Intel Arc GPU 的 AI 图像生成与聊天机器人应用。
nvidia
-
输入tokens/百万
输出tokens/百万
128k
上下文长度
xai
$21.6
$108
1M
mistral
$0.72
$2.16
256k
ai21-labs
$3.53
$7.99
260k
258k
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
spooknik
这是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基于Flux开发,是一款文本到图像生成模型。该版本提供了多种量化方案,适配不同GPU硬件,特别针对非Blackwell系列和Blackwell系列GPU进行了优化。
sanchezalonsodavid17
这是DeepSeek-OCR的模态平衡量化(MBQ)变体,通过对视觉编码器采用4位NF4量化减少内存占用,同时保持投影器和语言/解码器的BF16精度,可在普通GPU上进行本地部署和快速CPU试验。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一个经过FP4量化处理的多语言大语言模型,基于Meta-Llama-3.1架构,专为商业和研究用途设计。该模型通过将权重和激活量化为FP4数据类型,显著减少了磁盘空间和GPU内存需求,同时保持较好的性能表现。
这是Project0模型的SVDQ量化版本,基于Flux Dev和Flux Krea创建的文本到图像模型。该模型提供了多种量化格式,针对不同GPU架构进行了优化,包括INT4和FP4量化版本,适用于Blackwell和非Blackwell GPU用户。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
Jalea96
DeepSeek-OCR-bnb-4bit-NF4 是 deepseek-ai/DeepSeek-OCR 的 4 位 NF4 量化版本,使用 bitsandbytes 创建。它在保持高精度的同时,显著减少了显存使用量(最多可减少至 8GB),非常适合消费级 GPU。
gravitee-io
这是一个专门用于压缩短用户提示(≤64个标记)的序列到序列模型,在现代GPU上可实现亚100毫秒的低延迟运行,作为轻量级预处理阶段为高容量大语言模型提供支持。
基于J1B的Flux.1-Dev开发的文本到图像生成模型的量化版本,采用SVDQuant技术进行优化,提供INT4和FP4两种量化格式,适用于不同GPU架构的用户。
PixelWave是基于Flux.1开发的文本到图像模型,经过Nunchaku量化(SVDQ)优化,为不同GPU配置的用户提供了高效的图像生成解决方案。
这是Qwen3-235B-A22B-Instruct-2507模型的量化版本,通过将权重和激活量化为FP4数据类型,显著降低了磁盘大小和GPU内存需求,同时保持与原始模型相近的性能表现。
CenKreChro-SVDQ 是基于 Chroma 和 Flux Krea 合并的文本到图像生成模型的量化版本,采用 SVDQuant 技术进行优化,提供 INT4 和 FP4 两种量化格式,分别适用于不同世代的 GPU 硬件。
这是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通过对权重和激活值进行FP8量化,显著减少了磁盘大小和GPU内存需求,同时保持了良好的模型性能。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
bartowski
这是TheDrummer/Snowpiercer-15B-v3模型的GGUF量化版本,提供了多种量化选项,从高质量到低内存占用,支持在CPU和GPU上高效运行。模型使用llama.cpp进行量化,并针对不同硬件进行了优化。
Hyperbolic GPU MCP服务器是一个基于Node.js的工具,允许用户通过API管理和租用Hyperbolic云平台上的GPU资源,包括查看可用GPU、租用实例、SSH连接及运行GPU工作负载等功能。
该项目集成Graphistry的GPU加速图可视化平台与模型控制协议(MCP),为AI助手和大型语言模型提供先进的图分析能力,支持多种数据格式和网络分析功能。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
Hyperbolic GPU MCP服务器是一个与Hyperbolic GPU云交互的工具,允许代理和LLM查看、租用GPU,并通过SSH连接运行GPU加速的工作负载。
VkRunner是一个基于Piglit的shader_runner的Vulkan着色器测试工具,旨在支持与Piglit的shader_test格式尽可能相似的测试脚本。它支持通过GLSL或SPIR-V编写着色器,并提供丰富的测试命令来验证着色器的行为,包括绘制、计算、探针检测等功能。