AI芯片公司Mythic获1.25亿美元融资,将开发能效比GPU高100倍的模拟处理单元。本轮融资由DCVC领投,资金用于产品开发、软件完善及商业扩展。
谷歌正推进“TorchTPU”计划,旨在提升其TPU芯片对PyTorch框架的兼容性,以降低开发者从英伟达GPU迁移至谷歌TPU的成本。此举意在挑战英伟达在AI芯片领域的统治地位,打破PyTorch与英伟达CUDA的深度绑定。
美国商务部批准英伟达向中国特定客户出口H200 AI芯片,标志着其高端GPU时隔数月重返中国市场。美国政府将从相关销售中收取25%分成。特朗普在社交媒体上宣布决定,英伟达发表声明表示欢迎。
大模型时代,算力需求激增,但中小企业与科研机构面临GPU获取难题:本地部署成本高、维护难;传统云服务配置复杂、调度不灵活。需探索更经济、灵活的算力解决方案。
智能算力即开即用,全面提升效率与竞争力。
欧盟地区可快速租赁的私密、实惠GPU服务器,提供多种配置和AI模板。
提供高性能GPU出租服务,包括B200、H200、RTX4090、H100等型号。即时部署,价格透明。
通过先进的MoE技术在消费级GPU上将文本和图像转换为720P视频。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
-
Bytedance
$0.8
$2
128
Alibaba
$0.4
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
$1.8
$5.4
16
Tencent
32
$17.5
$56
$0.7
$2.4
$9.6
Google
$0.14
$0.28
drbaph
Z-Image(造相)是一个拥有60亿参数的高效图像生成基础模型,专门解决图像生成领域的效率和质量问题。其蒸馏版本Z-Image-Turbo仅需8次函数评估就能达到或超越领先竞品,在企业级H800 GPU上可实现亚秒级推理延迟,并能在16G VRAM的消费级设备上运行。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基于quanhaol/Wan2.2-TI2V-5B-Turbo基础模型转换而来的图像转视频模型,经过优化可在4GB GPU上运行,具有出色的通用性和高效推理能力。
FastVideo
FastVideo团队推出的图像转视频模型,属于CausalWan2.2 I2V A14B系列,支持8步推理,能适配从H100到4090等多种GPU,也支持Mac用户使用。
QuantStack
本项目是基于Flux架构的文本到图像模型Nepotism的量化版本,采用SVDQuant技术进行优化。提供了INT4和FP4两种量化格式,分别适用于不同世代的GPU硬件,在保持图像生成质量的同时显著减少模型大小和内存占用。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
这是基于Danrisi的Flux架构文本到图像模型UltraReal Fine-Tune的Nunchaku量化(SVDQ)版本。该模型提供了两种量化格式:INT4适用于非Blackwell架构GPU(50系列之前),NVFP4适用于Blackwell架构GPU(50系列),旨在降低硬件需求同时保持图像生成质量。
spooknik
这是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基于Flux开发,是一款文本到图像生成模型。该版本提供了多种量化方案,适配不同GPU硬件,特别针对非Blackwell系列和Blackwell系列GPU进行了优化。
sanchezalonsodavid17
这是DeepSeek-OCR的模态平衡量化(MBQ)变体,通过对视觉编码器采用4位NF4量化减少内存占用,同时保持投影器和语言/解码器的BF16精度,可在普通GPU上进行本地部署和快速CPU试验。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一个经过FP4量化处理的多语言大语言模型,基于Meta-Llama-3.1架构,专为商业和研究用途设计。该模型通过将权重和激活量化为FP4数据类型,显著减少了磁盘空间和GPU内存需求,同时保持较好的性能表现。
这是Project0模型的SVDQ量化版本,基于Flux Dev和Flux Krea创建的文本到图像模型。该模型提供了多种量化格式,针对不同GPU架构进行了优化,包括INT4和FP4量化版本,适用于Blackwell和非Blackwell GPU用户。
Project0 SVDQ 是基于 Flux Dev 和 Flux Krea 的文本到图像模型的量化版本,采用 SVDQuant 技术进行优化,提供 INT4 和 FP4 两种量化格式,分别适用于不同世代的 GPU 硬件。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
Hyperbolic GPU MCP服务器是一个基于Node.js的工具,允许用户通过API管理和租用Hyperbolic云平台上的GPU资源,包括查看可用GPU、租用实例、SSH连接及运行GPU工作负载等功能。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
该项目集成Graphistry的GPU加速图可视化平台与模型控制协议(MCP),为AI助手和大型语言模型提供先进的图分析能力,支持多种数据格式和网络分析功能。
Hyperbolic GPU MCP服务器是一个与Hyperbolic GPU云交互的工具,允许代理和LLM查看、租用GPU,并通过SSH连接运行GPU加速的工作负载。
VkRunner是一个基于Piglit的shader_runner的Vulkan着色器测试工具,旨在支持与Piglit的shader_test格式尽可能相似的测试脚本。它支持通过GLSL或SPIR-V编写着色器,并提供丰富的测试命令来验证着色器的行为,包括绘制、计算、探针检测等功能。
MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术,支持持久化说话人识别(一次注册,永久识别)、双检测器情感分析(结合通用AI与个性化声纹)、实时流处理、REST API和MCP服务器,专为AI智能体集成和爱好项目设计。