Positron发布AI推理芯片Asimov,宣称其能效比和性价比预计达英伟达下一代产品的5倍,引发行业关注。该芯片针对大模型推理优化,通过简化GPU架构提升效率。
AI网络初创公司Upscale AI获2亿美元A轮融资,由Tiger Global等领投,旨在挑战英伟达在AI系统交换机领域的地位。公司获英特尔、AMD等支持,核心产品为专为AI设计的定制芯片“SkyHammer”,致力于优化GPU间的网络连接,提升AI硬件性能。
国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
英伟达发布大模型微调指南,降低技术门槛,让普通开发者也能在消费级设备上高效完成模型定制。该指南详解如何在NVIDIA全系硬件上利用开源框架Unsloth实现专业级微调。Unsloth专为NVIDIA GPU打造,优化训练全流程,提升性能。
AI 驱动的 CUDA 代码优化平台,快速提升 GPU 性能,无需手动优化复杂代码。
Wan2GP 是一个优化后的开源视频生成模型,专为低配置 GPU 用户设计,支持多种视频生成任务。
一个用于专家并行负载均衡的开源算法,旨在优化多GPU环境下的专家分配和负载平衡。
FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA 解码内核,适用于变长序列服务。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
$0.7
Alibaba
Moonshot
$4
$16
256
Bytedance
$0.8
$2
128
Baidu
32
Tencent
$1
$0.4
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
$15
Huawei
$8
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基于quanhaol/Wan2.2-TI2V-5B-Turbo基础模型转换而来的图像转视频模型,经过优化可在4GB GPU上运行,具有出色的通用性和高效推理能力。
QuantStack
本项目是基于Flux架构的文本到图像模型Nepotism的量化版本,采用SVDQuant技术进行优化。提供了INT4和FP4两种量化格式,分别适用于不同世代的GPU硬件,在保持图像生成质量的同时显著减少模型大小和内存占用。
spooknik
这是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基于Flux开发,是一款文本到图像生成模型。该版本提供了多种量化方案,适配不同GPU硬件,特别针对非Blackwell系列和Blackwell系列GPU进行了优化。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
这是Project0模型的SVDQ量化版本,基于Flux Dev和Flux Krea创建的文本到图像模型。该模型提供了多种量化格式,针对不同GPU架构进行了优化,包括INT4和FP4量化版本,适用于Blackwell和非Blackwell GPU用户。
Project0 SVDQ 是基于 Flux Dev 和 Flux Krea 的文本到图像模型的量化版本,采用 SVDQuant 技术进行优化,提供 INT4 和 FP4 两种量化格式,分别适用于不同世代的 GPU 硬件。
基于J1B的Flux.1-Dev开发的文本到图像生成模型的量化版本,采用SVDQuant技术进行优化,提供INT4和FP4两种量化格式,适用于不同GPU架构的用户。
基于Flux.1开发的文本到图像生成模型的SVDQ量化版本,提供INT4和FP4两种量化格式,针对不同GPU架构优化,在保持图像质量的同时显著减少显存占用和提升推理速度。
PixelWave是基于Flux.1开发的文本到图像模型,经过Nunchaku量化(SVDQ)优化,为不同GPU配置的用户提供了高效的图像生成解决方案。
CenKreChro-SVDQ是基于CenKreChro文本到图像模型的量化版本,采用SVDQuant技术进行优化。该模型结合了Chroma和Flux Krea的优势,提供了高效的图像生成能力,特别针对不同GPU架构进行了优化。
CenKreChro-SVDQ 是基于 Chroma 和 Flux Krea 合并的文本到图像生成模型的量化版本,采用 SVDQuant 技术进行优化,提供 INT4 和 FP4 两种量化格式,分别适用于不同世代的 GPU 硬件。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
RedHatAI
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
bartowski
这是TheDrummer/Snowpiercer-15B-v3模型的GGUF量化版本,提供了多种量化选项,从高质量到低内存占用,支持在CPU和GPU上高效运行。模型使用llama.cpp进行量化,并针对不同硬件进行了优化。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,采用优化的Transformer架构,支持多模态输入(文本和图像),适用于多种AI应用场景。该模型通过TensorRT Model Optimizer进行FP4量化,在NVIDIA GPU上提供高效的推理性能。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
NVIDIA Qwen3-14B FP4 模型是阿里云 Qwen3-14B 模型的量化版本,采用优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活量化为 FP4 数据类型,可在 NVIDIA GPU 加速系统上实现高效推理。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构,属于自回归语言模型。该模型通过FP8量化技术优化,可在NVIDIA GPU上实现高效推理,支持商业和非商业用途。