OpenAI与Cerebras合作推出GPT-5.3-Codex-Spark模型,专为实时编程优化,解决AI编程中的“等待焦虑”。该模型利用Cerebras晶圆级引擎实现超高速推理,速度突破1000tokens/s,实现代码生成与思绪同步的即时反馈。
OpenAI正寻求英伟达之外的AI算力替代方案,因其对英伟达最新芯片在推理环节的响应速度不满。公司发现,在代码生成等复杂交互中,硬件速度已成瓶颈,因此战略重心正从模型训练转向推理优化。
清华大学TSAIL实验室与生数科技联合开源视频生成加速框架TurboDiffusion,将AI视频扩散模型的推理速度提升100至200倍,视觉质量几乎无损。该技术针对现有开源模型进行深度优化,在单张RTX 5090显卡上实现从分钟级到秒级的实时生成,标志着AI视频创作进入新时代。
火山引擎推出豆包视频生成模型1.0pro fast,生成速度提升3倍,价格降低72%,同时优化视频质量和场景适配性,为开发者提供高效低成本AI工具。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
ai-sage
GigaChat3-10B-A1.8B 是 GigaChat 系列的高效对话模型,基于混合专家(MoE)架构,拥有 100 亿总参数和 18 亿活跃参数。它采用了创新的多头潜在注意力(MLA)和多令牌预测(MTP)技术,旨在优化推理吞吐量和生成速度。模型在 20T 令牌的多样化数据上训练,支持包括中文在内的 10 种语言,适用于需要快速响应的对话场景。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
DevQuasar
本项目是基于IBM Granite-4.0-h-350m模型的量化版本,致力于让知识为每个人所用。该模型是一个高效的文本生成模型,经过量化优化后具有更小的模型体积和更快的推理速度。
QuantStack
基于Flux.1开发的文本到图像生成模型的SVDQ量化版本,提供INT4和FP4两种量化格式,针对不同GPU架构优化,在保持图像质量的同时显著减少显存占用和提升推理速度。
mintujohnson
这是一个基于Llama-3.2-3B架构的微调语言模型,专门针对法语和英语的文本生成任务进行了优化训练。该模型使用了Unsloth和Huggingface的TRL库进行训练,训练速度提升了2倍,支持高效的文本生成推理。
qforge
这是一个基于Qwen3架构的微调模型,使用Unsloth和Huggingface TRL库进行高效训练,训练速度提升了2倍,专门针对文本生成任务进行了优化。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
rodrigomt
这是基于Qwen3-Coder-30B模型的量化版本,专门针对代码生成任务优化的语言模型,提供了多种GGUF格式的量化文件,在保持模型质量的同时显著减小文件大小并提升推理速度
GazTrab
这是一个基于Gemma3架构的微调模型,使用Unsloth和Hugging Face TRL库进行高效训练,训练速度提升2倍,专门针对文本生成任务进行了优化。
ramblingpolymath
这是Qwen3-Coder-30B-A3B-Instruct的W4A16量化版本,采用4位权重和16位激活的量化技术,内存占用减少约75%,推理速度提升,专门针对代码生成和编程任务优化。
lurf21
基于Qwen/Qwen2.5-Coder-7B模型使用Unsloth和TRL库进行训练优化的文本生成推理模型,训练速度提升2倍
DavidAU
基于Qwen3-30B-A3B专家混合模型的优化版本,通过减少激活专家数量提升速度,支持64k上下文长度,适用于多种文本生成任务。
Qwen3-30B的高速优化版本,通过减少激活专家数量实现推理速度翻倍,适用于需要快速响应的文本生成场景
skshmjn
这是一个基于Llama-3.2-3B-Instruct架构微调的文本生成模型,通过使用Unsloth和Huggingface的TRL库进行优化,训练速度提升了2倍。模型适用于文本生成推理等场景,可用于下游任务开发。
unsloth
基于Meta Llama 3.2 3B模型,通过Unsloth优化框架进行4位量化微调的版本。相比原始版本,训练速度提升5倍,内存使用减少70%,支持多语言对话和文本生成任务。
gpustack
Flux.1 Lite是从FLUX.1-dev模型蒸馏出的80亿参数Transformer模型,专为文本生成图像任务优化,在保持精度的同时减少内存占用并提升速度。
RefalMachine
这是基于Qwen2.5-1.5B模型专门为俄语优化的版本,通过替换分词器、俄语语料继续预训练和LEP技术,显著提升了俄语文本生成速度,最高可达60%的提升。
这是一款基于Llama-3.2架构的1B参数模型,专门针对恐怖题材进行了优化训练。它结合了NEO IMATRIX Tiny 'Wee'恐怖数据集,在创意写作、恐怖故事生成等方面表现出色,能提供生动且富有沉浸感的文本内容。模型支持128k上下文长度,推理速度可达190+ tokens/秒。
基于NEO IMATRIX科幻与故事数据集训练的10亿参数语言模型,具有128k上下文长度和出色的推理速度,在GPU上每秒可处理190+个令牌,专为科幻创作和故事生成优化。