智谱联合华为开源图像生成模型GLM-Image,这是首个在国产芯片上完成全流程训练的SOTA多模态模型。其创新采用“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的深度融合,在知识密集型任务中表现出色,能精准理解全局指令。
vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
人工智能初创公司Inception重获新生,完成5000万美元融资,由Menlo Ventures领投,微软M12、英伟达等参投。公司创始人Mustafa Suleyman曾于2024年将公司售予微软,如今再度复活。Inception正押注新型扩散语言模型(dLLM),该架构区别于传统自回归大模型(LLM),有望带来技术突破。
斯坦福教授Stefano Ermon创立的AI初创公司Inception完成5000万美元种子轮融资,获Menlo Ventures领投,微软、英伟达等巨头跟投,吴恩达等AI大咖天使投资。公司以颠覆性架构突破当前自回归模型竞争格局,引发行业关注。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
Xai
$1.4
$10.5
256
Bytedance
$4
$16
128
Google
-
Openai
$0.7
$2.8
1k
$0.35
131
Stepfun
$38
$120
16
$1
$2
32
Shanghai-ai-lab
8
$1.05
$4.2
Baidu
4
allenai
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
NVIDIA Qwen3-14B FP4 模型是阿里云 Qwen3-14B 模型的量化版本,采用优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活量化为 FP4 数据类型,可在 NVIDIA GPU 加速系统上实现高效推理。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构,属于自回归语言模型。该模型通过FP8量化技术优化,可在NVIDIA GPU上实现高效推理,支持商业和非商业用途。
NVIDIA Qwen3-8B FP4 模型是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构的自回归语言模型。该模型使用FP4量化技术,在保持性能的同时显著减少内存占用和计算需求,适用于AI智能体系统、聊天机器人、RAG系统等应用场景。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。通过FP4量化优化,减少了磁盘大小和GPU内存需求,同时保持较高推理效率。
NVIDIA Qwen3-30B-A3B FP4模型是阿里云Qwen3-30B-A3B模型的量化版本,采用优化的Transformer架构,是自回归语言模型。该模型使用TensorRT Model Optimizer进行FP4量化,将每个参数的比特数从16位减少到4位,使磁盘大小和GPU内存需求减少约3.3倍,同时保持较高的性能表现。
NVIDIA Qwen3-235B-A22B FP4 模型是阿里云 Qwen3-235B-A22B 模型的量化版本,基于优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活值量化为 FP4 数据类型,显著减少了存储和计算需求。
NVIDIA Qwen3-235B-A22B FP4模型是阿里云Qwen3-235B-A22B模型的量化版本,采用优化的Transformer架构,是一种自回归语言模型。该模型通过FP4量化技术将参数从16位减少到4位,使磁盘大小和GPU内存需求减少约3.3倍,同时保持较高的准确性和性能。
NVIDIA Qwen3-235B-A22B FP8模型是阿里云Qwen3-235B-A22B模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。该模型通过FP8量化技术显著减少了磁盘空间和GPU内存需求,同时保持较高的推理精度,适用于各种AI应用场景。
vladinc
这是一个基于DistilBERT架构的回归模型,能够根据英文自由文本预测大五人格特质(开放性、责任心、外向性、宜人性和神经质),输出为0.0到1.0之间的连续值。
DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,基于优化的 Transformer 架构的自回归语言模型,可用于商业和非商业用途。
bene-ges
基于BERT架构的非自回归俄语字形到音素(G2P)转换模型,用于预测国际音标(IPA)格式的音素。
Skywork
SkyReels V2是首个采用自回归扩散强制架构的开源视频生成模型,支持无限长度电影生成,在公开模型中实现了最先进的性能表现。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持高质量视频生成。
SkyReels V2是一款无限长度电影生成模型,采用自回归扩散强制架构,支持高分辨率视频生成。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持文生视频和图生视频任务,能够生成高质量的长视频内容。
SkyReels V2 是一个采用自回归扩散强制架构的开源视频生成模型,支持无限长度电影生成,在公开模型中实现了最先进的性能表现。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持720P高清视频生成,在公开模型中达到SOTA性能。