人工智能初创公司Inception重获新生,完成5000万美元融资,由Menlo Ventures领投,微软M12、英伟达等参投。公司创始人Mustafa Suleyman曾于2024年将公司售予微软,如今再度复活。Inception正押注新型扩散语言模型(dLLM),该架构区别于传统自回归大模型(LLM),有望带来技术突破。
AI初创公司Inception获5000万美元融资,由Menlo Ventures领投,微软、英伟达等参投。创始人Mustafa Suleyman曾将公司售予微软后专注写作,现公司重点转向扩散模型(dLLMs),与传统自回归大语言模型形成技术差异。
蚂蚁集团开源dInfer框架,专用于扩散大语言模型高效推理。该框架将推理速度提升10倍,在保持同等模型性能下超越传统自回归模型。自回归模型逐字生成文本速度受限,扩散模型通过去噪过程实现更高效推理,推动自然语言处理技术发展。
蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer,显著提升推理速度。基准测试显示,其比英伟达Fast-dLLM快10.7倍,在HumanEval代码生成任务中单次推理达每秒1011个Tokens,推动技术迈向实际应用。
首个融合区块扩散和专家混合技术的高效推理语言模型
利用强化学习提升扩散大语言模型的推理能力。
Dream 7B 是最强大的开放扩散大语言模型。
Inception Labs 推出新一代扩散式大语言模型,提供极速、高效和高质量的语言生成能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
Salesforce
CoDA是Salesforce AI Research研发的基于扩散模型的代码生成语言模型,具备双向上下文理解能力,专为强大的代码生成和补全任务而设计。该模型仅17亿参数,在保持低计算要求的同时实现了卓越的代码生成性能。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
JetLM
SDAR是一种新型大语言模型,集成了自回归和离散扩散建模策略,结合了AR模型高效训练和扩散模型并行推理的优势。在通用任务上与SOTA开源AR模型相当,在科学推理任务上表现出色,成为最强大的扩散语言模型。
CypressYang
SongBloom是一个创新的全长歌曲生成框架,采用自回归草图绘制和基于扩散的细化交错范式,结合了扩散模型的高保真度和语言模型的可扩展性,能够生成高质量的全长歌曲。
Dream-org
Dream-Coder-v0-Base-7B 是一款开源的、性能顶尖的代码生成扩散大语言模型,专注于代码生成任务。
Mungert
一个专为社区免费开放的图像字幕视觉语言模型(VLM),可用于训练扩散模型,支持多样化的图像风格和内容。
OmniGen2
OmniGen2 是一个强大且高效的统一多模态模型,由 3B 视觉语言模型和 4B 扩散模型构成,支持视觉理解、文本到图像生成、指令引导的图像编辑和上下文生成。
GSAI-ML
LLaDA 1.5是一款通过方差缩减偏好优化(VRPO)方法训练的大型扩散语言模型,专注于提升文本生成的质量和效率。
LLaDA-V是一款基于扩散模型的视觉语言模型,性能超越其他扩散多模态大语言模型。
rp-yu
Dimple是首个结合自回归与扩散训练范式的离散扩散多模态大语言模型(DMLLM),在LLaVA-NEXT相同数据集上训练后,以3.9%的优势超越LLaVA-NEXT-7B。
modelscope
Nexus-Gen是一个将大语言模型的语言推理能力与扩散模型的图像生成能力相融合的统一模型
jobs-git
SkyReels V2是全球首个采用扩散强制框架的无限长度电影生成模型,融合多模态大语言模型、多阶段预训练、强化学习与扩散强制技术实现全面优化。
kuleshov-group
BD3-LMs 是一种结合自回归与扩散模型优势的语言模型,通过块离散扩散实现高效序列生成
BD3-LMs 是一种结合自回归和扩散模型优势的语言模型,通过块离散扩散实现高效序列生成。
robotics-diffusion-transformer
RDT-170M是一个拥有1.7亿参数的模仿学习扩散Transformer模型,用于机器人视觉-语言-动作任务。
diffusionfamily
基于Llama-2-7b微调的扩散语言模型
基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型,支持多视角视觉语言动作预测
基于扩散过程的掩码语言模型,采用前向扩散训练方式,能够从不同程度掩码的输入中重建原始文本