人工智能初创公司Inception重获新生,完成5000万美元融资,由Menlo Ventures领投,微软M12、英伟达等参投。公司创始人Mustafa Suleyman曾于2024年将公司售予微软,如今再度复活。Inception正押注新型扩散语言模型(dLLM),该架构区别于传统自回归大模型(LLM),有望带来技术突破。
斯坦福教授Stefano Ermon创立的AI初创公司Inception完成5000万美元种子轮融资,获Menlo Ventures领投,微软、英伟达等巨头跟投,吴恩达等AI大咖天使投资。公司以颠覆性架构突破当前自回归模型竞争格局,引发行业关注。
AI初创公司Inception获5000万美元融资,由Menlo Ventures领投,微软、英伟达等参投。创始人Mustafa Suleyman曾将公司售予微软后专注写作,现公司重点转向扩散模型(dLLMs),与传统自回归大语言模型形成技术差异。
智源研究院发布Emu3.5多模态世界模型,首次引入自回归式“下一状态预测”技术,推动AI从感知理解迈向智能操作。该模型能在复杂环境中规划执行跨模态任务,实现多模态AI质的飞跃。
新一代自回归图像生成模型,提供多模态输入和高级图像编辑功能。
高性能的英文学术基准语言模型
高效率自回归视频生成模型
大规模视频生成的自回归扩散模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
prithivMLmods
Olmo-3-7B-Instruct-AIO-GGUF是基于Allen Institute for AI开发的Olmo-3-7B-Instruct模型的GGUF量化版本。这是一个70亿参数的自回归语言模型,通过监督微调和直接偏好优化在Tulu 2和UltraFeedback等数据集上训练,在问答和指令遵循方面表现出色。
Sachin-0001
这是一个基于🤗 Transformers库的双向自回归Transformer模型,已上传至模型中心。模型卡片由系统自动生成,具体技术细节和应用信息需要进一步补充。
allenai
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
NVIDIA Qwen3-14B FP4 模型是阿里云 Qwen3-14B 模型的量化版本,采用优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活量化为 FP4 数据类型,可在 NVIDIA GPU 加速系统上实现高效推理。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构,属于自回归语言模型。该模型通过FP8量化技术优化,可在NVIDIA GPU上实现高效推理,支持商业和非商业用途。
NVIDIA Qwen3-8B FP4 模型是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构的自回归语言模型。该模型使用FP4量化技术,在保持性能的同时显著减少内存占用和计算需求,适用于AI智能体系统、聊天机器人、RAG系统等应用场景。
JetLM
SDAR是一种新型大语言模型,集成了自回归和离散扩散建模策略,结合了AR模型高效训练和扩散模型并行推理的优势。在通用任务上与SOTA开源AR模型相当,在科学推理任务上表现出色,成为最强大的扩散语言模型。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。通过FP4量化优化,减少了磁盘大小和GPU内存需求,同时保持较高推理效率。
NVIDIA Qwen3-30B-A3B FP4模型是阿里云Qwen3-30B-A3B模型的量化版本,采用优化的Transformer架构,是自回归语言模型。该模型使用TensorRT Model Optimizer进行FP4量化,将每个参数的比特数从16位减少到4位,使磁盘大小和GPU内存需求减少约3.3倍,同时保持较高的性能表现。
NVIDIA Qwen3-235B-A22B FP4 模型是阿里云 Qwen3-235B-A22B 模型的量化版本,基于优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活值量化为 FP4 数据类型,显著减少了存储和计算需求。
NVIDIA Qwen3-235B-A22B FP4模型是阿里云Qwen3-235B-A22B模型的量化版本,采用优化的Transformer架构,是一种自回归语言模型。该模型通过FP4量化技术将参数从16位减少到4位,使磁盘大小和GPU内存需求减少约3.3倍,同时保持较高的准确性和性能。
NVIDIA Qwen3-235B-A22B FP8模型是阿里云Qwen3-235B-A22B模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。该模型通过FP8量化技术显著减少了磁盘空间和GPU内存需求,同时保持较高的推理精度,适用于各种AI应用场景。
vladinc
这是一个基于DistilBERT架构的回归模型,能够根据英文自由文本预测大五人格特质(开放性、责任心、外向性、宜人性和神经质),输出为0.0到1.0之间的连续值。
CypressYang
SongBloom是一个创新的全长歌曲生成框架,采用自回归草图绘制和基于扩散的细化交错范式,结合了扩散模型的高保真度和语言模型的可扩展性,能够生成高质量的全长歌曲。
showlab
Show-o2 是一个改进的原生统一多模态模型,利用自回归建模和流匹配技术,支持文本、图像和视频模态的统一理解和生成。
DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,基于优化的 Transformer 架构的自回归语言模型,可用于商业和非商业用途。
Franklin0
ReasonGen-R1是一个融合思维链推理的自回归图像生成模型,通过SFT和RL提升图像生成的逻辑性和质量。
该项目展示了使用Claude和模型上下文协议(MCP)进行端到端机器学习工作流的线性回归模型训练。用户只需上传CSV数据集,系统即可自动完成数据预处理、模型训练和评估(RMSE计算)全流程。