富士通发布创新架构PHOTON,采用自上而下网络并行分层计算,针对Transformer在长文本、高并发等场景下因频繁访存调取历史信息导致处理缓慢的痛点,旨在突破算力成本与效率瓶颈。
人工智能领域传奇研究员、Transformer架构核心作者诺姆·沙泽尔宣布加盟OpenAI。此前谷歌、OpenAI等巨头展开激烈竞争,最终OpenAI成功招揽。值得关注的是,不到两年前谷歌刚以约27亿美元技术许可费请回这位“巫师”,其迅速转投竞争对手引发震动,彰显AI人才战白热化。
Google发布全新开源大模型Gemma412B,采用“Unified”无编码器架构,突破端侧全模态AI。该模型无需传统视觉、音频外部编码器,直接输入文字、图像、音频、视频四种模态数据至同一Transformer主干网络处理,消除了外挂“翻译”模块带来的显存占用和高延迟问题。
英伟达发布全球首款全开源物理AI大模型Cosmos3,基于混合Transformer架构,融合视觉推理、世界生成与动作预测,将物理AI训练评估周期从数月缩短至数天,解决具身智能数据有限和仿真零散问题。
基于 Diffusion Transformer 架构的十亿参数文生 3D 动作模型。
AI21 Jamba Large 1.6 是一款强大的混合 SSM-Transformer 架构基础模型,擅长长文本处理和高效推理。
基于Gemma-2-27B架构的先进奖励模型
新一代大模型架构,超越 Transformer。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Alibaba
$4
$16
1k
$2
$20
-
Bytedance
$1.2
$3.6
4
256
Moonshot
$0.8
128
$10.5
Tencent
$1
32
Deepseek
$12
Openai
$0.4
$0.75
$8.75
$70
400
64
$0.63
$3.15
131
24
Chatglm
$8
ryandono
本模型是 mixedbread-ai/mxbai-edge-colbert-v0-17m 的量化(Int8 / Q8)版本,专为与 transformers.js 配合使用而导出。它包含了48维ColBERT架构所需的自定义投影层,旨在提供高效的向量检索能力。
allenai
Olmo 3是由Allen Institute for AI (Ai2)开发的一系列语言模型,包含7B和32B两种规格,有Instruct和Think两种变体。该模型基于Transformer架构,具有长链思维能力,可有效提升数学和编码等推理任务的表现。
Maxlegrec
BT4模型是LeelaChessZero引擎背后的神经网络模型,专门用于国际象棋对弈。该模型基于Transformer架构设计,能够根据历史走法预测最佳下一步走法、评估棋局形势并生成走法概率。
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
JetBrains-Research
这是一个已发布在Hugging Face Hub上的🤗 Transformers模型,具体信息需要从模型页面获取。该模型基于Transformer架构,适用于多种自然语言处理任务。
Prior-Labs
TabPFN-2.5是基于Transformer架构的表格基础模型,利用上下文学习技术,能够在一次前向传播中解决表格预测问题,为结构化表格数据提供高效的回归和分类解决方案。
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
impresso-project
Impresso NER模型是一个专门用于历史文档处理的多语言命名实体识别模型。基于堆叠式Transformer架构,能够识别数字化历史文本中的细粒度和粗粒度实体类型,包括人名、头衔、地点等。该模型针对历史文档中的OCR噪声、拼写变化和非标准语言用法进行了优化。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
neuralvfx
LibreFLUX-ControlNet是一个基于ControlNet架构的文本到图像生成模型,使用LibreFLUX作为基础Transformer模型。该模型在SA1B数据集上进行训练,能够根据文本提示和控制图像生成高质量的图像内容。
kormo-lm
这是一个发布在Hugging Face模型中心的Transformers模型,具体信息需要模型作者补充。该模型基于Transformer架构,可用于多种自然语言处理任务。
ByteDance-Seed
AHN是一种用于高效长上下文建模的创新神经网络架构,通过将无损内存转换为固定大小的压缩表示,结合了Transformer和RNN的优势,在长序列处理中实现高效计算和准确预测。
ObleeSzn
这是一个发布在Hugging Face模型中心的Transformer模型,具体信息需要从模型页面获取。该模型基于Transformer架构,可用于自然语言处理相关任务。
mlx-community
IBM Granite-4.0-H-Tiny是经过苹果硅芯片优化的混合Mamba-2/Transformer模型,采用3位量化技术,专为长上下文、高效推理和企业使用而设计。该模型结合了Mamba-2架构和专家混合技术,在保持表达能力的同时显著降低内存占用。
jeevanrushi07
OpenLLaMA 3B v2是一个基于Transformer架构的开源大语言模型,拥有30亿参数。该模型采用MIT许可证,主要用于英文文本生成任务,支持聊天机器人等多种应用场景。
vilhess
PatchFM是一个基于Transformer架构的单变量时间序列预测基础模型,采用逐块预测方法,借鉴大语言模型的训练思想,将时间序列分割为块进行下一块预测,支持多分位数输出和不确定性估计。
PhongInk
这是一个基于🤗 Transformers架构的模型,具体类型和功能待进一步信息确认。模型已发布至Hugging Face模型中心,可用于自然语言处理等相关任务。
samuelsimko
这是一个基于Transformer架构的预训练模型,具体功能和特性需要根据实际模型信息补充。模型支持多种下游任务,具备良好的泛化能力。
基于Gradio的轻量级应用,使用Hugging Face Transformers进行情感分析和反讽检测,兼容MCP架构,可在CPU上运行。