英伟达发布Nemotron 3系列,融合Mamba与Transformer架构,高效处理长上下文并降低资源消耗。该系列专为自主执行复杂任务的AI代理系统设计,包含Nano、Super、Ultra三款型号。目前Nano已上市,Super和Ultra预计2026年上半年推出。
Runway公司最新模型Gen-4.5在第三方盲测平台Video Arena中击败谷歌Veo3与OpenAI Sora2Pro,成为首个由小团队登顶的大模型。其CEO强调“专注研究、快速迭代”的可行性,并指出“一百人对万亿,靠的不是预算,而是密度”。该模型采用自研时空混合Transformer架构,展现了小团队在AI视频生成领域的突破。
大华股份在同行拼参数时,将6B视觉模型塞进16GB显存边缘盒子,Q3净利增44%至10.6亿元。其2019年起用Transformer自洗数据、自标注,五年后"1+2"体系发展出V/M/L系列模型,实现高效边缘AI部署。
美国Tahoe Bio公司发布30亿参数AI模型Tahoe-x1,专为解析基因、细胞与药物关系设计。该模型基于Transformer架构,标志AI从辅助工具升级为生命系统建模引擎,有望推动癌症靶点发现和个性化疗法发展。
为 Diffusion Transformer 提供高效灵活的控制框架。
AI21 Jamba Large 1.6 是一款强大的混合 SSM-Transformer 架构基础模型,擅长长文本处理和高效推理。
基于Transformer实现的ViTPose模型集合
高性能的双向编码器Transformer模型
Bytedance
$1.2
输入tokens/百万
$3.6
输出tokens/百万
4
上下文长度
Tencent
$1
$4
32
$0.8
$2
$3
$9
16
$1.5
$6
128
Google
$0.35
$0.7
131
Alibaba
-
$12
28
Openai
$1.05
$4.2
1k
Chatglm
$100
chunchiliu
这是一个已发布在 Hugging Face Hub 上的 🤗 Transformers 模型,其模型卡片由系统自动生成。目前卡片中大部分详细信息(如开发者、模型类型、语言、许可证等)均处于待补充状态。
optimum-internal-testing
这是一个Hugging Face Hub上的🤗 Transformers模型,具体信息待补充。模型卡片为自动生成,需要模型发布者提供更多详细信息。
ryandono
本模型是 mixedbread-ai/mxbai-edge-colbert-v0-17m 的量化(Int8 / Q8)版本,专为与 transformers.js 配合使用而导出。它包含了48维ColBERT架构所需的自定义投影层,旨在提供高效的向量检索能力。
Sachin-0001
这是一个基于🤗 Transformers库的双向自回归Transformer模型,已上传至模型中心。模型卡片由系统自动生成,具体技术细节和应用信息需要进一步补充。
riverjiang
这是一个发布在Hugging Face模型中心的Transformer模型,具体信息待补充。模型卡片为自动生成,需要进一步补充详细信息。
onnx-community
Supertonic-TTS-ONNX是一个基于ONNX格式的文本到语音转换模型,能够将英文文本转换为自然流畅的语音。该模型基于Supertone/supertonic基础模型开发,专为Transformers.js库优化,支持在浏览器环境中高效运行。
allenai
Olmo 3是由Allen Institute for AI (Ai2)开发的一系列语言模型,包含7B和32B两种规格,有Instruct和Think两种变体。该模型基于Transformer架构,具有长链思维能力,可有效提升数学和编码等推理任务的表现。
SAM3是基于概念的任意分割模型,能够根据输入的点、框等提示信息生成精确的图像分割掩码。该版本是ONNX格式的SAM3跟踪器模型,通过Transformers.js库可在浏览器环境中高效运行。
peterant330
这是一个上传至Hugging Face模型中心的Transformer模型,具体功能和特性需要进一步补充信息。
Maxlegrec
BT4模型是LeelaChessZero引擎背后的神经网络模型,专门用于国际象棋对弈。该模型基于Transformer架构设计,能够根据历史走法预测最佳下一步走法、评估棋局形势并生成走法概率。
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
JetBrains-Research
这是一个已发布在Hugging Face Hub上的🤗 Transformers模型,具体信息需要从模型页面获取。该模型基于Transformer架构,适用于多种自然语言处理任务。
Prior-Labs
TabPFN-2.5是基于Transformer架构的表格基础模型,利用上下文学习技术,能够在一次前向传播中解决表格预测问题,为结构化表格数据提供高效的回归和分类解决方案。
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
strangervisionhf
这是一个基于DeepSeek-OCR的图像文本识别模型,专门解决了在最新版本transformers库中的兼容性问题,使模型能够在transformers v4.57.1等最新版本中顺利运行。
bn22
这是一个发布在Hugging Face模型中心的Transformer模型,模型卡片由系统自动生成,具体模型信息需要进一步补充
ByteDance
Ouro-2.6B是一款拥有26亿参数的循环语言模型,通过迭代共享权重计算实现了卓越的参数效率,在仅用26亿参数的情况下达到了30-40亿标准Transformer模型的性能水平。
Ouro-1.4B是由字节跳动开发的具有14亿参数的循环语言模型,通过迭代共享权重计算实现了卓越的参数效率,仅用14亿参数就达到了30-40亿标准Transformer模型的性能水平。
ServiceNow-AI
Apriel-H1-15b-Thinker 是一款拥有150亿参数的混合推理模型,结合了Transformer注意力机制和Mamba状态空间层,在推理、数学和编码等方面表现出色,具备高效性和可扩展性。
emcee是一个为任何具有OpenAPI规范的Web应用提供Model Context Protocol (MCP)服务器的工具,可将Claude Desktop等应用连接到外部工具和数据服务。
一个为Cursor AI中的Claude提供高级推理能力的MCP服务器,包含多种推理方法如蒙特卡洛树搜索、束搜索和Transformer混合推理等。
基于Gradio的轻量级应用,使用Hugging Face Transformers进行情感分析和反讽检测,兼容MCP架构,可在CPU上运行。
一个基于Bun运行时的OAS转换工具项目