英偉達發佈Nemotron 3系列,融合Mamba與Transformer架構,高效處理長上下文並降低資源消耗。該系列專爲自主執行復雜任務的AI代理系統設計,包含Nano、Super、Ultra三款型號。目前Nano已上市,Super和Ultra預計2026年上半年推出。
Runway公司最新模型Gen-4.5在第三方盲測平臺Video Arena中擊敗谷歌Veo3與OpenAI Sora2Pro,成爲首個由小團隊登頂的大模型。其CEO強調“專注研究、快速迭代”的可行性,並指出“一百人對萬億,靠的不是預算,而是密度”。該模型採用自研時空混合Transformer架構,展現了小團隊在AI視頻生成領域的突破。
大華股份在同行拼參數時,將6B視覺模型塞進16GB顯存邊緣盒子,Q3淨利增44%至10.6億元。其2019年起用Transformer自洗數據、自標註,五年後"1+2"體系發展出V/M/L系列模型,實現高效邊緣AI部署。
美國Tahoe Bio公司發佈30億參數AI模型Tahoe-x1,專爲解析基因、細胞與藥物關係設計。該模型基於Transformer架構,標誌AI從輔助工具升級爲生命系統建模引擎,有望推動癌症靶點發現和個性化療法發展。
為 Diffusion Transformer 提供高效靈活的控制框架。
AI21 Jamba Large 1.6 是一款強大的混合 SSM-Transformer 架構基礎模型,擅長長文本處理和高效推理。
基於Transformer實現的ViTPose模型集合
高性能的雙向編碼器Transformer模型
Bytedance
$1.2
輸入tokens/百萬
$3.6
輸出tokens/百萬
4
上下文長度
Tencent
$1
$4
32
$0.8
$2
$3
$9
16
$1.5
$6
128
Google
$0.35
$0.7
131
Alibaba
-
$12
28
Openai
$1.05
$4.2
1k
Chatglm
$100
optimum-internal-testing
這是一個Hugging Face Hub上的🤗 Transformers模型,具體信息待補充。模型卡片為自動生成,需要模型發佈者提供更多詳細信息。
Sachin-0001
這是一個基於🤗 Transformers庫的雙向自迴歸Transformer模型,已上傳至模型中心。模型卡片由系統自動生成,具體技術細節和應用信息需要進一步補充。
riverjiang
這是一個發佈在Hugging Face模型中心的Transformer模型,具體信息待補充。模型卡片為自動生成,需要進一步補充詳細信息。
onnx-community
Supertonic-TTS-ONNX是一個基於ONNX格式的文本到語音轉換模型,能夠將英文文本轉換為自然流暢的語音。該模型基於Supertone/supertonic基礎模型開發,專為Transformers.js庫優化,支持在瀏覽器環境中高效運行。
allenai
Olmo 3是由Allen Institute for AI (Ai2)開發的一系列語言模型,包含7B和32B兩種規格,有Instruct和Think兩種變體。該模型基於Transformer架構,具有長鏈思維能力,可有效提升數學和編碼等推理任務的表現。
SAM3是基於概念的任意分割模型,能夠根據輸入的點、框等提示信息生成精確的圖像分割掩碼。該版本是ONNX格式的SAM3跟蹤器模型,通過Transformers.js庫可在瀏覽器環境中高效運行。
peterant330
這是一個上傳至Hugging Face模型中心的Transformer模型,具體功能和特性需要進一步補充信息。
Maxlegrec
BT4模型是LeelaChessZero引擎背後的神經網絡模型,專門用於國際象棋對弈。該模型基於Transformer架構設計,能夠根據歷史走法預測最佳下一步走法、評估棋局形勢並生成走法概率。
Olmo 3 32B Think SFT是基於Transformer架構的自迴歸語言模型,在長鏈思維推理方面表現出色,特別擅長處理數學和編碼等複雜推理任務。該模型在Dolma 3數據集上進行預訓練,並在Dolci數據集上進行監督微調。
NyxKrage
Moondream 3 Preview HF是基於HuggingFace Transformers架構規範對Moondream 3 (Preview)模型的重新實現,使其能夠與Hugging Face生態系統完全兼容。這是一個多模態視覺語言模型,採用專家混合(MoE)文本主幹,約90億參數,20億活躍參數。
JetBrains-Research
這是一個已發佈在Hugging Face Hub上的🤗 Transformers模型,具體信息需要從模型頁面獲取。該模型基於Transformer架構,適用於多種自然語言處理任務。
Prior-Labs
TabPFN-2.5是基於Transformer架構的表格基礎模型,利用上下文學習技術,能夠在一次前向傳播中解決表格預測問題,為結構化表格數據提供高效的迴歸和分類解決方案。
mitegvg
該模型是基於VideoMAE架構的暴力檢測模型,在Kinetics數據集預訓練的基礎上,針對暴力檢測任務進行了92輪微調。模型採用Vision Transformer架構,專門用於視頻內容分析,能夠識別視頻中的暴力行為。
strangervisionhf
這是一個基於DeepSeek-OCR的圖像文本識別模型,專門解決了在最新版本transformers庫中的兼容性問題,使模型能夠在transformers v4.57.1等最新版本中順利運行。
bn22
這是一個發佈在Hugging Face模型中心的Transformer模型,模型卡片由系統自動生成,具體模型信息需要進一步補充
ByteDance
Ouro-2.6B是一款擁有26億參數的循環語言模型,通過迭代共享權重計算實現了卓越的參數效率,在僅用26億參數的情況下達到了30-40億標準Transformer模型的性能水平。
Ouro-1.4B是由字節跳動開發的具有14億參數的循環語言模型,通過迭代共享權重計算實現了卓越的參數效率,僅用14億參數就達到了30-40億標準Transformer模型的性能水平。
ServiceNow-AI
Apriel-H1-15b-Thinker 是一款擁有150億參數的混合推理模型,結合了Transformer注意力機制和Mamba狀態空間層,在推理、數學和編碼等方面表現出色,具備高效性和可擴展性。
danggia
這是一個已上傳至Hugging Face模型中心的transformers模型,模型卡片由系統自動生成,詳細信息需要進一步補充。
這是一個修復後的圖像文本轉文本模型,解決了原模型在最新Transformers版本中推理失敗的問題。該模型專門用於圖像識別和文本生成任務,支持多模態輸入處理。
emcee是一個為任何具有OpenAPI規範的Web應用提供Model Context Protocol (MCP)服務器的工具,可將Claude Desktop等應用連接到外部工具和數據服務。
一個為Cursor AI中的Claude提供高級推理能力的MCP服務器,包含多種推理方法如蒙特卡洛樹搜索、束搜索和Transformer混合推理等。
一個基於Bun運行時的OAS轉換工具項目
基於Gradio的輕量級應用,使用Hugging Face Transformers進行情感分析和反諷檢測,兼容MCP架構,可在CPU上運行。