富士通發佈創新架構PHOTON,採用自上而下網絡並行分層計算,針對Transformer在長文本、高併發等場景下因頻繁訪存調取歷史信息導致處理緩慢的痛點,旨在突破算力成本與效率瓶頸。
人工智能領域傳奇研究員、Transformer架構核心作者諾姆·沙澤爾宣佈加盟OpenAI。此前谷歌、OpenAI等巨頭展開激烈競爭,最終OpenAI成功招攬。值得關注的是,不到兩年前谷歌剛以約27億美元技術許可費請回這位“巫師”,其迅速轉投競爭對手引發震動,彰顯AI人才戰白熱化。
Google發佈全新開源大模型Gemma412B,採用“Unified”無編碼器架構,突破端側全模態AI。該模型無需傳統視覺、音頻外部編碼器,直接輸入文字、圖像、音頻、視頻四種模態數據至同一Transformer主幹網絡處理,消除了外掛“翻譯”模塊帶來的顯存佔用和高延遲問題。
英偉達發佈全球首款全開源物理AI大模型Cosmos3,基於混合Transformer架構,融合視覺推理、世界生成與動作預測,將物理AI訓練評估週期從數月縮短至數天,解決具身智能數據有限和仿真零散問題。
基於 Diffusion Transformer 架構的十億參數文生 3D 動作模型。
為 Diffusion Transformer 提供高效靈活的控制框架。
AI21 Jamba Large 1.6 是一款強大的混合 SSM-Transformer 架構基礎模型,擅長長文本處理和高效推理。
QwQ-32B 是一款強大的推理模型,專為複雜問題解決和文本生成設計,性能卓越。
Bytedance
$1.2
輸入tokens/百萬
$3.6
輸出tokens/百萬
4
上下文長度
Tencent
$1
$4
32
$0.8
$2
$3
$9
16
$1.5
$6
128
Google
$0.35
$0.7
131
Alibaba
-
$12
28
Openai
$1.05
$4.2
1k
Chatglm
$100
optimum-internal-testing
這是一個Hugging Face Hub上的🤗 Transformers模型,具體信息待補充。模型卡片為自動生成,需要模型發佈者提供更多詳細信息。
Sachin-0001
這是一個基於🤗 Transformers庫的雙向自迴歸Transformer模型,已上傳至模型中心。模型卡片由系統自動生成,具體技術細節和應用信息需要進一步補充。
riverjiang
這是一個發佈在Hugging Face模型中心的Transformer模型,具體信息待補充。模型卡片為自動生成,需要進一步補充詳細信息。
onnx-community
Supertonic-TTS-ONNX是一個基於ONNX格式的文本到語音轉換模型,能夠將英文文本轉換為自然流暢的語音。該模型基於Supertone/supertonic基礎模型開發,專為Transformers.js庫優化,支持在瀏覽器環境中高效運行。
allenai
Olmo 3是由Allen Institute for AI (Ai2)開發的一系列語言模型,包含7B和32B兩種規格,有Instruct和Think兩種變體。該模型基於Transformer架構,具有長鏈思維能力,可有效提升數學和編碼等推理任務的表現。
SAM3是基於概念的任意分割模型,能夠根據輸入的點、框等提示信息生成精確的圖像分割掩碼。該版本是ONNX格式的SAM3跟蹤器模型,通過Transformers.js庫可在瀏覽器環境中高效運行。
peterant330
這是一個上傳至Hugging Face模型中心的Transformer模型,具體功能和特性需要進一步補充信息。
Maxlegrec
BT4模型是LeelaChessZero引擎背後的神經網絡模型,專門用於國際象棋對弈。該模型基於Transformer架構設計,能夠根據歷史走法預測最佳下一步走法、評估棋局形勢並生成走法概率。
Olmo 3 32B Think SFT是基於Transformer架構的自迴歸語言模型,在長鏈思維推理方面表現出色,特別擅長處理數學和編碼等複雜推理任務。該模型在Dolma 3數據集上進行預訓練,並在Dolci數據集上進行監督微調。
NyxKrage
Moondream 3 Preview HF是基於HuggingFace Transformers架構規範對Moondream 3 (Preview)模型的重新實現,使其能夠與Hugging Face生態系統完全兼容。這是一個多模態視覺語言模型,採用專家混合(MoE)文本主幹,約90億參數,20億活躍參數。
JetBrains-Research
這是一個已發佈在Hugging Face Hub上的🤗 Transformers模型,具體信息需要從模型頁面獲取。該模型基於Transformer架構,適用於多種自然語言處理任務。
Prior-Labs
TabPFN-2.5是基於Transformer架構的表格基礎模型,利用上下文學習技術,能夠在一次前向傳播中解決表格預測問題,為結構化表格數據提供高效的迴歸和分類解決方案。
mitegvg
該模型是基於VideoMAE架構的暴力檢測模型,在Kinetics數據集預訓練的基礎上,針對暴力檢測任務進行了92輪微調。模型採用Vision Transformer架構,專門用於視頻內容分析,能夠識別視頻中的暴力行為。
strangervisionhf
這是一個基於DeepSeek-OCR的圖像文本識別模型,專門解決了在最新版本transformers庫中的兼容性問題,使模型能夠在transformers v4.57.1等最新版本中順利運行。
bn22
這是一個發佈在Hugging Face模型中心的Transformer模型,模型卡片由系統自動生成,具體模型信息需要進一步補充
ByteDance
Ouro-2.6B是一款擁有26億參數的循環語言模型,通過迭代共享權重計算實現了卓越的參數效率,在僅用26億參數的情況下達到了30-40億標準Transformer模型的性能水平。
Ouro-1.4B是由字節跳動開發的具有14億參數的循環語言模型,通過迭代共享權重計算實現了卓越的參數效率,僅用14億參數就達到了30-40億標準Transformer模型的性能水平。
ServiceNow-AI
Apriel-H1-15b-Thinker 是一款擁有150億參數的混合推理模型,結合了Transformer注意力機制和Mamba狀態空間層,在推理、數學和編碼等方面表現出色,具備高效性和可擴展性。
danggia
這是一個已上傳至Hugging Face模型中心的transformers模型,模型卡片由系統自動生成,詳細信息需要進一步補充。
這是一個修復後的圖像文本轉文本模型,解決了原模型在最新Transformers版本中推理失敗的問題。該模型專門用於圖像識別和文本生成任務,支持多模態輸入處理。
emcee是一個為任何具有OpenAPI規範的Web應用提供Model Context Protocol (MCP)服務器的工具,可將Claude Desktop等應用連接到外部工具和數據服務。
一個為Cursor AI中的Claude提供高級推理能力的MCP服務器,包含多種推理方法如蒙特卡洛樹搜索、束搜索和Transformer混合推理等。
一個基於Bun運行時的OAS轉換工具項目
基於Gradio的輕量級應用,使用Hugging Face Transformers進行情感分析和反諷檢測,兼容MCP架構,可在CPU上運行。