MiniMax M2模型採用全注意力機制,放棄線性或稀疏注意力技術。開發團隊認爲,儘管後者能節省計算資源,但全注意力在工業應用中更高效,能提升模型性能。這一決策旨在優化實際部署效果,推動AI技術發展。
MiniMax即將在1至2周內發佈新一代M2.1模型,作爲M2的關鍵升級版,旨在加速其“智能普惠”戰略。此前M2以僅爲Claude Sonnet 8%的低價和翻倍推理速度贏得開發者好評,展現公司在開源大模型領域的強勁競爭力。
MiniMax發佈新一代開源推理模型M2,專攻智能Agent應用。採用混合專家架構,總參數量2300億,每次推理僅激活100億參數,實現每秒100個token的高輸出速度,在實時交互場景中優勢顯著。
2025年10月27日,MiniMax開源大語言模型MiniMax M2。該模型專爲代理工作流和端到端編碼設計,採用MoE架構,效率與性能突出:成本僅爲Claude Sonnet的8%,速度提升約兩倍,爲開發者與企業提供高性價比AI解決方案。
用於多模態上下文中的檢索增強生成的基準測試代碼庫。
多模態音樂理解和生成系統
ModelCloud
這是一個基於MiniMax M2基礎模型的4bit W4A16量化版本,由ModelCloud的@Qubitum使用GPT-QModel工具進行量化。該模型專門針對文本生成任務進行了優化,在保持較好性能的同時顯著減少了模型大小和推理資源需求。
SweUmaVarsh
該模型是一個基於Transformers庫的模型,具體用途和功能需要進一步信息確認。
utrobinmv
基於m2m轉換器架構的多語言翻譯模型,支持俄語、中文和英語之間的雙向翻譯
entai2965
M2M100是一個多語言編碼器-解碼器模型,支持100種語言之間的直接翻譯,參數規模12億。
Swamitucats
基於M2M100微調而成的梵語到英語翻譯模型,訓練數據來自Itihasa數據集,包含梵語史詩的翻譯內容。
hazyresearch
M2-BERT-8K是一個8000萬參數的長上下文檢索模型,基於論文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》提出的架構。
80M參數的M2-BERT-2k模型檢查點,專為長上下文檢索任務設計,支持2048個token的上下文長度。
ai-forever
基於M2M100-1.2B模型訓練的俄語拼寫檢查器,用於糾正拼寫錯誤和打字錯誤
M2-BERT-128是論文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》中提出的8000萬參數檢索模型檢查點
togethercomputer
這是一個80M參數的M2-BERT預訓練檢查點,序列長度為2048,並已針對長上下文檢索任務進行微調。
這是一個80M參數的M2-BERT預訓練模型,支持長達32768的序列長度,專為長上下文檢索任務優化
這是一個8000萬參數的M2-BERT預訓練檢查點,序列長度達8192,並針對長上下文檢索任務進行了微調。
kazandaev
基於wmt16數據集微調的多語言翻譯模型,支持俄語到英語的翻譯任務
anzorq
基於facebook/m2m100_1.2B模型在俄語-卡巴爾達語數據集上微調的翻譯模型
Hemanth-thunder
基於M2M100架構的英語與泰米爾語雙向翻譯模型,採用OpenRAIL許可證發佈
CadenzaBaron
基於Facebook/M2M100微調的中英遊戲翻譯模型,專為修真/武術類遊戲內容優化
基於M2M100-1.2B訓練的俄語拼寫檢查模型,能糾正拼寫錯誤和打字錯誤
alirezamsh
SMaLL-100是一個緊湊且快速的大規模多語言機器翻譯模型,覆蓋超過10,000種語言對,性能與M2M-100相當但體積更小速度更快。
danhsf
該模型是基於facebook/m2m100_418M在kde4數據集上微調的英語到巴西葡萄牙語翻譯模型
facebook
M2M100是一個多語言編碼器-解碼器模型,支持100種語言的9900個翻譯方向
MCP SSH服務器是一個安全的遠程訪問工具,允許客戶端通過SSH協議連接並交互多個MCP工具服務。它支持密鑰認證、提供密鑰管理API,並能聚合多個MCP服務器為統一接口。
MCP服務器SSH客戶端是一個通過SSH連接遠程MCP服務器的工具,支持密鑰認證和安全通道通信,可集成到AI平臺使用遠程MCP工具。