MiniMax開源M2.1編程模型,已在Hugging Face、ModelScope和GitHub上線,方便開發者接入。該模型獲vLLM“Day-0”支持,可立即實現高效推理,並通過KTransformers技術優化性能。
Liquid AI 公司於2025年7月發佈第二代 Liquid Foundation Models(LFM2),採用創新的“liquid”架構,旨在成爲市場上最快的設備端基礎模型。其高效的訓練和推理能力使小模型能媲美雲端大型語言模型。LFM2 最初提供350M、700M 和1.2B 參數的密集檢查點版本。
阿里巴巴通義千問團隊在NeurIPS 2025獲最佳論文獎,論文《Attention Gating Makes Better Foundation Models》提出“滑動門”機制,在標準注意力後添加可學習門控,動態篩選關鍵頭和token參與下游計算。實驗證明,1.7B稠密模型性能媲美15B MoE模型。本屆大會投稿2萬篇,錄取率僅25%,競爭激烈,該論文是四篇獲獎作品中唯一中國成果。
蘋果在iOS 26中推出Foundation Models框架,讓開發者能本地調用AI大模型,無需聯網且免費。這促使一批App快速創新,如兒童啓蒙應用《Lil Artist》推出“AI故事機”功能,用戶可選角色生成個性化故事,提升用戶體驗。
為Firefox瀏覽器翻譯功能優化的CPU加速神經機器翻譯模型。
一款能夠生成電影級質量視頻的圖像到視頻模型
Phi開放模型,強大、低成本、低延遲的小語言模型。
在句子表示空間中的語言建模
Moonshot
$200
輸入tokens/百萬
輸出tokens/百萬
131
上下文長度
modelscope
Nexus-Gen是一個將大語言模型的語言推理能力與擴散模型的圖像生成能力相融合的統一模型
UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。
Gemini
GemmaX2-28-9B-v0.1-Q2_K-GGUF 是一個基於 ModelSpace/GemmaX2-28-9B-v0.1 轉換而來的 GGUF 格式模型,支持多種語言的翻譯任務。
ModelsLab
魚語語音 V1.5 是一款領先的文本轉語音(TTS)模型,基於超過100萬小時的多語言音頻數據訓練而成。
基於T5-base的提示詞增強模型,可將簡短提示擴展為詳細描述
這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型,擅長零樣本圖像分類和跨模態檢索任務。
ControlNet++是一款強大的圖像生成與編輯模型,支持多種控制條件,能生成高分辨率圖像,視覺效果可與Midjourney相媲美。
基於Apache-2.0許可證的開源模型,具體功能和用途需參考完整文檔
hazyresearch
M2-BERT-8K是一個8000萬參數的長上下文檢索模型,基於論文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》提出的架構。
基於Llama3-8b-instruct基礎模型訓練,適配中文通用場景,支持ReACT格式的智能體調用
rjhugs
基於microsoft/table-transformer-structure-recognition-v1.1-all微調的表格結構識別模型
M2-BERT-128是論文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》中提出的8000萬參數檢索模型檢查點
openskyml
基於SDXL-Turbo的文本到圖像生成模型,結合了LCM(Latent Consistency Models)和LoRA(Low-Rank Adaptation)技術,實現快速高質量的圖像生成。
cerspense
一款基於Modelscope的無水印視頻生成模型,優化16:9畫面比例和流暢視頻輸出
vdo
基於diffusers的文本轉視頻模型,通過ModelScope微調實現動漫風格呈現,訓練分辨率為512x512像素。
strangeman3107
這是一個基於diffusers的文本轉視頻模型,通過modelscope微調後具有動漫風格外觀,支持448x384分辨率。
ali-vilab
多階段文本生成視頻擴散模型,輸入英文描述文本即可生成符合文字敘述的視頻內容
wavymulder
一個基於穩定擴散技術的文本到圖像生成模型,能夠根據文本描述生成高質量的圖像。
一個基於ModelScope圖像生成API的MCP服務器,支持通過自然語言提示詞異步生成圖像,並自動保存到本地文件。