國產大模型MiniMax開源M2.1,以100億參數稀疏架構在多語言編程、代碼生成與工具調用上實現突破,在權威基準測試中超越谷歌、Anthropic等閉源旗艦模型,標誌着開源編碼模型性能進入新階段。
美團LongCat團隊開源視頻生成模型LongCat-Video-Avatar,推動虛擬人技術發展。該模型在長視頻生成領域表現突出,基於LongCat-Video升級,支持音頻文本轉視頻、音頻文本圖像轉視頻及視頻續寫等多任務功能,受到開發者廣泛關注。
美團LongCat團隊開源了LongCat-Image圖像生成模型,該模型擁有6B參數,在文生圖和圖像編輯領域表現優異,旨在平衡性能與使用門檻,填補開源與閉源模型之間的技術空白。
商湯科技與南洋理工大學聯合推出原生多模態架構NEO,並開源2B與9B模型。該架構摒棄傳統三段式設計,從注意力機制到語義映射全面重構,實現“像素到Token”的連續映射,數據需求僅爲行業平均的十分之一。
基於OpenAI Sora 2的AI視頻生成器,可從文本或圖像生成帶聲音的高清視頻。
B站開源的SOTA動畫視頻生成模型,支持多種二次元風格視頻一鍵生成。
VSCode擴展,基於最新的代理框架進行代碼編輯
基於llama3 8B的SOTA視覺模型
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Bytedance
$0.5
Chatglm
Minimax
01-ai
4
Nanbeige
楠米色4-3B-思維-2511是楠米色系列的最新增強版本,通過先進的蒸餾技術和強化學習優化,在緊湊的3B參數規模下實現了強大的推理能力。該模型在Arena-Hard-V2和BFCL-V4等基準測試中,在參數小於32B的模型中取得了最先進(SOTA)成果。
noctrex
Gelato-30B-A3B是針對GUI計算機使用任務進行微調的最先進(SOTA)模型,提供了量化版本以優化部署效率。該模型專門設計用於理解和處理圖形用戶界面相關的任務。
unsloth
Apriel-1.5-15b-Thinker是ServiceNow Apriel SLM系列中的多模態推理模型,具有150億參數,能夠在文本和圖像推理任務上與規模大10倍的模型競爭。該模型通過中期訓練方案實現了卓越的推理能力,無需圖像SFT訓練或強化學習即可達到SOTA性能。
XiaomiMiMo
MiMo Audio是一款基於大規模預訓練的音頻語言模型,在語音智能和音頻理解基準測試中取得了開源模型的SOTA性能。該模型展現出強大的少樣本學習能力,能夠泛化到訓練數據中未包含的任務,支持語音轉換、風格遷移和語音編輯等多種音頻任務。
cpatonn
GLM-4.5V-AWQ-4bit是基於智譜AI下一代旗艦文本基礎模型構建的量化版本多模態模型,通過AWQ-4bit量化技術優化,在保持優異性能的同時顯著降低計算資源需求。該模型在42個公開視覺語言基準測試中達到同規模模型的SOTA性能,具備強大的視覺推理能力。
JetLM
SDAR是一種新型大語言模型,集成了自迴歸和離散擴散建模策略,結合了AR模型高效訓練和擴散模型並行推理的優勢。在通用任務上與SOTA開源AR模型相當,在科學推理任務上表現出色,成為最強大的擴散語言模型。
tcpipuk
dots.ocr是一款強大的多語言文檔解析器,將佈局檢測和內容識別統一在單一視覺語言模型中,基於17億參數實現SOTA性能,支持多語言文檔解析和良好的閱讀順序保持。
lingshu-medical-mllm
靈樞是醫療領域的SOTA多模態大語言模型,在醫療視覺問答和報告生成任務中表現卓越。
RiverZ
ICEdit是一種創新的指令式圖像編輯方法,通過大規模擴散變換器實現高效編輯,僅需0.5%的訓練數據和1%的參數規模即可達到SOTA效果。
ubergarm
Qwen3-30B-A3B的量化版本,採用先進的非線性SotA量化技術,在給定內存佔用下提供同類最佳的質量。
Skywork
SkyReels V2是一個無限長度電影生成模型,採用自迴歸擴散強制架構,支持720P高清視頻生成,在公開模型中達到SOTA性能。
all-hands
基於Qwen2.5-Coder-32B-Instruct微調的評審模型,用於評估代碼解決方案質量,助力SWE-Bench基準測試取得SOTA成績
UCSC-VLAA
VLAA-Thinker-Qwen2.5-3B是一個類似R1的推理大視覺語言模型,專注於多模態推理任務。該模型在OpenCompass多模態推理排行榜上達到了SOTA性能,支持圖像理解和複雜推理能力。
qihoo360
Light-R1-32B-DS是一款近SOTA水平的32B數學模型,基於DeepSeek-R1-Distill-Qwen-32B微調,僅使用3K SFT數據即實現高性能。
Light-R1-14B-DS是一個14B參數的數學SOTA模型,採用強化學習訓練,在AIME24/25和GPQA基準測試中表現優異。
xingyang1
Distill-Any-Depth是一種新的SOTA單目深度估計模型,採用知識蒸餾算法訓練而成。
Distill-Any-Depth是一種基於知識蒸餾算法訓練的SOTA單目深度估計模型,能夠高效準確地進行深度估計。
FireRedTeam
FireRedASR是一系列支持普通話、中國方言和英語的開源工業級自動語音識別(ASR)模型,在公開的普通話ASR基準測試中實現了新的最先進水平(SOTA),同時具備出色的歌詞識別能力。
FireRedASR是一系列支持普通話、漢語方言和英語的開源工業級自動語音識別(ASR)模型,在公開普通話ASR基準測試中達到最新最優(SOTA)水平,同時具備卓越的歌詞識別能力。
ragraph-ai
這是一個專門用於生成CYPHER查詢語句的30億參數模型,在生成CYPHER方面超越了GPT4-o等SOTA模型。該模型基於特定數據集進行微調,能夠將文本轉換為CYPHER查詢語句,用於查詢GraphDB(如Neo4j)。
XiYan MCP Server是一個基於XiYan-SQL的模型上下文協議服務器,支持通過自然語言查詢數據庫,提供多種模型配置選項,包括通用大模型、SOTA文本轉SQL模型及本地模型,適用於不同安全性和性能需求場景。