Meta旗下Llama系列AI模型曾備受好評,但2025年4月推出的Llama4引發信任危機。Meta宣傳其基準測試表現優秀,但開發者實測發現性能遠低於宣傳,外界懷疑Meta在測試中可能採取了不當手段。
中國AI開源模型全球影響力顯著提升。2025年7月,阿里通義千問全球下載量居首,中國開源模型下載總量首超美國。在第三方API平臺,千問成爲全球第二大受歡迎開源模型,僅次於Meta Llama。西方媒體關注此趨勢,認爲“生態廣度”正成爲AI競爭新標準。
Meta 下一代旗艦大模型代號 Avocado,定位爲 Llama 系列繼任者,計劃於 2026 年第一季度發佈。該模型將採用閉源商業化路線,性能對標 GPT-5 與 Gemini,旨在與 OpenAI、Google 等公司的封閉模型生態正面競爭。
新加坡AISG發佈新一代大語言模型Qwen-Sea-Lion-v4,底層架構從Meta Llama切換爲阿里Qwen3-32B,在東南亞語言評估基準Sea-Helm的<2000億參數開源榜單奪冠。切換主因:Qwen3預訓練覆蓋119種語言/方言,對印尼語等低資源語言適配更優;分詞優化放棄西方常用方案,原生多語架構降低後續訓練門檻。
一款高效的推理與聊天大語言模型。
端側可用的GPT-4V級多模態大模型
一款由Gradient AI團隊開發的高性能文本生成模型。
TinyLlama項目旨在在3萬億令牌上預訓練一個1.1B Llama模型。通過一些適當的優化,我們可以在“僅”90天內使用16個A100-40G GPU完成。訓練已於2023-09-01開始。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
$0.7
$2.8
Anthropic
$7
$35
200
$17.5
$21
$105
Alibaba
-
$2
$20
$8
$240
52
Moonshot
$4
$16
256
Bytedance
Tencent
$1
32
Baidu
Openai
$0.4
128
$0.75
64
bartowski
這是通過REAP方法對MiniMax-M2均勻裁剪25%的專家得到的172B參數大語言模型,專門針對llama.cpp進行了優化量化處理,支持多種量化級別,可在LM Studio或基於llama.cpp的項目中運行。
這是p-e-w/gpt-oss-20b-heretic模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該模型是一個200億參數的大語言模型,提供了多種量化選項,從高質量到低質量不等,文件大小從41.86GB到11.52GB,適用於不同硬件條件。
這是英偉達Qwen3-Nemotron-32B-RLBFF大語言模型的GGUF量化版本,使用llama.cpp工具進行多種精度量化,提供從BF16到IQ2_XXS共20多種量化選項,適用於不同硬件配置和性能需求。
這是Qwen3-VL-2B-Thinking模型的Llamacpp imatrix量化版本,提供了多種量化類型的文件,可在不同硬件環境下高效運行。該模型是一個2B參數的多模態視覺語言模型,具備思維鏈推理能力。
這是Qwen3-VL-2B-Instruct模型的量化版本,使用llama.cpp工具和imatrix方法生成了多種量化級別的模型文件,便於在不同硬件環境下高效運行。該模型是一個2B參數的多模態視覺語言模型,支持圖像和文本的交互。
danielus
該模型是cerebras/Qwen3-Coder-REAP-25B-A3B的GGUF格式轉換版本,使用llama.cpp工具進行格式轉換和量化處理。原始模型是一個25B參數的大語言模型,專門針對代碼生成任務進行優化。
nvidia
Llama Nemotron Embedding 1B模型是NVIDIA開發的專為多語言和跨語言文本問答檢索優化的嵌入模型,支持26種語言,能夠處理長達8192個標記的文檔,並可通過動態嵌入大小大幅減少數據存儲佔用。
mintujohnson
這是一個基於Llama-3.2-3B架構的微調語言模型,專門針對法語和英語的文本生成任務進行了優化訓練。該模型使用了Unsloth和Huggingface的TRL庫進行訓練,訓練速度提升了2倍,支持高效的文本生成推理。
這是TheDrummer的Cydonia - R1 - 24B - v4.1模型的量化版本,使用llama.cpp工具進行多種精度量化處理,可在不同硬件條件下高效運行,為用戶提供更多選擇。
這是MistralAI Magistral Small 2509模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該版本在保持相對較好性能的同時,顯著減少了模型的內存佔用和計算資源需求,使其能夠在各種硬件環境下運行。
這是ByteDance-Seed的Seed-OSS-36B-Instruct模型的量化版本,通過llama.cpp工具進行多種精度量化處理,提供了從BF16到IQ2_XXS等20多種量化選項,旨在提升模型在不同硬件上的運行效率和性能。
echos-keeper
這是一個經過蒸餾的小型語言模型,基於GPT架構,從20B參數模型蒸餾到1.7B參數,並轉換為GGUF格式以便在llama.cpp中使用。模型具有高效的推理性能和較小的資源需求。
maerong3
這是一個基於Mistral架構的24B參數大型語言模型,通過llama.cpp轉換為GGUF格式。模型支持多語言交互,特別優化了指令跟隨能力,適用於各種文本生成和理解任務。
這是TheDrummer的Cydonia-R1-24B-v4模型的量化版本,使用llamacpp工具進行imatrix量化處理,提供多種量化選項以滿足不同硬件需求。該模型為24B參數規模的大語言模型,經過優化可在各種設備上高效運行。
lmstudio-community
這是Qwen3 235B A22B Thinking 2507模型的量化版本,通過llama.cpp的量化技術實現,可在資源有限環境下高效運行文本生成任務,是LM Studio社區模型亮點計劃的一部分。
BruhzWater
Lilith's-Whisper-L3.3-70b-0.1是一個基於Llama 3.3架構的70B參數大型語言模型,專門針對角色扮演(RP)場景優化。該模型採用2/3階段合併方式,融合了多個頂級RP模型的優勢,為角色扮演應用提供了強大的對話生成能力。
這是Google medgemma - 27b - it模型的Llamacpp imatrix量化版本,主要應用於醫療領域的圖像-文本轉換任務。
second-state
這是Google Gemma-3n-E2B-it模型的量化版本,支持使用LlamaEdge框架運行。該模型是一個27億參數的多語言指令調優模型,專門針對英語和E2B(English-to-Bengali)翻譯任務進行了優化。
LumiOpen
Poro 2 8B Instruct 是一個基於 Llama 3.1 8B 架構的指令遵循聊天機器人模型,專為芬蘭語和英語的對話式 AI 應用設計。
Eric1227
基於Llama 3.2架構的混合專家模型,包含8個專家,每個專家4B參數,總參數量約21B,支持128k上下文長度,經過專門微調優化的文本生成模型