Meta前AI負責人楊立昆在專訪中爆料,公司開發Llama 4時存在“造假”行爲,並批評現任AI官Alexandr Wang年輕缺乏經驗。因不滿公司戰略變動,他選擇離職,轉向“世界模型”研究。
Meta旗下Llama系列AI模型曾備受好評,但2025年4月推出的Llama4引發信任危機。Meta宣傳其基準測試表現優秀,但開發者實測發現性能遠低於宣傳,外界懷疑Meta在測試中可能採取了不當手段。
中國AI開源模型全球影響力顯著提升。2025年7月,阿里通義千問全球下載量居首,中國開源模型下載總量首超美國。在第三方API平臺,千問成爲全球第二大受歡迎開源模型,僅次於Meta Llama。西方媒體關注此趨勢,認爲“生態廣度”正成爲AI競爭新標準。
Meta 下一代旗艦大模型代號 Avocado,定位爲 Llama 系列繼任者,計劃於 2026 年第一季度發佈。該模型將採用閉源商業化路線,性能對標 GPT-5 與 Gemini,旨在與 OpenAI、Google 等公司的封閉模型生態正面競爭。
與LLaMA-Factory官方合作,一站式低代碼大模型微調平臺,支持超百種模型。
基於Llama框架的TTS基礎模型,兼容16萬小時標記化語音數據。
LLaDA是一種大規模語言擴散模型,具備強大的語言生成能力,與LLaMA3 8B性能相當。
Llasa-1B 是一個基於 LLaMA 的文本轉語音 (TTS) 模型,支持中英文語音合成。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
bartowski
這是微軟Fara-7B模型的量化版本,使用llama.cpp的imatrix技術進行優化。該模型支持多種量化級別,從高精度的bf16到極低精度的IQ2_M,滿足不同硬件配置和性能需求。
這是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技術進行優化量化處理,提供多種量化級別選擇,適用於不同硬件配置和性能需求。
這是squ11z1的Hypnos-i1-8B模型的量化版本,使用llama.cpp工具和特定數據集進行量化處理。該模型基於Llama-3架構,提供多種量化類型選擇,支持文本生成任務,適用於推理、對話等多種應用場景。
這是TheDrummer的Snowpiercer-15B-v4模型的量化版本,使用llama.cpp和imatrix技術進行量化處理。該版本提供了從BF16到IQ2_S等多種量化級別,滿足不同硬件條件和性能需求的用戶。模型使用特定數據集進行校準優化,支持在線重打包功能以提升在ARM和AVX硬件上的性能。
squ11z1
Hypnos i1-8B 是基於 Nous Hermes 3(Llama 3.1 8B)的專業推理模型,專注於複雜邏輯、思維鏈推理和數學問題求解。該模型在混合量子-經典機器學習領域進行了獨特探索,通過引入量子噪聲注入提升了模型的創造力和推理能力。
這是對ai-sage的GigaChat3-10B-A1.8B模型進行的量化處理版本,採用llama.cpp的imatrix量化技術,可在不同硬件條件下更高效地運行。模型支持俄語和英語,主要用於文本生成任務。
這是allenai的Olmo-3-32B-Think模型的GGUF量化版本,通過llama.cpp工具進行多種量化處理,旨在提升模型在特定環境下的性能和效率。提供了從Q2到Q8的多種量化選項,滿足不同硬件配置和性能需求。
這是kldzj的GPT-OSS-120B-Heretic-v2模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該模型通過量化技術顯著減少了存儲和計算資源需求,同時保持了較好的模型性能,便於在各種設備上部署運行。
evilfreelancer
這是ai-sage/GigaChat3-10B-A1.8B模型的量化版本,採用GGUF格式,需要特定的llama.cpp分支支持。模型採用混合專家架構,總參數量約118億,其中激活參數量約18億。
這是對VibeStudio的MiniMax-M2-THRIFT模型進行的量化處理版本,使用llama.cpp工具和特定數據集生成,提供多種量化類型的GGUF文件,支持在LM Studio或基於llama.cpp的項目中運行。
這是通過REAP方法對MiniMax-M2均勻裁剪25%的專家得到的172B參數大語言模型,專門針對llama.cpp進行了優化量化處理,支持多種量化級別,可在LM Studio或基於llama.cpp的項目中運行。
這是一個基於REAP方法對MiniMax-M2中40%專家進行均勻剪枝得到的139B參數大語言模型,採用GLM架構和專家混合(MoE)技術,通過llama.cpp進行多種量化處理,適用於文本生成任務。
advy
本模型是基於meta-llama/Llama-3.1-70B-Instruct在特定數據集上微調得到的大語言模型,專門用於文本生成任務,在評估集上取得了0.6542的損失值表現。
這是kldzj/gpt-oss-120b-heretic模型的量化版本,使用llamacpp進行量化處理,提供了多種量化類型選擇,包括BF16、Q8_0和MXFP4_MOE等特殊格式,顯著提升了模型運行效率。
這是對Qwen3-4B-Instruct-2507-heretic模型進行的量化處理版本,使用llama.cpp工具和imatrix數據集生成了多種量化類型的模型文件,可在多種環境下運行,為用戶提供了更多選擇。
這是基於p-e-w發佈的Llama-3.1-8B-Instruct-heretic模型的量化版本,使用llama.cpp b7049版本進行imatrix量化。提供了多種量化選項以適應不同硬件和性能需求,支持在LM Studio或llama.cpp中運行。
這是p-e-w/gpt-oss-20b-heretic模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該模型是一個200億參數的大語言模型,提供了多種量化選項,從高質量到低質量不等,文件大小從41.86GB到11.52GB,適用於不同硬件條件。
這是Precog-123B-v1模型的llama.cpp量化版本,提供了多種量化類型以滿足不同硬件配置和使用場景的需求。該模型是一個擁有1230億參數的大型語言模型,經過優化後可在各種硬件上高效運行。
ErenAta00
賽博智腦是一個專門針對奪旗賽(CTF)挑戰和網絡安全任務進行微調的大語言模型。它基於Llama-3.1-8B-Instruct架構,能夠協助解決CTF問題、分析安全漏洞、進行逆向工程和密碼學挑戰,並在遵循道德準則的前提下提供漏洞利用推理。
這是zerofata的MS3.2-PaintedFantasy-v3-24B模型的GGUF量化版本,使用llama.cpp工具進行量化處理,提供多種量化類型以滿足不同硬件和性能需求。
mcp-scaffold是一個用於驗證模型上下文協議(MCP)服務器的開發沙箱,提供本地LLM(如LLaMA 7B)和雲端推理支持,包含聊天界面和參考架構。
該項目實現了Yahoo Finance API與LLaMA 3.2 3B模型的集成,通過Model Context Protocol (MCP)協議使模型能夠獲取即時金融數據、股票信息和市場新聞,同時保留LLaMA原有的所有功能。
項目介紹如何快速搭建基於Ollama和Llama3.2模型的MCP服務,包括環境準備和運行步驟。
一個輕量級的MCP服務器,通過結合網絡搜索和內容解析,從LangChain、LlamaIndex和OpenAI等流行AI庫中檢索相關文檔內容,為語言模型提供動態查詢最新文檔的功能。