阿里巴巴“千問App”公測一週下載量突破1000萬次,創AI應用最快增長紀錄,超越ChatGPT等知名產品。其爆發式增長得益於Qwen模型家族長期技術積累,自2023年開源後已在全球超越Llama等競爭對手。
llama.cpp史詩級更新重塑本地AI體驗:從極簡C++引擎升級爲帶現代化Web界面的全能工作臺,實現多模態輸入、結構化輸出和並行交互三大突破,功能直追Ollama等工具。這場社區驅動的革新使其從開發者專用工具轉變爲普通用戶易用的AI平臺。
微軟Azure ND GB300v6虛擬機在Llama270B模型上創下每秒110萬token推理速度新紀錄。該成就基於與英偉達的深度合作,採用配備72個Blackwell Ultra GPU和36個Grace CPU的NVIDIA GB300NVL72系統,突顯微軟在規模化AI運算領域的專業實力。
Meta超級智能實驗室推出REFRAG技術,使大型語言模型在檢索增強生成任務中的推理速度提升超過30倍。這項突破性成果發表於相關論文,深刻變革AI模型運作方式。該實驗室今年6月在加州成立,源於扎克伯格對Llama4模型的重視。
使用 Llama 3.3 快速彙總 PDF 文檔。
一款高效的推理與聊天大語言模型。
基於Llama框架的TTS基礎模型,兼容16萬小時標記化語音數據。
LLaDA是一種大規模語言擴散模型,具備強大的語言生成能力,與LLaMA3 8B性能相當。
nvidia
-
輸入tokens/百萬
輸出tokens/百萬
128k
上下文長度
meta
$1.22
$4.32
1M
perplexity
127k
deepseek
$0.72
$2.88
$0.58
$2.16
10M
200k
$1.44
$6.48
ai2
mistral
32k
snowflake
$2.52
nous-research
bartowski
這是kldzj/gpt-oss-120b-heretic模型的量化版本,使用llamacpp進行量化處理,提供了多種量化類型選擇,包括BF16、Q8_0和MXFP4_MOE等特殊格式,顯著提升了模型運行效率。
這是對Qwen3-4B-Instruct-2507-heretic模型進行的量化處理版本,使用llama.cpp工具和imatrix數據集生成了多種量化類型的模型文件,可在多種環境下運行,為用戶提供了更多選擇。
這是p-e-w/gpt-oss-20b-heretic模型的量化版本,使用llama.cpp的imatrix技術進行量化處理。該模型是一個200億參數的大語言模型,提供了多種量化選項,從高質量到低質量不等,文件大小從41.86GB到11.52GB,適用於不同硬件條件。
這是zerofata的MS3.2-PaintedFantasy-v3-24B模型的GGUF量化版本,使用llama.cpp工具進行量化處理,提供多種量化類型以滿足不同硬件和性能需求。
Ali-Yaser
本模型是基於meta-llama/Llama-3.3-70B-Instruct進行微調得到的版本,使用mlabonne/FineTome-100k數據集進行訓練,包含100k token數據。模型採用Unsloth和Huggingface TRL庫進行微調,支持英文語言處理。
ggml-org
這是一個基於Qwen3-VL-30B-A3B-Instruct模型轉換的GGUF格式版本,專門為llama.cpp優化。該模型是一個300億參數的多模態視覺語言模型,支持圖像理解和文本生成任務。
noctrex
這是慧慧Qwen3-VL-8B思維消融模型的量化版本,基於Qwen3-VL-8B架構,專門針對圖像文本轉換任務進行了優化和量化處理,可通過llama.cpp工具高效運行。
慧慧Qwen3-VL-4B思維消除模型的量化版本,基於Qwen3-VL-4B模型進行優化,專門設計用於消除思維鏈推理過程,可搭配最新的llama.cpp使用,提供高效的圖像文本轉文本處理能力。
Chandra-OCR量化模型是對原Chandra模型進行量化處理後的版本,專門用於圖像轉文本任務,可配合最新的llama.cpp使用。
這是基於TheDrummer/Rivermind-24B-v1模型的llama.cpp量化版本,使用imatrix技術進行優化量化,提供多種量化級別以適應不同硬件配置,可在多種環境下高效運行。
oberbics
本模型是基於Meta的Llama-3.1架構微調的文本生成模型,使用TRL庫和GRPO(Group Relative Policy Optimization)方法進行強化學習訓練,專門針對論證生成任務進行了優化。
這是英偉達Qwen3-Nemotron-32B-RLBFF大語言模型的GGUF量化版本,使用llama.cpp工具進行多種精度量化,提供從BF16到IQ2_XXS共20多種量化選項,適用於不同硬件配置和性能需求。
本項目是基於Qwen3-VL-32B-Instruct模型的llama.cpp GGUF量化版本,提供多種量化類型以滿足不同硬件和性能需求。使用特定數據集結合imatrix選項進行量化,保證量化質量,支持在線重新打包權重以提高ARM和AVX機器的性能。
這是Qwen3-VL-2B-Thinking模型的Llamacpp imatrix量化版本,提供了多種量化類型的文件,可在不同硬件環境下高效運行。該模型是一個2B參數的多模態視覺語言模型,具備思維鏈推理能力。
這是Qwen3-VL-2B-Instruct模型的量化版本,使用llama.cpp工具和imatrix方法生成了多種量化級別的模型文件,便於在不同硬件環境下高效運行。該模型是一個2B參數的多模態視覺語言模型,支持圖像和文本的交互。
本項目對MiniMaxAI的MiniMax-M2模型進行了量化處理,使用llama.cpp工具,為不同需求的用戶提供了多種量化類型的模型文件,方便在不同硬件條件下高效運行模型。
JanusCoderV-7B是由InternLM開發的7B參數代碼生成模型,本項目提供了使用llama.cpp進行imatrix量化的多個版本,支持多種量化級別以滿足不同硬件需求。
這是internlm的JanusCoder-14B模型的量化版本,使用特定工具和數據集進行量化處理,提供了從低質量到高質量的多種量化類型文件,可在LM Studio或基於llama.cpp的項目中運行。
這是對internlm的JanusCoder-8B模型進行量化處理的版本,採用llama.cpp的imatrix量化技術,在保證性能的前提下顯著減少模型的存儲和計算資源需求,使模型能夠在更多設備上高效運行。
這是MiniMax-M2模型的MXFP4_MOE量化版本,基於unsloth修復聊天模板的版本重新量化,能在特定場景下更高效地使用MiniMax-M2模型的能力。這是一個編碼模型,需要配合最新的llama.cpp使用。
該項目展示瞭如何使用LlamaCloud創建MCP服務器及LlamaIndex作為MCP客戶端的應用。
該項目實現了一個基於Model Context Protocol (MCP)的文檔檢索服務器,能夠為AI助手動態獲取Python庫的最新官方文檔內容。支持LangChain、LlamaIndex和OpenAI等庫,通過SERPER API進行高效搜索,並使用BeautifulSoup解析HTML內容。項目設計可擴展,便於添加更多庫的支持。
mcp-scaffold是一個用於驗證模型上下文協議(MCP)服務器的開發沙箱,提供本地LLM(如LLaMA 7B)和雲端推理支持,包含聊天界面和參考架構。
MCP Docling Server是一個提供文檔處理能力的服務器,支持多種文檔轉換和提取功能,包括格式轉換、表格提取和問答生成等,可與Llama Stack集成增強LLM應用能力。
一個連接Claude Desktop與本地LibreModel的MCP服務器,提供完整的對話支持、參數控制和健康監控功能
一個MCP服務器項目,使Claude能夠直接訪問LangChain、LlamaIndex和OpenAI等流行庫的文檔,通過Serper API搜索和BeautifulSoup解析內容,增強AI的上下文理解能力。
使用Changesets管理項目版本和變更日誌
一個基於LlamaIndexTS庫的MCP服務器,提供多種LLM工具功能
該項目實現了Yahoo Finance API與LLaMA 3.2 3B模型的集成,通過Model Context Protocol (MCP)協議使模型能夠獲取即時金融數據、股票信息和市場新聞,同時保留LLaMA原有的所有功能。
基於Ollama的Llama 3.2構建的自定義MCP服務器與客戶端項目
這是一個基於FastMCP的異步文檔檢索服務器,提供AI/Python生態庫官方文檔的搜索、抓取和清理功能,支持uv、langchain、openai、llama-index等庫的文檔獲取。
基於MCP Server、Llama3和Xterm.js的項目
基於Llama3和Xterm.js的MCP服務器項目
項目介紹如何快速搭建基於Ollama和Llama3.2模型的MCP服務,包括環境準備和運行步驟。
這是一個基於Python的MCP服務器項目,支持通過Serper API搜索LangChain、LlamaIndex和OpenAI等流行庫的文檔,並使用BeautifulSoup提取網頁內容。
一個輕量級的MCP服務器,通過結合網絡搜索和內容解析,從LangChain、LlamaIndex和OpenAI等流行AI庫中檢索相關文檔內容,為語言模型提供動態查詢最新文檔的功能。
一個展示MCP協議與SQLite數據庫集成的項目,包含簡單演示和完整HR管理系統,通過LlamaIndex實現自然語言交互。
一個基於TypeScript的MCP服務器,用於連接LlamaCloud上的託管索引,提供知識庫查詢功能。
一個簡單的MCP服務器,用於從Langchain、Llama Index和OpenAI的官方文檔中檢索信息,提供文檔搜索功能。
這是一個基於Python的MCP服務器,支持通過Serper API搜索LangChain、LlamaIndex和OpenAI的文檔,並使用BeautifulSoup提取網頁內容。