清華大學等機構聯合發佈全球首個基於MCP架構的開源RAG框架UltraRAG2.1,通過YAML配置即可實現多模態智能檢索系統的多階段推理與評估,無需編程,顯著降低技術門檻,推動檢索增強生成技術發展。
Google推出Gemini API的“文件搜索工具”,作爲全託管RAG系統,可將私有文件直接轉化爲知識庫。用戶無需處理數據分塊、嵌入生成等步驟,通過API即可實現高效檢索與生成。工具核心是端到端集成,自動完成文件上傳、索引和檢索流程。
Meta超級智能實驗室推出REFRAG技術,使大型語言模型在檢索增強生成任務中的推理速度提升超過30倍。這項突破性成果發表於相關論文,深刻變革AI模型運作方式。該實驗室今年6月在加州成立,源於扎克伯格對Llama4模型的重視。
Meta成立超級智能實驗室,其首篇論文《REFRAG:Rethinking RAG based Decoding》提出新方法,顯著提升大語言模型在檢索增強生成任務中的推理速度,提升幅度達30倍以上,同時保持準確性不變。
SQLBot 是一款基於大模型和 RAG 的智能問數系統。
全面管理的AI搜索基礎設施,支持RAG。
一個強大的本地文檔問答工具,連接到你的本地Ollama模型,用於創建和管理RAG系統。
RagaAI Catalyst 是一個用於觀察、評估和調試 AI 代理的平臺,助力開發者優化 AI 工作流並安全部署。
nvidia
-
輸入tokens/百萬
輸出tokens/百萬
128k
上下文長度
ai21-labs
$3.53
$7.99
260k
cohere
$1.8
$7.2
Tarka-AIR
Tarka-Embedding-350M-V1是一個擁有3.5億參數的文本嵌入模型,能夠生成1024維的密集文本表示。該模型針對語義相似性、搜索和檢索增強生成(RAG)等下游應用進行了優化,支持多種語言並具有長上下文處理能力。
Tarka-Embedding-150M-V1是一個具有1.5億參數的嵌入模型,可生成768維的密集文本表示。它針對語義相似性、搜索和檢索增強生成(RAG)等多種下游應用進行了優化,專注於捕捉深層上下文語義,以支持跨不同領域的通用文本理解。
mamei16
這是對mirth/chonky_distilbert_base_uncased_1模型的微調版本,通過在更多數據上進行訓練來提升模型性能,主要用於文本分塊和RAG相關任務。
bartowski
這是LiquidAI的LFM2-1.2B-RAG模型的GGUF量化版本,專門為檢索增強生成(RAG)任務優化。該模型經過多種量化處理,提供從bf16到Q2_K等多種量化級別,適用於不同硬件條件和性能需求。
NVIDIA Qwen3-32B FP4模型是阿里巴巴Qwen3-32B模型的量化版本,使用優化的Transformer架構,對權重和激活進行FP4量化,適合用於AI智能體系統、聊天機器人、RAG系統等AI應用。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,採用FP4數據類型進行優化,通過TensorRT-LLM進行高效推理。該模型專為NVIDIA GPU加速系統設計,適用於AI Agent系統、聊天機器人、RAG系統等多種AI應用場景,支持全球範圍內的商業和非商業使用。
NVIDIA Qwen3-8B FP4 模型是阿里巴巴Qwen3-8B模型的量化版本,採用優化的Transformer架構的自迴歸語言模型。該模型使用FP4量化技術,在保持性能的同時顯著減少內存佔用和計算需求,適用於AI智能體系統、聊天機器人、RAG系統等應用場景。
anquachdev
Vi-Qwen2-7B-RAG 是一個專為檢索增強生成(RAG)任務定製的大型語言模型,基於 Qwen2-7B-Instruct 在越南語數據集上微調而來,顯著提升了越南語處理能力和 RAG 任務的執行效率。
MongoDB
mdbr-leaf-ir 是 MongoDB Research 開發的專為信息檢索任務設計的高性能緊湊型文本嵌入模型,特別適用於 RAG 管道的檢索階段。該模型採用知識蒸餾技術,支持非對稱架構、MRL 截斷和向量量化,在 BEIR 基準測試中表現出色。
cpatonn
Llama-3.3-Nemotron-Super-49B-v1.5是基於Meta Llama-3.3-70B-Instruct衍生的大語言模型,是v1版本的顯著升級版。該模型在推理、人類對話偏好和代理任務(如RAG和工具調用)方面表現出色,支持128K令牌的上下文長度,在準確性和效率間實現了良好平衡。
NVIDIA Qwen3-30B-A3B FP4是阿里巴巴Qwen3-30B-A3B模型的量化版本,採用優化的Transformer架構,通過FP4量化技術將模型大小減少約3.3倍,同時保持較好的性能表現。該模型支持商業和非商業用途,適用於AI代理系統、聊天機器人、RAG系統等應用場景。
lmstudio-community
由英偉達發佈的4B參數規模大語言模型,支持128k tokens上下文長度,專為推理、對話及RAG等任務優化
hotchpotch
這是一個非常小巧且快速的日語重排序模型,適用於提升RAG系統的精度,在CPU或邊緣設備上也能高效運行。
這是一個非常小巧且快速的日語重排序模型,適用於提升RAG系統的精度。
JJTsao
專為電影和電視劇推薦系統定製的微調句子轉換器模型,優化了RAG管道中的高質量向量檢索。
ragunath-ravi
該模型是在BLIP基礎模型上針對病理切片圖像進行微調的版本,用於自動生成病理切片圖像的描述文本。
AITeamVN
基於Qwen2.5-7B-Instruct微調的越南語檢索增強生成(RAG)專用大模型,採用GRPO優化方法訓練
mirth
Chonky是一款能夠智能地將文本分割成有意義的語義塊的Transformer模型,適用於RAG系統。
RaghuCourage9605
Anubis-559M是一款專為創意文本生成而設計的因果語言模型,基於更大的基礎模型進行微調,擅長生成自然的對話和引人入勝的散文,特別適合角色扮演場景和創意寫作。
riple-saanvi-lab
120億參數大語言模型,專為速度、效率和上下文準確性優化,支持RAG增強技術和128k上下文窗口。
Crawl4AI RAG MCP Server是一個集成網絡爬蟲和RAG功能的AI代理服務,支持智能URL檢測、遞歸爬取、並行處理和向量搜索,旨在為AI編碼助手提供強大的知識獲取和檢索能力。
一個基於MCP協議的本地服務器,實現Apple Notes的語義搜索和RAG功能,供Claude等AI助手調用
RagRabbit是一個自託管的AI站點搜索和LLM.txt生成工具,支持一鍵部署在Vercel上。
Quick-start Auto MCP是一個幫助用戶快速在Claude Desktop和Cursor中註冊Anthropic模型上下文協議(MCP)的工具,提供RAG文檔搜索、Dify工作流、即時網絡搜索等功能,支持一鍵生成JSON配置文件。
為RAG Web Browser Actor實現的MCP服務器,支持AI代理進行網頁搜索和內容提取。
一個基於Qdrant向量數據庫的文檔語義搜索服務,支持URL和本地文件導入,提供自然語言查詢功能。
一個基於Python的文檔處理與檢索增強生成(RAG)服務器,使用DuckDB數據庫存儲嵌入向量,支持多種文件格式處理並提供Web界面和API接口。
MCP應用是一個結合RAG和網絡搜索工具的服務,使用OpenAI嵌入向量存儲,PostgreSQL作為數據庫,PGVector作為向量存儲,支持知識檢索和文檔添加功能。
基於MCP協議的低延遲RAG服務,支持本地知識檢索和智能摘要,提供雙模式檢索和模塊化架構
一個基於Python代碼分析的RAG系統,通過AST解析代碼結構並存儲到Weaviate向量數據庫,提供代碼查詢、自然語言問答和可視化功能,支持多代碼庫管理和依賴分析。
Vectara MCP是一個基於Model Context Protocol的開源項目,為AI系統提供與Vectara的RAG平臺無縫對接的能力,支持快速可靠的檢索增強生成功能。
SMMS項目構建了一個基於語義地圖的MCP服務器,提供3D實例對象管理功能,包括數據庫操作、RAG檢索和認知拓撲圖生成。
一個基於TypeScript的MCP服務器,實現本地文檔的檢索增強生成(RAG)系統,支持Git倉庫和文本文件的查詢與索引。
RAGFlow API MCP服務器項目,提供知識庫查詢和聊天功能,支持多種開發環境配置和發佈流程。
RAG文檔MCP服務器是一個基於向量搜索的文檔處理工具,為AI助手提供文檔檢索和上下文增強功能。
項目旨在通過MCP協議將RAG應用與open-webui連接,實現模型上下文交互,包括基礎PoC驗證、知識庫集成及客戶端對接。
一個基於LanceDB的MCP服務器,使LLM能夠通過代理RAG和混合搜索直接與本地文檔交互。
一個用於下載文檔網站並準備RAG索引的MCP服務工具
該項目提供了一系列使用AWS Model Context Protocol(MCP)的示例模塊,涵蓋了多種語言和技術棧,包括TypeScript、Python、Spring AI等,展示了MCP在客戶端-服務器通信、ECS部署、RAG集成等場景下的應用。
Apple RAG MCP是一個為AI代理提供蘋果開發專業知識的檢索增強生成系統,集成了官方Swift文檔、設計指南和Apple Developer YouTube內容,通過AI驅動的混合搜索技術提供準確的技術答案。