Google推出Gemini API的“文件搜索工具”,作为全托管RAG系统,可将私有文件直接转化为知识库。用户无需处理数据分块、嵌入生成等步骤,通过API即可实现高效检索与生成。工具核心是端到端集成,自动完成文件上传、索引和检索流程。
Meta超级智能实验室推出REFRAG技术,使大型语言模型在检索增强生成任务中的推理速度提升超过30倍。这项突破性成果发表于相关论文,深刻变革AI模型运作方式。该实验室今年6月在加州成立,源于扎克伯格对Llama4模型的重视。
Meta成立超级智能实验室,其首篇论文《REFRAG:Rethinking RAG based Decoding》提出新方法,显著提升大语言模型在检索增强生成任务中的推理速度,提升幅度达30倍以上,同时保持准确性不变。
检索增强生成(RAG)技术通过检索知识库信息提升大语言模型回答准确性,但处理语言多样性时存在不足。为此,Lexical Diversity-aware RAG 方法被提出,旨在优化模型对多样化表达的理解,增强生成答案的可靠性。
SQLBot 是一款基于大模型和 RAG 的智能问数系统。
全面管理的AI搜索基础设施,支持RAG。
一个强大的本地文档问答工具,连接到你的本地Ollama模型,用于创建和管理RAG系统。
RagaAI Catalyst 是一个用于观察、评估和调试 AI 代理的平台,助力开发者优化 AI 工作流并安全部署。
nvidia
-
输入tokens/百万
输出tokens/百万
128k
上下文长度
ai21-labs
$3.53
$7.99
260k
cohere
$1.8
$7.2
mamei16
这是对mirth/chonky_distilbert_base_uncased_1模型的微调版本,通过在更多数据上进行训练来提升模型性能,主要用于文本分块和RAG相关任务。
bartowski
这是LiquidAI的LFM2-1.2B-RAG模型的GGUF量化版本,专门为检索增强生成(RAG)任务优化。该模型经过多种量化处理,提供从bf16到Q2_K等多种量化级别,适用于不同硬件条件和性能需求。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
anquachdev
Vi-Qwen2-7B-RAG 是一个专为检索增强生成(RAG)任务定制的大型语言模型,基于 Qwen2-7B-Instruct 在越南语数据集上微调而来,显著提升了越南语处理能力和 RAG 任务的执行效率。
MongoDB
mdbr-leaf-ir 是 MongoDB Research 开发的专为信息检索任务设计的高性能紧凑型文本嵌入模型,特别适用于 RAG 管道的检索阶段。该模型采用知识蒸馏技术,支持非对称架构、MRL 截断和向量量化,在 BEIR 基准测试中表现出色。
cpatonn
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct衍生的大语言模型,是v1版本的显著升级版。该模型在推理、人类对话偏好和代理任务(如RAG和工具调用)方面表现出色,支持128K令牌的上下文长度,在准确性和效率间实现了良好平衡。
NVIDIA Qwen3-30B-A3B FP4是阿里巴巴Qwen3-30B-A3B模型的量化版本,采用优化的Transformer架构,通过FP4量化技术将模型大小减少约3.3倍,同时保持较好的性能表现。该模型支持商业和非商业用途,适用于AI代理系统、聊天机器人、RAG系统等应用场景。
lmstudio-community
由英伟达发布的4B参数规模大语言模型,支持128k tokens上下文长度,专为推理、对话及RAG等任务优化
hotchpotch
这是一个非常小巧且快速的日语重排序模型,适用于提升RAG系统的精度,在CPU或边缘设备上也能高效运行。
这是一个非常小巧且快速的日语重排序模型,适用于提升RAG系统的精度。
JJTsao
专为电影和电视剧推荐系统定制的微调句子转换器模型,优化了RAG管道中的高质量向量检索。
ragunath-ravi
该模型是在BLIP基础模型上针对病理切片图像进行微调的版本,用于自动生成病理切片图像的描述文本。
AITeamVN
基于Qwen2.5-7B-Instruct微调的越南语检索增强生成(RAG)专用大模型,采用GRPO优化方法训练
mirth
Chonky是一款能够智能地将文本分割成有意义的语义块的Transformer模型,适用于RAG系统。
RaghuCourage9605
Anubis-559M是一款专为创意文本生成而设计的因果语言模型,基于更大的基础模型进行微调,擅长生成自然的对话和引人入胜的散文,特别适合角色扮演场景和创意写作。
riple-saanvi-lab
120亿参数大语言模型,专为速度、效率和上下文准确性优化,支持RAG增强技术和128k上下文窗口。
XXsongLALA
Qwen-2.5-7B-base-RAG-RL 是一个基于未知数据集从头开始训练的7B参数规模的大语言模型,结合了检索增强生成(RAG)和强化学习(RL)技术。
Chonky是一款能智能将文本分割成有意义语义块的Transformer模型,可用于RAG系统。
PleIAs
Pleias-RAG-1B是一款12亿参数的小型推理模型,专为检索增强生成(RAG)、搜索和文献摘要任务设计。在多语言RAG任务中表现优异,支持结构化引证生成。
Crawl4AI RAG MCP Server是一个集成网络爬虫和RAG功能的AI代理服务,支持智能URL检测、递归爬取、并行处理和向量搜索,旨在为AI编码助手提供强大的知识获取和检索能力。
一个基于MCP协议的本地服务器,实现Apple Notes的语义搜索和RAG功能,供Claude等AI助手调用
为RAG Web Browser Actor实现的MCP服务器,支持AI代理进行网页搜索和内容提取。
一个基于Qdrant向量数据库的文档语义搜索服务,支持URL和本地文件导入,提供自然语言查询功能。
Quick-start Auto MCP是一个帮助用户快速在Claude Desktop和Cursor中注册Anthropic模型上下文协议(MCP)的工具,提供RAG文档搜索、Dify工作流、实时网络搜索等功能,支持一键生成JSON配置文件。
RagRabbit是一个自托管的AI站点搜索和LLM.txt生成工具,支持一键部署在Vercel上。
基于MCP服务器的RAG项目
该项目实现了一个MCP服务器和客户端,用于构建基于检索增强生成(RAG)的智能代理应用。服务器提供实体提取、查询优化和相关性检查等工具,客户端展示如何连接服务器并使用这些工具来增强RAG系统的性能。
本项目构建了一个基于IBM Watsonx.ai的检索增强生成(RAG)服务器,使用ChromaDB进行向量索引,并通过模型上下文协议(MCP)暴露接口。该系统能够处理PDF文档并基于文档内容回答问题,实现了将大型语言模型与特定领域知识相结合的智能问答功能。
Root Signals MCP服务器是一个将Root Signals评估工具通过Model Context Protocol(MCP)暴露给AI助手和代理的桥梁项目,支持标准评估和带上下文的RAG评估。
MCP RAG Server是一个基于Model Context Protocol的检索增强生成服务,通过本地化工具(ChromaDB和Ollama)自动索引项目文档,为连接的LLM提供上下文增强能力。
一个使用DuckDB和Plamo-Embedding-1B实现RAG功能的项目,支持markdown文件向量化存储和检索,并提供MCP服务接口。
一个基于模型上下文协议(MCP)的服务器,提供美国国家综合癌症网络(NCCN)临床指南的访问服务。该系统通过直接读取指南PDF内容而非使用RAG技术,确保医疗指导的准确性和可靠性。
基于检索增强生成(RAG)的Godot文档查询助手,通过向量化技术和语义搜索实现智能问答
一个基于Model Context Protocol (MCP)的服务端,提供检索增强生成(RAG)能力,集成Cursor IDE和Claude Desktop等客户端,实现领域知识问答、智能检索和上下文感知的响应生成。
该项目提供了一系列使用AWS Model Context Protocol(MCP)的示例模块,涵盖了多种语言和技术栈,包括TypeScript、Python、Spring AI等,展示了MCP在客户端-服务器通信、ECS部署、RAG集成等场景下的应用。
mcp-rag-server是一个基于Model Context Protocol (MCP)的服务,支持检索增强生成(RAG),能够索引文档并为大型语言模型提供相关上下文。
一个基于Model Context Protocol (MCP)的服务端项目,提供检索增强生成(RAG)能力,可作为Cursor IDE和Claude Desktop等客户端与Contextual AI代理的桥梁,实现基于知识库的智能问答和上下文感知响应。
Apple RAG MCP是一个为AI代理提供苹果开发专业知识的检索增强生成系统,集成了官方Swift文档、设计指南和Apple Developer YouTube内容,通过AI驱动的混合搜索技术提供准确的技术答案。
该项目构建了一个基于RAG的HR聊天机器人,通过MCP服务器作为功能调用中心,实现PDF文档上传、解析、检索及自然语言问答功能。