近日,阿里巴巴在 Github 等平台正式开源了其全新研发的大模型搜索引擎 ZeroSearch。这款搜索引擎以强化学习框架为基础,能够在无需与真实搜索引擎交互的情况下,激发大模型的搜索能力。
ZeroSearch 的核心技术是利用大模型在大规模预训练过程中积累的丰富知识,将其转化为一个高效的检索模块。该模块能够根据用户输入的搜索查询生成相关的内容,同时具有动态控制生成内容质量的功能,这是传统搜索引擎所不具备的优势。
研究团队在多个知名问答数据集上进行了评测,包括 NQ、TriviaQA、PopQA 和 HotpotQA 等。测试结果显示,使用 ZeroSearch 后,一个70亿参数的监督微调模型,其搜索能力达到了33.06,而140亿参数的模型则进一步提升至33.97,超越了谷歌搜索的32.47。这一成就表明,ZeroSearch 在搜索性能上有了显著提升。
在训练过程中,研究人员通过 SerpAPI 利用谷歌搜索进行了约64,000次的搜索查询,产生的成本高达586.70美元(约合4238元人民币)。而在使用140亿参数的大模型进行模拟时,仅需70.80美元(约合511元人民币),成本大幅降低,达到了87.93% 以上。这一结果展示了 ZeroSearch 在经济效益上的突出表现。
ZeroSearch 不仅在搜索能力上超越了现有的谷歌搜索,同时也在使用成本上实现了显著降低,为人工智能搜索引擎的发展提供了新的可能性。
开源地址:https://github.com/Alibaba-nlp/ZeroSearch
划重点:
🌟 阿里巴巴开源了 ZeroSearch 搜索引擎,采用强化学习框架。
📈 使用 ZeroSearch 的搜索能力超越谷歌搜索,达到更高的评测分数。
💰 模型训练成本大幅降低,使用140亿参数模型时成本降低至约70.80美元。