Uber总裁指出,尽管公司近95%的工程师使用AI工具,70%的代码由AI生成,但这些投入未能直接转化为产品功能提升,打破了AI的“生产力幻觉”。2026年前四个月,Uber因高昂算力开支触发财务警报,暴露出AI投入与实际产出之间的脱节。
在清华大学“AI医疗新范式”论坛上,百川智能CEO王小川发布新一代医疗大模型“Baichuan-M4”及AI家庭医生“百小医”。该模型登顶三大权威榜单,攻克了医疗AI的“事实性幻觉”问题,标志着AI在医疗垂直领域的精准度与应用形态取得突破性进展。
百川智能发布新一代医疗大模型Baichuan-M4及AI家庭医生“百小医”,旨在解决AI医疗“咨询有余、触达不足”的痛点。Baichuan-M4在权威医疗榜单登顶,幻觉率降至3.3%,具备强循证推理能力,推动医疗AI深度落地。
近日,DeepSeek网页版因用户输入特殊字符后自动跳出无关文本,引发“对话隐私泄露”担忧。官方迅速排查并定性为模型幻觉,澄清非数据泄露问题,缓解了用户疑虑。
消除幻觉,多模态RAG不忘信息,智能编排前沿模型,任务表现卓越
用沁言【文献检索重磅上线】2亿文献便携检索,拒绝AI幻觉,即查即存即分析~
Basin是一款可靠性的编码工具,旨在防止AI生成的错误和幻觉。
一个用于比较大型语言模型在总结短文档时产生幻觉的排行榜。
Alibaba
$15.8
Input tokens/M
$12.7
Output tokens/M
64
Context Length
Openai
$8.75
$70
400
Iflytek
$2
-
$525
$1050
128
Baichuan
$15
32
cpatonn
Qwen3-Omni-30B-A3B-Captioner是基于Qwen3-Omni-30B-A3B-Instruct微调得到的细粒度音频分析模型,专门为任意音频输入生成详细且低幻觉的描述,在复杂多样的音频场景中表现出色。
openchs
这是一个基于Helsinki-NLP的opus-mt-mul-en模型进行微调的斯瓦希里语-英语翻译模型。该模型专门针对儿童热线服务场景进行了优化训练,采用合成的热线对话数据进行训练,具备防止生成幻觉的机制,并通过早停策略监控BLEU分数来保证翻译质量。
nightmedia
Qwen3-Next-80B-A3B-Instruct-q2-mlx是基于Qwen3-Next-80B-A3B-Instruct模型转换的MLX格式极端量化版本,主要用于文本生成任务。该版本采用q2量化,模型大小约为23GB,作为概念验证版本,可能存在重复和幻觉问题。
HugoHE
M-Hood 是一系列专门设计用于缓解目标检测中幻觉现象的模型,通过新颖的微调策略和修正的基准数据集,显著减少分布外数据上的误报,提升目标检测系统的安全性和可靠性。
stelterlab
DeepSeek-R1-0528是深度求索公司推出的升级版大语言模型,在推理能力、减少幻觉率等方面有显著提升,整体性能接近领先模型。
QuantTrio
基于DeepSeek-R1-0528-Qwen3-8B开发的量化版本模型,在推理能力、减少幻觉率等方面有显著提升,适用于多种自然语言处理任务。
Inpris
Humains-Junior是由Humains.com基于微软Phi-3.5-mini-instruct模型训练的AI助手,专门针对客户服务场景优化。该模型使用3亿个标记进行微调,具备严格的指令遵循能力、减少幻觉现象和强大的功能调用能力,并实现了身份感知。
grounded-ai
该模型用于检测语言模型输出中的幻觉现象,即响应连贯但事实错误或脱离上下文的情况。
TEEN-D
基于Llama-3.2-3B-Instruct微调的声明验证模型,专门用于检测AI生成文本中的幻觉或未支持的陈述。
5CD-AI
Vintern-3B-R-beta是一个多模态大语言模型,专注于基于图像的复杂推理任务,能分解推理步骤并有效控制幻觉现象。
DISLab
Gen-8B-R2是一个专注于减少RAG系统中幻觉问题的生成模型,特别适用于处理检索噪声和信息过载的情况。
MichielPronk
该模型专门为SemEval 2025 Task3: Mu-SHROOM竞赛任务微调,用于识别大语言模型输出中的幻觉文本片段。
yaxili96
FactCG是一个基于DeBERTa-v3-large架构的文本分类模型,专门用于检测大型语言模型生成内容中的无依据幻觉。
KRLabsOrg
LettuceDetect 是一个基于 ModernBERT 的幻觉检测模型,专为 RAG 应用设计,支持长上下文处理。
LettuceDetect 是一个基于 ModernBERT 的幻觉检测模型,专为 RAG 应用设计,能够识别答案中未被上下文支持的词元。
SeaLLMs
SeaLLMs-v3是面向东南亚语言的大语言模型系列的最新成果,在同规模模型中表现卓越,能有效处理多种东南亚语言任务,提供安全可靠的响应。该模型经过特别优化,减少了幻觉现象,并对当地语境具有敏感性。
SeaLLMs-v3是面向东南亚语言的大语言模型系列的最新版本,在同类规模模型中取得最先进的性能,在世界知识、数学推理、翻译和指令遵循等任务中表现出色,特别优化了可靠性和安全性,减少幻觉现象。
gokaygokay
基于PaliGemma-3b模型在DocCI数据集上微调的图像描述生成模型,能生成200-350字符的详细描述文本,减少幻觉现象
TroyDoesAI
基于microsoft/Phi-3-mini-128k-instruct优化的模型,专注于提升上下文遵循能力和减少幻觉现象,适用于RAG应用场景。
blueapple8259
该模型使用韩国教材数据集tiny-textbooks进行训练,性能表现欠佳且存在严重幻觉现象
Cognee是一个为AI代理提供记忆功能的开源项目,通过模块化ECL管道构建动态知识图谱,支持多种数据源和格式,减少幻觉并降低成本。
一个防止AI幻觉的MCP服务,当AI不确定时可以向人类提问而非盲目自信,通过简单的问答机制提升开发效率。
一个基于MCP协议的开发文档服务器,提供文档爬取、本地加载、精准搜索和详情获取功能,解决AI开发中的文档幻觉问题。
FOCUS DATA MCP Server是一个将自然语言转换为SQL语句的AI助手服务,采用两步生成方案控制LLM幻觉,提升非技术用户对SQL结果的信任度。
Chainguard是一个MCP服务器,为Claude Code提供任务跟踪、语法验证、长期记忆和智能上下文管理功能,包括代码语义搜索、幻觉预防和看板系统。
一个基于MCP协议的开发文档服务器,提供精准的框架文档检索服务,解决AI开发中的API幻觉问题。
Hivemind是一个Obsidian插件,为虚构世界构建、研究和知识管理提供AI防火墙功能。它通过时间线视图、关系图谱和规范工作流,确保AI工具基于用户笔记中的真实信息进行协作,防止AI幻觉。
Omni-NLI是一个可自托管的多接口(REST和MCP)服务器,专注于自然语言推理任务,用于验证文本间的支持、矛盾或中立关系,可帮助减少AI幻觉并提升应用可靠性。
libragen是一个本地化RAG库构建工具,用于将AI助手(如Claude)与您的实际文档和代码库进行连接,通过创建可搜索的知识库来减少AI幻觉,支持从本地文件或Git仓库构建,并通过MCP协议直接集成到AI工作流中。
NotebookLM MCP服务器的安全强化版本,提供零幻觉答案、Gemini深度研究、文档API和程序化笔记本创建功能,具备14层企业级安全防护,包括后量子加密、证书固定和合规支持。
这是一个基于MCP协议的《古兰经》搜索引擎服务器,旨在为AI助手提供准确、无幻觉的《古兰经》经文查询服务。它利用专门的搜索引擎处理阿拉伯语标准化、词根和词元匹配,确保返回的经文文本绝对准确,而AI仅负责理解用户的自然语言查询意图。
AI编码助手安全扫描器,通过MCP或CLI扫描代码漏洞、检测AI幻觉包、阻止提示注入攻击,支持12种语言和1700+安全规则
MCP-NixOS是一个防止AI助手对NixOS系统产生幻觉的模型上下文协议服务器,提供NixOS软件包、系统选项、Home Manager设置和nix-darwin配置的实时访问。
DevDocs-MCP是一个本地化的MCP服务器,为AI助手提供版本固定的权威文档数据,消除AI幻觉并确保API上下文准确性。
一个基于两阶段SQL生成的MCP服务器,通过自然语言转换SQL,降低幻觉风险并提升非技术用户信任度。
物理层代码检查工具,通过MCP服务器验证射频和物理计算是否违反物理极限,捕获AI在工程工作流中的物理幻觉
基于MCP协议的Java类分析服务,通过反编译依赖JAR包为LLM提供准确的代码分析能力,解决AI编码中的依赖幻觉问题
RagAlgo是一个为AI代理提供经过数学评分的金融上下文(韩国股票/加密货币)的MCP服务器,专注于使用每日收盘数据构建“事实状态”,以防止实时市场噪音导致的AI幻觉,旨在构建投资顾问而非高频交易机器人。
GitMCP是一个免费开源的远程MCP服务器,可将任何GitHub项目转化为文档中心,使AI工具能够访问最新文档和代码,减少幻觉。