AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

WikiChat：通过检索维基数据终结LLM幻觉对话准确率比GPT-4高55%

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Jan 9, 2024

WikiChat是一款通过从维基百科检索数据来终结大型语言模型（LLM）幻觉的AI聊天机器人。通过ColBERT进行信息检索和七阶段流程确保准确响应，WikiChat在与人类用户对话时达到了97.9%的事实准确率，相较于GPT-4提高了55%。采用混合人类和LLM评估方法，模拟对话中实现了97.3%的事实准确率。WikiChat有效解决了大型语言模型的幻觉问题，提供更可靠和准确的信息。

WikiChat LLM GPT-4 维基百科 AI聊天机器人

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

谷歌推出面向 13 岁以下儿童Gemini AI聊天机器人

谷歌最近宣布，将推出其新的 Gemini 人工智能（AI）聊天机器人，专门面向13岁以下的儿童。这个新产品将在未来一周内在美国和加拿大上线，预计今年晚些时候也会在澳大利亚推出。值得注意的是，这款聊天机器人将仅通过谷歌的家庭链接账户提供，这意味着家长可以对儿童的使用进行一定的控制。在设置儿童账户时，家长需要输入孩子的姓名和出生日期，这可能会引发关于隐私和数据安全的担忧。谷歌则表示，使用该系统时收集的儿童数据不会用于训练 AI 系统。但需要特别留意的是，聊

2025年5月12号 9:05

1.5k

小红书推出多模态笔记推荐框架 NoteLLM，提升用户体验！

近日，小红书正式推出了名为 NoteLLM 的多模态大型语言模型框架，旨在为用户提供更精准的笔记推荐服务。这个框架不仅能够理解文本信息，还能有效处理图像，借助其强大的语义理解能力，大幅提升了笔记推荐的准确性与相关性。NoteLLM 的核心技术在于生成笔记的压缩嵌入与自动生成标签的能力。通过引入对比学习与指令微调技术，该框架可以更好地解析用户行为数据，从而为每个笔记生成合适的标签和类别。这一创新的功能不仅优化了用户在平台上的使用体验，也极大地增强了用户与

2025年5月7号 17:19

4.0k

AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、上线仅7天，阿里通义千问3问鼎全球开源模型阿里巴巴的开源大模型“通义千问3”在上线仅七天后便荣登全球开源模型的冠军，展现了其在人工智能领域的重大突破。该模型在指令遵循能力方面超越了许多顶级闭源模型，成为全球首个无法作弊的模型基准测试。通义千问3的混合推理能力和低

2025年5月7号 15:37

7.3k

OpenAI发布新一代GPT-4.1模型，和智谱Z.ai撞期

在人工智能领域，OpenAI 于今日正式推出其最新的 GPT-4.1模型，随之而来还有两个小型版本:GPT-4.1mini 和 GPT-4.1nano。这一系列新模型的性能相较于前一代 GPT-4o 和 GPT-4o mini 有了显著提升，尤其在编码能力和指令跟踪方面表现突出。此外，GPT-4.1还具备高达100万个上下文 tokens 的支持能力，极大扩展了处理信息的范围。据测评，GPT-4.1在 SWE-bench Verified 的得分达54.6%，较 GPT-4o 提高了21.4%，在编码模型中处于领先地位。其在指令遵循能力的评分也达到了38.3%，相较于前代提高了10.5%。此外，GPT-4.1在 Vide

2025年5月7号 9:25

2.4k

应对网络威胁利器！Cisco与Meta推出Foundation-sec-8B LLM

在全球安全大会（RSAC2025）上，Cisco 和 Meta 联手发布了 Foundation-sec-8B，这是一个专为网络安全设计的开源大型语言模型(LLM)。随着网络攻击的加剧，传统的防御措施已显不足，企业亟需创新的解决方案来应对不断演变的威胁。Foundation-sec-8B LLM 的独特之处Cisco 的 Foundation-sec-8B LLM 是由其新成立的 Foundation AI 团队开发的，旨在为网络安全领域提供专门的 AI 基础设施。该模型基于 Meta 的 Llama3.1架构，拥有80亿个参数，专门针对网络安全任务进行优化。与通用模型不同，Foundation-sec-8B 在训练过程中使

2025年5月6号 9:28

3.7k

小身材，大智慧!微软Phi-4系列推理模型发布，性能直逼GPT-4o

微软正积极扩展其Phi系列紧凑型语言模型，最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答，同时保持轻量级特性，使其能够在包括移动设备在内的低端硬件上高效运行，延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。Phi-4-reasoning 拥有140亿个参数，并借鉴OpenAI o3-mini的推理路径，通过监督微调进行训练。更高级的Phi-4-reasoning-plus在此基础上增加了强化学习机制，处理的tok

2025年5月2号 9:30

34.0k

OpenAI 紧急回滚 GPT-4o 旧版本，修复献媚问题

近日，OpenAI 针对其最新推出的 GPT-4o 模型所引发的 “献媚” 问题进行了紧急修复。公司首席执行官兼联合创始人 Sam Altman 于今天凌晨宣布，免费用户已经完成了系统更新，100% 回滚至老版本，而付费用户的更新预计将在今天晚些时候完成。用户反馈与问题曝光自从 GPT-4o 发布以来，许多用户反映该模型在与其互动时表现出明显的阿谀奉承特质。有用户通过关闭所有与记忆相关的功能，进行了多次测试。他们询问模型对自己的看法，结果发现模型的回答逐渐趋于过于恭维，给人一种不真实的

2025年4月30号 9:04

2.2k

OpenAI CEO 透露 GPT-4o 存在 “过度谄媚” 问题，计划一周内推出修复

OpenAI 首席执行官萨姆・奥尔特曼（Sam Altman）在社交媒体上回应了用户对于最新版本 GPT-4o 的一些反馈，指出该模型在情感表达上出现了 “过度谄媚” 的倾向。奥尔特曼承诺，OpenAI 将在一周内推出解决方案，以修复这一问题。根据 OpenAI 的更新记录，GPT-4o 于3月27日进行了一次全面的更新，随后在4月25日进行了进一步的调整，重点提升了模型在科学、技术、工程和数学（STEM）领域的能力。此外，更新还改变了模型在对话中的响应方式，使其更加主动，并能够更好地引导对话走向有效结论。

2025年4月29号 9:57

1.8k

开源界核弹！Step1X-Edit 登陆 Hugging Face，用自然语言“画”出新世界，性能直逼 GPT-4o！

开源人工智能的星空，昨夜骤然被一颗新星照亮!备受瞩目的 Step1X-Edit 图像编辑框架，已于2025年4月24日正式登陆 Hugging Face 社区，瞬间点燃了全球开发者和创意工作者的热情。这不仅仅是又一个开源工具的发布，更像是一次对现有图像编辑格局的强力挑战。据悉，Step1X-Edit 巧妙地将强大的多模态大语言模型（Qwen-VL）与先进的扩散变换器(DiT)深度融合，赋予用户通过简单的自然语言指令，即可实现令人惊叹的高精度图像编辑能力。其表现出的卓越性能，甚至敢于直接叫板像 GPT-4o 与 Gemini2Flash

2025年4月28号 10:59

2.6k

字节跳动推出 QuaDMix：大型语言模型预训练数据质量与多样性的统一框架

近日，字节跳动宣布推出其全新的数据选择框架 QuaDMix，旨在提升大型语言模型（LLM）预训练的效率和泛化能力。众所周知，模型的训练效果受基础数据集的质量和多样性影响很大。然而，传统的数据筛选方法往往将质量和多样性视为两个独立的目标，先进行质量过滤，再进行领域平衡。这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差，而多样化的数据集可能会降低质量。因此，在固定的训练预算下，如何同时优化这两个维度以最大化模型性能

2025年4月28号 9:38

3.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

WikiChat：通过检索维基数据终结LLM幻觉 对话准确率比GPT-4高55%