百川智能推出Baichuan-M3 Plus医疗大模型,专为高可靠性医疗场景设计。该模型将“六源循证范式”融入训练与推理全流程,确保诊断建议、用药提示等均基于权威医学证据。其事实性幻觉率降至2.6%,相比GPT-5.2降低超30%,显著提升医疗AI的临床可信度。
谷歌与Kaggle联合推出FACTS基准套件,旨在标准化评估AI模型的事实准确性。该基准针对法律、金融、医疗等对准确性要求高的行业,将“事实性”分为“上下文事实性”和“世界知识事实性”两个场景进行综合评估,填补了当前AI评估体系的空白。
谷歌FACTS团队与Kaggle联合发布FACTS基准测试套件,旨在评估生成式AI模型在企业任务中的事实性和真实性。该框架弥补了现有基准只关注问题解决能力、忽略输出信息与真实世界数据一致性的缺陷,尤其针对图像或图表中的信息嵌入,对法律、金融等关键领域尤为重要。
百度在WAVE SUMMIT大会上发布文心大模型X1.1,该模型在事实性、指令遵循和智能体表现方面显著提升。个人用户可通过文心一言官网和文小言APP体验,企业客户可通过百度智能云千帆平台使用。
用于评估大型语言模型事实性的最新基准
衡量语言模型回答事实性问题能力的基准测试
Aloe是一款专为医疗领域设计的高性能语言模型,提供先进的文本生成和对话能力。
Xai
$21
Input tokens/M
$105
Output tokens/M
128
Context Length
Baidu
$1
$4
64
Openai
$84
Clemylia
LAM-1是lamina系列中的首个完整版本的小型语言模型,由Clemylia开发。该模型专注于创造性内容生成,经过优化能够生成富有想象力、诗意和叙事性的回答,而非事实性信息。
Tesity-T5是由Clemylia开发的编码器-解码器类型语言模型,专注于带上下文的问答任务。该模型能够根据提供的文本上下文,精准提炼并合成答案,具有事实性和综合性的回答能力。
Sami92
基于XLM-R Large微调的文本分类模型,专门用于识别德语文本中的事实性声明和非事实性声明。模型采用弱监督学习方式,先在GPT-4o标注的Telegram数据集上训练,后在手动标注数据集上继续训练,在测试集上达到0.9的准确率。
Babelscape
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
Karko
Proctora是基于混合专家架构(MoE)的模型,结合了角色扮演和事实性回答的专家模块,支持32K上下文长度,在AI-RPG评估中表现优异。
stanford-oval
WikiChat是一个基于LLaMA-2 (7B)微调的大语言模型,通过在维基百科上进行少量样本锚定来阻止聊天机器人产生幻觉,显著提高了对话的准确性和事实性。
eibakke
一个在完整Natural Questions(NQ)数据集上训练的开放领域问答模型,能够回答各种事实性问题