(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。 Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。 例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。 方法 Woodpecker的架构如下,它包括五个主要步骤: 关键概念提取、问题构造、视觉知识检验、视觉断言生成 以及幻觉修正。 关键概念提取: 关键概念指的是MLLM的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。 此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示: 从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现
推理能力的提升,在一定程度伴随着视觉对齐的弱化,呈现出「越推理越幻觉」的倾向。 该工具不仅提升了模型幻觉风险的可测性,也为未来多模态系统的稳健性评估与改进提供了重要参考。 推理链「长度悖论」:思考越多,幻觉越大? 模型推理链条的长短,真的越长越好吗? RH-AUC:推理与幻觉的动态权衡评估 面对多模态模型中推理增强与幻觉放大的两难局面,研究团队提出了一项全新评估指标:RH-AUC(Reasoning-Hallucination Area Under 3. 数据「类型」比规模更重要:实验发现,与其盲目扩展训练集规模,不如引入少量具备领域感知特征的样本(如数学推理或图像感知任务),更有助于引导模型在「看图」与「思考」之间实现平衡。
01 — 上一篇《人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)》讲了大模型人工智能的幻觉类别,产生的缘由以及评测标准,这篇继续介绍目前对缓解及避免幻觉所做的研究和努力。 GPT-3的预训练数据是通过使用相似性来清理的。 Falcon通过巧妙地启发式规则提取网络中的高质量数据,并证明适当分级的相关语料库可以生成强大的LLM。 目前常用的标准是“3H”,即有帮助(Help)、诚实(Honest)和无害(Harmless)。诚实就是减少语言模型回答中的幻觉。 3. 上下文感知解码CAD 其它研究探讨了检索增强设置下的语言模型问题,发现语言模型在处理下游任务时,有时无法充分关注检索到的知识,特别是当检索到的知识与参数化知识相冲突时。 然而,LVLMs存在多模态幻觉问题一样比较严重。 一些研究表明,LVLMs继承了LLMs的幻觉问题,例如物体幻觉。
最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3高不少。今天我们请到了资深AI研究员立委博士,来跟大家聊聊这个话题。 根据Vectara的测试,R1的幻觉率确实比V3高不少,R1的幻觉率14.3%,显著高于其前身V3的3.9%。这跟它加强了的“思维链”(CoT)和创造力直接相关。 他们对于文科类任务,利用的是V3或V3的奖励模型来判定好坏,显然目前的系统偏好是鼓励创造性。 可是当我们对比 R1 和它的基座模型 V3 时,又发现增加推理强化后幻觉确实显著增加了。这事儿跟大模型的“性格”有关。 V3: query --〉answerR1: query+CoT --〉answer对于 V3 已经能很好完成的任务,比如摘要或翻译,任何思维链的长篇引导都可能带来偏离或发挥的倾向,这就为幻觉提供了温床
一、AI幻觉的定义与风险 AI幻觉指人工智能系统生成看似合理但实际错误或虚构的内容,例如编造不存在的论文、人名或事件。这种现象在生成式AI中尤为常见,尤其在缺乏足够训练数据或上下文的情况下。 高风险领域如医疗、法律和新闻,一旦出现AI幻觉可能导致严重后果,例如误诊、法律文件错误或虚假新闻传播。 二、应对策略与案例分析 事实核查机制 部署自动化工具对AI生成内容进行实时验证。 检索增强生成(RAG) RAG通过将外部知识库与生成过程结合,减少幻觉。 "no_repeat_ngram_size": 2, "repetition_penalty": 1.5, "hallucination_threshold": 0.7 # 自定义幻觉检测阈值 实时更新系统需配置延迟发布机制 持续改进机制 知识维护: 建立版本控制的行业知识图谱 专业领域每月至少更新一次基准数据 实施变更影响评估制度 质量监控: 错误案例库按严重程度分级(P0-P3)
然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。 大语言模型的长而详细的输出看起来很有说服力,但是这些输出很有可能是虚构的。 这个简单的想法允许引入一种新的基于样本的幻觉检测机制。如果LLM对同一提示的输出相互矛盾,它们很可能是幻觉。如果它们相互关联,就意味着信息是真实的。对于这种类型的求值,我们只需要llm的文本输出。 + cos_sim_with_sample2 + cos_sim_with_sample3) / 3 cos_sim_mean = cos_sim_mean.item() return 有效输出的幻觉得分较低,而虚构输出的幻觉得分较高。但是计算BERTScore的过程非常耗时,这使得它不适合用于实时幻觉检测。 实时幻觉检测 我们可以构建一个实时幻觉检测的Streamlit应用。如前所述,最好的度量是LLM自相似性得分。我们将使用0.5的阈值来决定是显示生成的输出还是显示免责声明。
针对这一核心痛点,M3 Plus 延续了 M3 基座模型的内生逻辑机制,通过引入 Fact-Aware RL(事实感知强化学习)等新技术,将幻觉控制推向了新高度。 上周发布的百川新一代基座模型 Baichuan-M3,开拓了幻觉降低的技术路线,探索模型基座的幻觉降低范式,成功首创了 Fact-Aware RL 的强化学习范式,让模型在无工具、无检索增强的情况下大幅降低了幻觉 据测试,Baichuan-M3 不仅在医疗沟通和推理能力上全面领先 GPT-5.2,在医疗幻觉率上也实现了超越,达到全球最低水平。 六源循证不仅使 AI 模型的医学知识储备和医学知识利用能力大幅提升,更直接将幻觉降低到 DeepSeek-R1 模型的 1/3,使模型的可信度达到比肩资深临床专家的水平。 M3 Plus 模型在 Halluciation Rate 评测中的幻觉率只有 2.6,比 GPT-5.2 低超过 30%,也低于目前行业的标杆 Open Evidence,刷新了医疗模型低幻觉世界纪录
大多数评测基准主要集中在英语幻觉上,「而中文幻觉评测数据集较少」。 因此,这两个方面共同构成了模型和提示的无约束候选幻觉生成的框架。 2.3 幻觉排名 对于生成的5个候选幻觉文本,UHGEval从「文本流畅性」和「幻觉发生可能性」两个维度进行排名。 其中,3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文大语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM 值得注意的是,所有底层模块都是可扩展的;数据集可以被自定义版本、来自API或平台(如Hugging Face 3)的LLM以及单独定制的指标所取代。 [3]Meta提出BSM,Llama-chat媲美GPT-4! [4]EMNLP2023 | 分享10篇值得阅读的paper
OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。 幻觉一直是大模型的致命缺陷。 过多重复的信息还会使大模型形成偏见,这也是幻觉的一种。但是幻觉并非无解命题。开发过程中对数据集慎重使用、严格过滤,构建高质量数据集,以及优化模型结构、训练方式都能在一定程度上缓解幻觉问题。 由于不知道每个 LLM 是在什么数据上训练的,因此对于任何特别问题来说,确定幻觉都是不可能的。 此外,要建立一个能够在没有参考源的情况下确定回答是否是幻觉的模型,就需要解决幻觉问题,而且需要训练一个与被评估的 LLM 一样大或更大的模型。 因此,Vectara 选择在总结任务中查看幻觉率,因为这样的类比可以很好地确定模型整体真实性。
#别再掉进RAG的"幻觉"陷阱:3个检索增强生成的实战优化技巧在上周的客户项目中,我亲眼目睹一个精心构建的金融问答系统因生成"2023年Q3净利润增长200%"的虚假数据而险些引发合规危机。 初期版本幻觉率达29%,最严重时生成"2023年Q3净利润200亿"(实际为-15亿)。团队尝试过增加检索文档数量、升级LLM模型等传统方案,但幻觉率仅降至24%。 ]B-->B1(事实准确性)B-->B2(逻辑一致性)B-->B3(来源可追溯性)C-->C1(幻觉率)C-->C2(置信度校准度)C-->C3(反馈响应速度)图3:RAG幻觉评估框架。 而实施本文技巧后,即使检索准确率仅提升3%,幻觉率却骤降60%——关键在于修复了检索与生成的断裂点。 未来方向值得关注:1)将幻觉检测嵌入LLM训练过程;2)开发领域专用的幻觉评估基准;3)探索RAG与知识图谱的深度结合。但当下最紧迫的是,每个RAG开发者都应建立自己的幻觉防御体系。
第一届 DevOpsDays结束后,DevOps 运动则如星火燎原之势在全球发展开来。随着 DevOps 思想的不断传播,相对的质疑和批评也从未停止过。以至于到今天对于 DevOps 的定义还是众说纷纭,争论不休。 当人们还在争论 DevOps的时候,一批基于敏捷的工程实践和自动化工具带着 DevOps 的标签走入了人们的视野。人们开始认为 DevOps 就是使用这些工具进行自动化。
幻觉 由ChatGPT带来的大模型时代,国内外各大厂家都在陆续推出自己的大模型,然而目前大模型都存在一个普遍的现象就是:幻觉。 大白话就是大模型无法理解你的用词约束,结果出来一个稀里糊涂的东西。 我们在医学、金融、科研等领域对一些数据要求精准度非常的高,如果给个幻觉的错误数据,那么后面问题就太大了。 事实幻觉 事实不一致,当问AI:如何解决大模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 附: 解决大模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。 通过微调,可以减少大模型对特定领域的泛化能力不足的问题,从而减少幻觉的产生。 引入注意力机制:注意力机制能够使模型更加关注重要的信息,减少对无关信息的关注,从而减少幻觉的产生。
大模型幻觉,听起来就像是从未来科技中走出的术语,其实它是人工智能领域中一个非常有趣的现象。 这就有点像所谓的“大模型幻觉”。 更具体地说,当我们提到大模型(如GPT系列),其实是指一种基于大量数据训练出来的人工智能模型,这些模型能够处理语言、图像等多种类型的任务。 但是,就像那个善于编故事的朋友一样,大模型有时也会“幻觉”,即它们可能会生成一些听起来很合理,但实际上完全是虚构的信息。 为什么会产生大模型幻觉? 数据的局限性:虽然大模型的训练数据非常庞大,但并不全面,可能会缺乏某些领域或主题的信息。 应对大模型幻觉的方法 增加模型的透明度:通过理解模型的工作原理和限制,用户可以更加警惕可能出现的幻觉。 持续改进和训练模型:通过不断地训练和改进,增加模型处理信息的准确性和可靠性。
编辑:Henry 【新智元导读】Alembic首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。 原来大模型的「幻觉」,真的可以完全消除! 也就是说,饱受诟病的LLM幻觉,被彻底攻破了。 他接着表示,我们基本上让生成式AI免于产生幻觉。它可以确定性输出,也可以谈论因果关系。 解决幻觉问题 「幻觉」一直是企业采用聊天机器人和虚拟助理等人工智能系统的主要障碍。 此前的AI模型即使可以生成看似逼真的文本,还是经常会产生错误或无意义的信息,也就是所谓的「幻觉」,导致在关键业务应用中的部署存在风险。 Puig对VentureBeat说「这几乎就是企业的3D呈现。想象一下,你可以看到每个客户和企业每个部门之间的每一次互动,以及这些互动是如何通过组织串联起来推动结果的」。
让小吾来给你说说这些"幻觉"是从哪儿来的:(1)数据不够全:AI只能学它见过的东西。要是训练数据有错,它就学错了。而且数据可能带有偏见,或者信息不完整。(2)靠猜测回答:AI其实是在玩文字接龙游戏。 (3)缺乏现实感:AI没有事实核查功能,不能实时验证自己说的对不对。它就像个只会背书的学生,没有真正理解。(4)理解能力有限:AI经常会会错意,特别是在面对复杂或模糊的问题时,容易产生误解。
其实目前来看,AI 在很多时候确实存在幻觉现象,尤其是在处理严谨性较强的问题时,例如数学题、编程问题等,经常会给出错误答案,甚至出现胡编乱造的情况。那为什么当前的大模型会出现幻觉呢? 目前主流模型如 GPT、Claude、Gemini 等,虽然持续强化其检索增强能力(RAG)与事实校验机制,但幻觉现象依然难以完全杜绝。 因此,我们要想识别 AI 所生成的幻觉信息,最根本的方法仍然是主动进行多重验证。 尤其当幻觉信息被用户误信后扩散传播,甚至被恶意剪辑包装为“真相”,就可能引发信息污染、社会恐慌,乃至影响政策判断与公众认知。那我们如何辨别是否为虚假信息呢? 借助工具辅助判断: GPT 类模型可帮助分析语义逻辑,但其自身也可能产生幻觉; ImageForensics、Deepware Scanner 可判断图像/视频是否由 AI 生成; Bing、Gemini
在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。 这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。 具体地,ProMaC 框架如图 3 所示: 图 3. ProMaC 流程图 多尺度思维链提示 它主要完成两个任务:收集尽可能多的任务相关候选知识,并生成准确的样本特有提示。 为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。 这能充分利用幻觉来提取图片中与任务相关的信息,验证后生成更准确的提示。这样,更好的提示又能改善掩码的质量,形成一个互相促进的提升过程。
质量內建于开发流程中(building quality into the development process) DevOps文化的转变带来的一个效果是让新代码进入生产环境更加容易。这使一些未来的 DevOps 文化转变非常必要。为了确保生产环境的变更稳妥。团队需要重视“将质量构建在开发过程中”,这包括很多跨功能的考虑例如性能和安全,持续交付和自我测试的代码会形成一个允许频繁且低风险部署的基础。
3. (3)从静态评估到动态交互: 新兴基准开始关注更复杂的幻觉形式,如用户意图幻觉、不确定性识别,乃至在多轮角色扮演交互中的一致性,以模拟更真实的应用场景。 3) “未知”的识别:如何让模型优雅地承认“我不知道”仍然是一个开放性问题。强制回答的倾向是幻觉的主要驱动力之一。 3) 可解释性与归因分析:开发新的数据集和方法,旨在将幻觉归因于模型的特定模块(如视觉编码器、语言解码器或对齐模块),从而为模型改进提供更精确的指导。 表格3: 视觉语言模型(VLM)的幻觉评估 本表格专注于评估视觉语言模型(VLM)中的幻觉现象,特别是对象存在性幻觉(Object-level Hallucination)。
主要参考:大模型的幻觉问题调研: LLM Hallucination Survey 1 幻觉定义 当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题 基于Factualness Classification Metric:标注/构造一批和幻觉/事实有关的数据,训练检测模型,利用该模型评估新生成文本的幻觉/事实问题。 人工评估:目前为止最靠谱的,此外还可以依靠LLM打分(比如利用GPT4,但是GPT4也存在着严重的幻觉问题,即使经过retrival-augment,检索回来的信息也有可能是错误的) 3 如何解决 构建高质量数据集 训练方式 可控文本生成:将幻觉的程度作为一个可控的属性,利用可控文本生成技术进行控制。 现有工作将减轻幻觉的指标作为强化学习的reward函数,从而减轻幻觉现象。 多任务学习: 通过设计合适的额外任务,可以达到减轻幻觉的效果。 后处理:设计一个小模型专门用于fix幻觉错误。