参考 大模型中的涌现 OpenAI 科学家:幻觉是大模型与生俱来的特性,而非缺陷 大模型「幻觉」,看这一篇就够了|哈工大华为出品 大模型 什么是大模型 大语言模型(LLM)是基于海量文本数据训练的深度学习模型 如何解决大模型的「幻觉」问题? 方向一:什么是大模型「幻觉」 大模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于大模型幻觉 在 Karpathy 看来: 从某种意义上说,大语言模型的全部工作恰恰就是制造幻觉,大模型就是「造梦机」。 而且幻觉不是错误,而是 LLM 最大的特点。只有大模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使大模型产生幻觉的原因都有哪些? 方向三:大模型幻觉的检测基准 方向四:大模型幻觉解决该问题的方法 论文链接:https://arxiv.org/abs/2311.05232
01 — 上一篇《人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)》讲了大模型人工智能的幻觉类别,产生的缘由以及评测标准,这篇继续介绍目前对缓解及避免幻觉所做的研究和努力。 在强化学习中,大模型LLM会与环境进行交互,以学习一种策略,该策略帮助大模型在特定任务中获得最大的累积奖励。大模型在学习过程中不断尝试不同的行动,并根据环境的反馈来调整它的策略。 提问时,先将问题向量化,然后通过向量计算,将和问题相近的知识片段提取出来,然后将知识和问题都传给大模型,最后由大模型输出回答。) ://arxiv.org/abs/2309.01219 阅读推荐: 人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一) 百模大战的赢家最终会是开源模型 | 近匠 你好,我是百川大模型 被催眠后的ChatGPT可能会泄露重要信息-大模型的隐藏风险 8.23 中国大模型「顶流群聊」笔记 中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用 OpenAI放开ChatGPT
大模型幻觉(AI hallucination)是指AI模型生成与事实不符或虚构的信息。这种现象的原因可以归结为以下几个方面: 训练数据的局限性:大模型依赖于大量的数据进行训练。 如果训练数据中包含不准确或虚假的信息,模型可能会在生成内容时反映这些错误。 语言生成机制的特性:生成模型如GPT系列通过预测下一个词来生成句子。 缺乏事实验证:大模型并没有内置的事实验证机制,它们无法像人类一样即时查证某些信息的真实性。 开放域生成的挑战:在开放域对话中,模型需要在没有明确限定主题的情况下生成回答。 模型的设计:生成模型的设计并未专注于事实准确性,而是专注于语言的流畅性和连贯性。因此,模型有时会优先生成看似连贯的回答,而不是基于事实的回答。 通过改进训练数据质量、引入事实验证机制、以及优化模型的生成策略,可以在一定程度上减少大模型幻觉的发生。
同时,LLM也面临着一些挑战,如模型的可解释性、安全性和隐私问题等。 幻觉 由ChatGPT带来的大模型时代,国内外各大厂家都在陆续推出自己的大模型,然而目前大模型都存在一个普遍的现象就是:幻觉。 事实幻觉 事实不一致,当问AI:如何解决大模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 附: 解决大模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。 通过微调,可以减少大模型对特定领域的泛化能力不足的问题,从而减少幻觉的产生。 引入注意力机制:注意力机制能够使模型更加关注重要的信息,减少对无关信息的关注,从而减少幻觉的产生。 验证和测试:在应用大模型进行对话生成之前,需要对其进行充分的验证和测试,以确保其在实际应用中能够满足用户需求,避免幻觉问题的出现。
大模型幻觉,听起来就像是从未来科技中走出的术语,其实它是人工智能领域中一个非常有趣的现象。 这就有点像所谓的“大模型幻觉”。 更具体地说,当我们提到大模型(如GPT系列),其实是指一种基于大量数据训练出来的人工智能模型,这些模型能够处理语言、图像等多种类型的任务。 但是,就像那个善于编故事的朋友一样,大模型有时也会“幻觉”,即它们可能会生成一些听起来很合理,但实际上完全是虚构的信息。 这种现象通常发生在模型对某个问题的答案不确定时,它会根据自己的“经验”(也就是训练数据)来“猜测”一个答案。 为什么会产生大模型幻觉? 应对大模型幻觉的方法 增加模型的透明度:通过理解模型的工作原理和限制,用户可以更加警惕可能出现的幻觉。 持续改进和训练模型:通过不断地训练和改进,增加模型处理信息的准确性和可靠性。
论文地址: https://arxiv.org/pdf/2310.16045.pdf 项目地址: https://github.com/BradyFU/Woodpecker 介绍 视觉幻觉是常见于多模态大语言模型 Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。 例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。 我们可以Prompt大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础; 问题构造: 围绕着前一步提取出的关键概念,Prompt大语言模型来提出一些有助于检验图片描述真伪的问题,如“图中有几辆自行车 这些视觉断言可以看做与原有MLLM的回答以及输入图片相关的视觉知识库; 幻觉修正: 基于前面得到的,使用大语言模型对MLLM的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。 LLaVA的颜色得分从78.33分大幅提升到155分!经过Woodpecker修正后,四个基线模型在四个测试子集上的总分均超过500分,在总体感知能力上获得了显著提升。
主要参考:大模型的幻觉问题调研: LLM Hallucination Survey 1 幻觉定义 当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题 进行回复;第三步则是通过对比第一步的answers和第二步的answers,计算匹配指标,衡量模型的幻觉问题; 基于NLI:基于NLI的方法通过NLI模型评估是否Source Information可以蕴含 基于Factualness Classification Metric:标注/构造一批和幻觉/事实有关的数据,训练检测模型,利用该模型评估新生成文本的幻觉/事实问题。 现有工作将减轻幻觉的指标作为强化学习的reward函数,从而减轻幻觉现象。 多任务学习: 通过设计合适的额外任务,可以达到减轻幻觉的效果。 后处理:设计一个小模型专门用于fix幻觉错误。 有两个重要的组成部分,预训练大模型和领域知识库。
最近,老婆刷到一条新闻:“大模型竟编造不存在的历史事件!”她一脸懵地问我:AI 也会像人一样出现幻觉?难道它偷喝了假酒吗?我….. :大模型幻觉不是喝醉,而是一种“脑补失控”——当它遇到知识盲区时,不会老实说“不知道”,反而像小说家般即兴创作。 幻觉的本质 我们可以把大模型幻觉理解成AI版的“皇帝的新衣”——它用华丽的语言编织根本不存在的逻辑。核心不是欺骗,而是过度拟合了“必须回答”的指令。 幻觉的秘诀大模型产生幻觉时,会动用三大伪装技巧:1. 细节轰炸:用具体数字和术语增加可信度。 幻觉的核心价值幻觉虽然危险,却意外暴露出大模型的深层能力:用想象力填补现实空白。这种能力若被合理引导,可能带来惊喜:作家用可控幻觉生成奇幻小说设定:“如果恐龙没有灭绝,它们会建立怎样的文明?”
最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3高不少。今天我们请到了资深AI研究员立委博士,来跟大家聊聊这个话题。 主持人: 老李,咱们先来个灵魂拷问:为啥大模型会“产生幻觉”?能不能用大白话给大家解释一下?立委: 这可算是大模型的经典问题。 主持人: 人对于逻辑看起来清晰自洽、且详细的内容,就会倾向于相信,所以大模型幻觉潜在的危害真地很大。那咱们普通人,面对大模型的幻觉,该咋办呢? 大模型的幻觉属于此类。大模型的知识学习过程(训练阶段),是一种信息压缩过程;大模型回答问题,就是一个信息解码过程(推理阶段)。好比升维了又降维。 大模型也是如此,大模型是天生的艺术家,不是死记硬背的数据库。“张冠李戴”、“指鹿为马”等在大模型的幻觉里非常自然,因为张和李是相似的,马和鹿也在同一条延长线上。
解析器 零基础学AI大模型之大模型的“幻觉” 一、先搞懂:什么是大模型的“幻觉输出”? 这就是大模型的「幻觉输出」(Hallucination)。 三、为什么会产生幻觉?3个根本原因 大模型不是“故意说谎”,而是它的设计和训练机制决定了容易出幻觉,核心原因有3个: 1. 咱们不用因为幻觉就否定大模型,而是要学会“和幻觉共存”:用RAG、微调等技术减少幻觉,用提示词、多源验证保护自己。 后续系列咱们会实战RAG如何缓解幻觉,感兴趣的朋友可以关注一波~ 最后,想问大家:你在使用大模型时遇到过哪些“离谱”的幻觉?欢迎在评论区分享,咱们一起避坑!
幻觉是语言模型生成了似是而非的答案,即使很简单的问题,但是模型可能给出一些不符合事实的答案,比如: 问题:请用一句话回复,其中第三个词是 “dog” 回答:I have a dog. 外在幻觉(Extrinsic Hallucinations):生成了与源信息无关的内容,大部分情况是没有原始事实,会导致大模型开始 “胡说八道”。 为什么会出现 "幻觉"? 以上是大模型幻觉率的排行榜,可以看到 "幻觉" 并不是模型越大,"幻觉" 就越低,而是和本身的模型评分标准相关。 尽管知道错误的奖励机制会导致 "幻觉" 的出现,但衡量准确度的评分机制仍在排行榜和模型资料卡上占据主导地位,促使开发人员建立倾向猜测而非选择不作答的模型,这样就进一步加剧模型更加自信的提供错误答案。 发现 LLM 学习带有新知识的样本,要比学习与模型预先存在的知识样本,学得更慢,一旦学习了这些带有新知识的样本,模型产生幻觉的倾向就会增加。 如何减少 "幻觉"?
如何解决大模型的「幻觉」问题? 什么是大模型「幻觉」 在人类生活中,幻觉表示虚假的但是我们分辨不清楚的事物,在大语言模型中,[幻觉]即代表模型生成的虚假的文本,这中情况很容易导致一些错误的发生 造成大模型「幻觉」的原因 语言模型的训练数据 这可能导致模型在生成文本时做出不准确或草率的推断,产生幻觉。 模型的先验知识: 模型在训练时通过观察大量文本数据学到了丰富的先验知识。 这些先验知识可能并非总是准确或适用于所有情境,因此在某些情况下可能导致模型产生幻觉。 对抗性攻击: 恶意用户可以通过巧妙设计的输入来欺骗模型,导致其生成虚假或误导性的输出,从而引发幻觉。 领域适应性: 模型可能在某些领域表现良好,但在其他领域可能不够准确。当模型被用于不适合的任务或领域时,可能会产生幻觉。
大模型中有很多的名词,有所了解就可以让我们更好地应用大模型,例如"幻觉"这个词,听起来很玄乎,像是AI出现了精神错乱,其实没多么复杂,我通过几个生活中的例子,帮你一秒搞懂。 历史文章, 《Token通俗一些的理解》 《小白都可以看懂的小龙虾安装教程》 通俗版定义 大模型的幻觉,就是它“一本正经地胡说八道”。 它不是故意骗你,而是因为它不知道“我不知道”。 模型开始幻觉:"出自《三体2:黑暗森林》第15章,罗辑在面壁计划听证会上说的。"(实际上这本书根本没有章节编号,这句话也不是在那个场合说的,但模型说得跟真的一样) 为什么会产生幻觉? 想象一下,大模型本质上是一个超级接龙高手。它被训练的方式是:看了海量的互联网文字后,学会了"给定前面的文字,下一个字最可能是什么"。 用它的幻觉帮你创作 如果想写小说,可以故意问:"假设秦始皇穿越到现代,开了一家奶茶店,会发生什么?"这时候幻觉就是最好的创意引擎。 因此,幻觉 = 模型"自信满满的瞎编"。
深度学习自然语言处理 分享 整理:pp 摘要:尽管大语言模型(LLMs)取得了许多进步,并以前所未有的速度迅速发展,但由于种种原因,它们对我们日常生活方方面面的影响和整合仍然有限。 阻碍其广泛应用的一个关键因素是幻觉的出现,在幻觉中,大型语言模型编造出听起来逼真的答案,但却与事实真相相去甚远。 改进模型架构:研究不同的模型架构对幻觉检测性能的影响,例如使用Transformer模型的不同变体或结合多种模型的优势。 用户交互式验证:开发用户交互式的方法,允许用户参与验证过程,以进一步提高幻觉检测的准确性。 幻觉原因分析:深入研究导致幻觉的根本原因,例如模型训练数据的偏差、模型架构的局限性或特定类型的查询。 长期影响评估:研究长期使用InterrogateLLM对模型性能的影响,包括幻觉检测的长期效果和模型对幻觉的适应性。
新工具与数据集助力检测大语言模型中的幻觉尽管大型语言模型能力非凡,但其存在一个致命弱点:倾向于产生“幻觉”,即听起来合理但事实不准确的断言。 以往的幻觉检测框架使用句子或短短语来表征大语言模型生成文本中的事实断言,而 RefChecker 则使用具有 <主体, 谓词, 客体> 结构的知识三元组(与知识图谱中表示数据所用的结构相同)。 这能够实现对大语言模型输出更细粒度的评估,从而更加精确和更具信息量。该基准数据集涵盖三种不同的场景:零上下文:大语言模型在没有任何参考文本的情况下生成文本来回答问题。 幻觉检测幻觉检测的目标是根据一组参考资料检查大语言模型生成回复的事实性。此问题涉及三个主要问题:如何以及在何处找到参考资料?我们将在何种细节级别上检查回复?如何对回复中的主张进行分类?1. 主张分类RefChecker 并非简单地声明整个回复是否存在幻觉,而是检查大语言模型生成文本中嵌入的主张。大语言模型对提示的回复与相应参考资料之间的基本关系可以用维恩图表示。
引言 大模型幻觉问题是指模型生成的文本内容不基于任何事实数据,直白一点就是胡说八道。 现有的评测基准往往在标注数据时「仅限于句子级别的幻觉,而在关键词级别的标注粒度较少」。然而,从不同粒度上对大语言模型的分辨能力进行评测不仅更具挑战性,而且可以为解决幻觉问题提供新的启示。 该基准包括三个部分: 一个基于新闻内容生成的具有5000多个数据项的幻觉数据集; 一个数据安全,扩展便捷,实验方便的评测框架; 一份在11个当下流行的大语言模型上的实验报告。 实验结果 3.1 实验模型 研究一共使用了11个大模型。 3.4 结果分析 文章使用三个不同的评测器,对11个大模型展开了详尽的实验分析,如下表所示。 同时也分析了不同新闻类型导致幻觉的差异性,如表6所示。
试想一下,如果将有严重幻觉问题的多模态大模型部署在自动驾驶上,在高速公路上前方无车的情况下,由于模型出现前方有车的幻觉而下令急刹车,将会导致严重的交通追尾事故。 同时,是否存在一种方法,可以在不需要额外知识和训练的情况下轻松解决多模态大模型的幻觉问题呢? 研究者们将这一现象描述为 “partial over-trust”,并发现大模型的这种阶段性总结可能是导致幻觉问题的一大“元凶”! 同时,研究者们进行了数值统计,在不同模型中都观察到了这一现象与幻觉之间的相关性。 研究者们通过随机采样 100 张图像,并向不同的多模态大模型提出问题。 作为一种通过改进解码策略来减轻多模态大模型幻觉的方法,OPERA 具有易于在不同模型和架构上部署的特点,同时也激发了更多研究者从机制层面研究和解决多模态大模型的幻觉问题。
有点好奇,大模型还能产生幻觉?于是查找了一些资料,开始了解。 大模型幻觉,像你身边那个爱吹牛的熟人 关于大模型幻觉,官方一点的说法是这样的: 大模型的幻觉问题,即Hallucination,指模型基于有限元素和强大的语言表达能力生成逻辑上似乎合理但实际不符合已知常识的描述 斯坦福大学和耶鲁大学的研究人员在关于三种流行的大语言模型(LLM)的研究预印本中发现,类似的错误在人工智能生成的法律输出里极为普遍。 无论是哪种大模型,都会出现不同程度的“幻觉”。 导致模型在学习这些数据时,记错了信息。 微调:大模型引入新知识时,但模型学习新知识较慢,导致更容易产生幻觉。 大模型幻觉会停止吗? 不会。 大模型会产生幻觉,人也会,人的交流也并不是百分百的准确和真实,所以我们也不用对大模型幻觉太过紧张。
自动化幻觉检测与思维链推理当大型语言模型(LLM)被提示诸如"圣约翰草可能与哪些药物发生相互作用?" 通过使用单独的声明分类模型,通过将声明与上下文(与请求相关的检索文本,同样输入分类模型)进行比较,将声明分为五个关键类别(支持、缺失、矛盾、部分支持和不可评估)。 最后,通过测量不支持声明(即被分配为非支持类别的声明)的比例并计算细粒度错误类型的分布来生成聚合幻觉分数。这种分布为LLM构建者提供了有关其模型所犯错误性质的有价值见解,促进针对性改进。 这已被证明不仅可以提高LLM性能,还可以提高模型可解释性。 如果较少轮次减少了这种错误类型,限制轮次数量或使用先前轮次的摘要可以缓解幻觉。虽然HalluMeasure可以为科学家提供模型幻觉来源的见解,但生成式AI仍然存在不断演变的风险。
新工具与数据集助力大语言模型幻觉检测大语言模型(LLMs)虽能力卓越,却存在“幻觉”问题——生成看似合理但事实错误的断言。某些幻觉极为细微,例如日期误差仅一两年。 为检测此类细微幻觉,某机构推出RefChecker,包含新型幻觉检测框架和基准数据集。 技术流程RefChecker包含两个可配置模块: 声明三元组提取器(E):当前版本使用GPT-4和Claude 2,后续将开源Mixtral-8x7B提取器; 幻觉检查器(C):支持GPT-4、Claude 使用方式该研究认为,精准识别细粒度幻觉是制定缓解策略的第一步。反馈可通过GitHub提交,欢迎贡献改进。 致谢:Lin Qiu, Zheng Zhang