首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DeepHub IMBA

    如何避免LLM的“幻觉”(Hallucination)

    生成式大语言模型(LLM)可以针对各种用户的 prompt 生成高度流畅的回复。然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。 这个简单的想法允许引入一种新的基于样本的幻觉检测机制。如果LLM对同一提示的输出相互矛盾,它们很可能是幻觉。如果它们相互关联,就意味着信息是真实的。对于这种类型的求值,我们只需要llm的文本输出。 所以说第一个输出很有可能是LLM幻觉。 BERTScore BERTScore建立在两两余弦相似度思想的基础上。 用于计算上下文嵌入的标记器是RobertaTokenizer。 有效输出的幻觉得分较低,而虚构输出的幻觉得分较高。但是计算BERTScore的过程非常耗时,这使得它不适合用于实时幻觉检测。 实时幻觉检测 我们可以构建一个实时幻觉检测的Streamlit应用。如前所述,最好的度量是LLM自相似性得分。我们将使用0.5的阈值来决定是显示生成的输出还是显示免责声明。

    80211编辑于 2024-01-04
  • 来自专栏CSDNToQQCode

    大语言模型LLM中的幻觉

    LLM是什么? 大型语言模型(LLM)是一种基于自然语言处理和机器学习技术的大型语言处理模型。它能够理解和生成自然语言文本,并能够处理各种语言和文本类型,如对话、问答、文本生成等。 同时,LLM也面临着一些挑战,如模型的可解释性、安全性和隐私问题等。 幻觉 由ChatGPT带来的大模型时代,国内外各大厂家都在陆续推出自己的大模型,然而目前大模型都存在一个普遍的现象就是:幻觉。 事实幻觉 事实不一致,当问AI:如何解决大模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 其实我们文的也稍微有点问题,如果单独文LLM是什么的话我们来看看。 这个回答就更不靠谱了。。。 事实捏造 我们还问LLM,这回问LLM的起源是什么? 附: 解决大模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。

    49410编辑于 2024-01-02
  • 来自专栏素质云笔记

    大模型幻觉LLM Hallucination)若干记录

    主要参考:大模型的幻觉问题调研: LLM Hallucination Survey 1 幻觉定义 当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题 基于Factualness Classification Metric:标注/构造一批和幻觉/事实有关的数据,训练检测模型,利用该模型评估新生成文本的幻觉/事实问题。 人工评估:目前为止最靠谱的,此外还可以依靠LLM打分(比如利用GPT4,但是GPT4也存在着严重的幻觉问题,即使经过retrival-augment,检索回来的信息也有可能是错误的) 3 如何解决 构建高质量数据集 训练方式 可控文本生成:将幻觉的程度作为一个可控的属性,利用可控文本生成技术进行控制。 现有工作将减轻幻觉的指标作为强化学习的reward函数,从而减轻幻觉现象。 多任务学习: 通过设计合适的额外任务,可以达到减轻幻觉的效果。 后处理:设计一个小模型专门用于fix幻觉错误。

    1.3K40编辑于 2023-07-25
  • 来自专栏技术人生黄勇

    大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)

    希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。” 02 — 预训练阶段的缓解 LLM的知识主要在预训练阶段获取,预训练语料中的噪声数据可能会破坏LLM的参数知识,导致幻觉。 因此,减少不可验证或不可靠数据的预训练语料可能是缓解幻觉的一种直观方法。 有研究表明,可以追溯LLM获取的事实知识产生于其训练的数据。‍‍‍ 在LLM时代之前,人们通过手动清理训练数据来减少幻觉。Gardent等人和Wang都采用了人工修正的方法,有效地减少了幻觉。 表10:最近关于借助外部知识缓解幻觉的一些研究摘要。QA(问答)、FV(事实验证)和LM(语言建模)。 1. 直接利用额外的LLM来判断两个LLM反应在相同语境下是否存在逻辑矛盾,可以采用另一种LLM来修正两个反应中这种自相矛盾的幻觉。 利用现有的程序监督为LLM响应分配一个风险分值,可作为幻觉的指标。

    2.1K10编辑于 2024-07-19
  • 来自专栏AI SPPECH

    18:HalluGuard LLM幻觉风险边界深度解析

    作者: HOS(安全风信子) 日期: 2024-10-04 主要来源平台: ModelScope 摘要: 本文深度解析HalluGuard论文,该论文讨论了大型语言模型(LLM)在高风险领域中出现幻觉的问题 然而,随着LLM在越来越多高风险领域(如医疗、法律、金融等)的应用,幻觉问题逐渐成为一个严重的挑战。 所谓LLM幻觉,指的是模型生成的内容看似合理,但实际上与事实不符或缺乏依据的现象。 目前,关于LLM幻觉的研究主要集中在以下几个方面: 幻觉检测:开发方法来检测LLM生成内容中的幻觉幻觉缓解:通过技术手段减少LLM生成幻觉的概率。 幻觉评估:建立标准的评估方法和基准,来衡量不同模型的幻觉程度。 幻觉原因分析:深入研究导致LLM产生幻觉的根本原因。 监管框架完善:随着LLM在高风险领域的应用增加,相关的监管框架将不断完善,要求模型开发者和使用者进行幻觉风险评估。 保险机制引入:引入LLM幻觉风险保险机制,为高风险应用提供保障。

    16810编辑于 2026-02-08
  • 来自专栏自然语言处理(NLP)论文速递

    降低幻觉!谷歌 | 提出ASPIRE方法,支持LLM自行打分,性能超10倍体量模型

    【导读】谷歌推出了一个让LLM给自己输出打分的选择性预测系统,通过软提示微调和自评估学习,取得了比10倍规模大的模型还要好的成绩,为开发下一代可靠的LLM提供了一个非常好的方向。 如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。 让LLM不仅要回答问题,还要评估这些答案 。在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。 在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。 如果LLM可以成为决策过程中值得信赖的合作伙伴。 因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。

    42310编辑于 2024-01-25
  • 来自专栏AgenticAI

    OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略

    2024年7月7号,OpenAI安全团队负责人,Lilian Weng分享了一篇博客介绍了LLM幻觉的由来、检测和对抗策略,分享给大家,以下为翻译全文。 这篇文章主要讨论外在幻觉。为了避免幻觉LLM需要 (1) 实事求是,(2) 在适当的时候承认自己不知道答案。 注:本文共分为三节:LLM幻觉由来、检测和对抗,其中对抗方法包括RAG相关的策略,感兴趣的同学可以直达。 1. 什么导致幻觉? 2.2 基于采样的检测 SelfCheckGPT(Manakul 等人,2023 年[10])依赖于对来自黑盒 LLM 的多个样本的事实性错误进行一致性检查。 对抗幻觉方法 让我们回顾一组提高 LLM 事实性的方法,从检索外部知识库、特殊采样方法到对齐微调。还有一些通过神经元编辑减少幻觉的可解释性方法,但我们将在这里跳过。

    71910编辑于 2025-03-18
  • 无需LLM评判,用几何方法检测AI幻觉

    无需LLM评判:一种检测AI幻觉的几何方法想象一群正在飞行的鸟。没有领队,没有中央指令。每只鸟都与邻近的鸟对齐——调整方向、匹配速度,通过纯粹的局部协调保持队形。 大语言模型(LLM)产生的幻觉,正是这样的“红色鸟”。我们真正要解决的问题LLM能生成流畅、自信的文本,但其中可能包含捏造的信息。 检测此类幻觉的标准方法是让另一个语言模型来检查输出,即“LLM作为评判者”。你马上就能看出问题所在:我们用一个本身就会产生幻觉的系统去检测幻觉。这就像让一个无法分辨颜色的人去给颜料样本分类。 因此,我们在已建立的幻觉数据集上进行了验证:包含专门设计得难以察觉的LLM生成幻觉的HaluEval-QA、包含偏离对话上下文的回复的HaluEval-Dialogue,以及测试人类常误解之事的TruthfulQA 每个领域——每种任务类型,每个LLM——在训练过程中都会形成自己独特的位移模式。这些模式是真实且可检测的,但它们是领域特定的。

    17310编辑于 2026-01-23
  • 来自专栏新智元

    消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

    编辑:润 【新智元导读】谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统,通过软提示微调和自评估学习,取得了比10倍规模大的模型还要好的成绩,为开发下一代可靠的LLM提供了一个非常好的方向 如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。 让LLM不仅要回答问题,还要评估这些答案 。 在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。 在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。 如果LLM可以成为决策过程中值得信赖的合作伙伴。 因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。

    59510编辑于 2024-01-23
  • 来自专栏AI SPPECH

    46_LLM幻觉问题:来源与早期研究_深度解析

    通过分析幻觉问题的深层原因,我们可以更好地认识LLM的局限性,同时也为开发更可靠的语言模型提供方向。 幻觉问题的重要性与研究意义 幻觉问题不仅仅是技术缺陷,它直接关系到LLM的可信度和应用价值。 LLM幻觉类似于人类在信息不足时的编造行为。 研究表明,随着生成内容长度的增加,幻觉出现的概率也相应提高: 短文本(<50词):幻觉率约10% 中等长度(50-200词):幻觉率约20% 长文本(>200词):幻觉率可达30%以上 这一规律与模型的长期一致性保持能力有关 5-10个百分点。 随着研究的深入和技术的进步,我们有理由相信,LLM幻觉问题将逐步得到缓解。未来的LLM将更加可靠、透明和可控,能够在保持强大能力的同时,显著降低幻觉风险。

    52310编辑于 2025-11-12
  • 来自专栏NewBeeNLP

    LLM幻觉到底是什么,有什么办法解决?

    一、幻觉简介 LLM 时常会出现一些神奇的现象—— 幻觉 Hallucination ,在 AI 领域,幻觉是指模型生成的信息可能 不真实 或 不准确 ,这是一个常见的问题,而 Truthfulness 下面展示了 LLM 常见的几个衡量指标,今天我们主要来关注一下可靠性中的 幻觉 : 可靠性 Misinformation 错误信息 Hallucination 幻觉 Inconsistency 矛盾 Miscalibration ,在这时,检索模型比语言模型效果好 模型之间亦有差别 :对于 LLM 是否可以通过提示中提供的信息更新他们记忆的事实,有些模型可以,而有些不行 Hallucination 幻觉 定义 :LLM 可以信心满满地生成毫无意义或不忠实于所提供的源内容的内容 ,这在 LLM 中被称为幻觉。 当 LLM 的置信度被错误校准时,幻觉也可能发生,这通常是由于缺乏人类监督、对齐示例覆盖率低以及监督数据本身固有的模糊性造成的 训练机制 :此外,幻觉可能是由潜在的训练机制引起的,包括但不限于对下一个标记进行采样时引入的随机性

    2.5K10编辑于 2024-02-28
  • 来自专栏AIGC大模型应用

    AI大模型企业应用实战-“消灭”LLM幻觉的利器 - RAG介绍

    实战干货:编程严选网 1 LLM的问题 1.1 幻觉 LLM是预训练模型,已有一些知识储备,我们提的问题跟他的知识储备不相符时,就会产生幻觉,也就是看上去正确的回答。 1.3 数据安全 LLM训练依赖很多训练数据集,为保证LLM效果更好,训练集质量及数据量越多,对LLM训练最终效果更好,但又期望LLM帮解决一些垂类问题,又希望在数据安全有些防范,如企业内部敏感数据不能暴露 ,让公有LLM去进行训练。 先在我们的相同数据库中进行相似性检索,检索与提问相关的知识内容,检索后交给LLM,连同用户的提问一起让 LLM 去生成回复。 这允许它们生成更准确和有上下文的答案,同时减少幻觉 检索:外部相似搜索 增强:提示词更新 生成:更详细的提示词输入LLM 3 RAG应用咋构建?

    62210编辑于 2025-05-26
  • 来自专栏新智元

    DeepMind新研究一眼看穿LLM幻觉

    研究还将新推导出的幻觉检测算法应用于Gemini,结果表明,与基线方法相比,该方法能有效检测幻觉。 大语言模型产生幻觉、胡说八道的问题被诟病,已经不是一天两天了。 就连号称模型更安全、幻觉更少的Claude系列,在Reddit上也能看到不少吐槽。 LLM输出虚假信息的问题,似乎并不能在短时间内彻底解决。 互信息的估计值可用作得分,表示LLM对给定查询产生幻觉的信念强度。 实验中共使用了3种基线方法作为对比:T0表示贪婪方法选择的LLM回答,S.E.表示使用2023年提出的「语义熵」方法(semantic-entropy)选择的前10个回答,S.V.表示2022年提出的「 结果表明,与基线方法相比,该方法能有效检测幻觉(认识不确定性较高的输出),尤其是在处理包含单标签和多标签查询的数据集时。

    47010编辑于 2024-06-17
  • 来自专栏JavaEdge

    AI大模型企业应用实战(18)-“消灭”LLM幻觉的利器 - RAG介绍

    目前 1 LLM的问题 1.1 幻觉 LLM因为是一个预训练模型,它已有一些知识储备,我们提的问题跟他的知识储备不相符时,会产生一些幻觉问题,看上去正确的回答 1.2 新鲜度 LLM预训练出来之后,不能感知到我们实时更新的工业数据 首先在我们的相同数据库中去进行相似性检索,检索出与这个提问相关的知识内容,然后检索后交给LLM,连同用户的提问一起让 LLM 去生成回复。 这允许它们生成更准确和有上下文的答案,同时减少幻觉 检索:外部相似搜索 增强:提示词更新 生成:更详细的提示词输入LLM 2 rag应用咋构建的? 然后我们通过prompt 技术组装成一个最终完成的一个输入给到LLM。然后让LLM生成回复。 最关键一点就是知识库生成这一步,因为主要涉及把我们的知识文档去做内容的提取及拆分。 在最终我们去跟LLM交流时,选择效果更好的LLM,然后把这个效果给提升到更高。但实际上60%的一个准确率还是达不到我们生产环境落地的一个期望值。

    36010编辑于 2025-06-01
  • 【RAG+LLM实战指南】如何用检索增强生成破解AI幻觉难题?

    #【RAG+LLM实战指南】如何用检索增强生成破解AI幻觉难题?摘要:本文深入探讨如何通过检索增强生成(RAG)技术解决大语言模型(LLM)的幻觉问题。 痛点根源:传统LLM像"闭卷考试的学生",仅依赖训练时记忆的知识。当遇到训练数据未覆盖的问题时,模型会基于语义关联虚构答案,这种现象称为"幻觉"(Hallucination)。 幻觉类型表现形式危险等级事实性幻觉捏造不存在的事实⚠️⚠️⚠️指令幻觉忽略用户明确要求⚠️⚠️上下文幻觉脱离对话历史背景⚠️2.2RAG技术核心原理检索增强生成(Retrieval-AugmentedGeneration )通过三重机制破解幻觉:展开代码语言:TXTAI代码解释graphLRA[用户提问]-->B[向量数据库实时检索]B-->C[相关文档片段]C-->D[LLM生成带引用的回答]D-->E[答案溯源验证] >最后忠告:RAG不是消除幻觉的银弹,而是人类智慧与AI协作的桥梁。最危险的幻觉,是认为AI可以替代专业判断。

    32610编辑于 2026-01-08
  • 大模型也有幻觉?手把手教你构建针对LLM输出的功能验证体系

    目录 验证目标:从技术指标到业务事实 验证方法:从确定性到概率性 验证体系:从抽检到全量校验 落地路径:如何搭建你的LLM验证框架 一、从技术指标到业务事实 传统指标的盲区 很多团队在验证大模型时,习惯性地沿用传统 更隐蔽的问题是部分正确的幻觉。某医疗问答系统生成的回复:“布洛芬用于退烧,建议成人每次400-600mg,每日不超过2400mg,儿童用量为每次10-15mg/kg。” 某智能写作平台的实践很有代表性: 同一prompt重复采样:对每个测试用例,他们会让模型生成10次输出,然后分析: 10次输出的事实一致性如何?(都提到了同样的关键信息,还是出现了相互矛盾的陈述?) 四、如何搭建你的LLM验证框架 认识到大模型验证的特殊性后,如何从现状出发逐步建立起可信的体系?这不是一蹴而就的革命,而是基于业务优先级的渐进式构建: 1. 那些最早建立起LLM验证体系的团队,已经不再把幻觉看作“模型的缺陷”,而是将其视为需要系统化管控的固有风险。 大模型有幻觉不可怕,可怕的是我们天真地以为它和传统软件一样可预测、可控制。

    17710编辑于 2026-04-21
  • 来自专栏新智元

    LLM幻觉,竟因知识「以大欺小」!华人团队祭出对数线性定律与CoDA策略

    编辑:KingHZ 【新智元导读】来自UIUC等大学的华人团队,从LLM的基础机制出发,揭示、预测并减少幻觉!通过实验,研究人员揭示了LLM的知识如何相互影响,总结了幻觉的对数线性定律。 大语言模型(LLMs)已经彻底改变了AI,但「幻觉」问题如影随从,堪称LLM癌症。 LLM会一本正经、义正辞严的捏造事实,「脸不红,心不跳」地说谎。 「幻觉」被普遍认为与训练数据相关。 但在掌握真实训练数据的情况下,为什么LLM还会幻觉?能否提前预测LLM幻觉的发生? 一作张雨季宣布新发现,介绍了LLM幻觉的对数线性定律(Log-Linear Law),分享了最新研究成果: 此研究深入研究了LLM幻觉,有4大亮点: 1 发现幻觉的对数线性规律:幻觉率随着相对知识流行度 新研究不仅加深了对幻觉背后基础机制的理解,也为开发更加可预测和可控的语言模型提供了可行的见解。 什么是「LLM幻觉LLM的「幻觉」指的是模型生成不真实或非事实陈述的现象。

    41510编辑于 2025-04-09
  • 来自专栏自然语言处理(NLP)论文速递

    分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!

    今天继续给大家分享10篇最新论文,其中涉及大模型幻觉、大模型对齐、大模型剪枝、大模型隐私、大模型毒性、大模型评估、RAG能力增强、Transformer架构优化等热门研究方向。 在六项任务的评估结果中表明,SELF-RAG 优于经过预训练和指令调整的 LLM,包括那些具有更多参数的 LLMLLM评估 https://arxiv.org/pdf/2310.14424.pdf 本文解决了通过人工标注有效评估大型语言模型 (LLM) 的问题。 降低LLM幻觉 https://arxiv.org/pdf/2310.01405.pdf 本文讨论了「表示工程 (RepE),这是一种通过关注深度神经网络 (DNN) 中的高级认知现象来增强人工智能透明度的创新方法 RepE 的应用之一是增强大型语言模型 (LLM) 中的诚实性,减少大模型幻觉

    1.1K10编辑于 2024-01-31
  • 来自专栏新智元

    老黄再曝惊人语录:LLM幻觉有解,AGI五年内必来!

    在最近举办的GTC 2024上,老黄发表了自己对于AGI以及幻觉问题的看法。 各大科技公司,现在都在疯狂冲刺AGI! 毫无疑问,这是一个赢家通吃的局。 而在昨天举办的英伟达GTC大会上,老黄也对AGI发表了自己的看法:AI幻觉可解,AGI五年内必来! AI幻觉可解 对于AI,人们另一个最关注的话题就是幻觉。 如果说探讨AGI表达了人们对强大AI的担忧,那么幻觉问题则表现了人们对AI能力的质疑。 在周二的问答环节中,有人向老黄提出了这个棘手的问题:如何应对AI幻觉? 老黄表示:so easy! Pure Storage 的抗幻觉技术 为了让RAG过程更简单快捷,Pure Storage与英伟达联手推出了一种全新的检索增强生成(RAG)流程。

    25310编辑于 2024-03-25
  • RAG如何打破LLM幻觉,为企业知识库注入“可靠记忆”?

    RAG如何打破LLM幻觉,为企业知识库注入“可靠记忆”? 摘要:本文深度解析检索增强生成(RAG)技术在企业知识库中的五大核心应用场景,通过对比实验、架构图解和代码实战,展示RAG如何有效消除LLM幻觉问题。 一、真实痛点:当企业客服系统遭遇LLM幻觉灾难上周,某电商平台的智能客服系统因错误回复商品参数导致大规模客诉。 经排查,其部署的70B大模型在回答“某型号手机是否支持无线充电”时,竟凭空编造技术参数(幻觉率高达37%)。这个真实案例暴露了企业知识库面临的严峻挑战:纯LLM方案无法保证专业知识的准确性。 如何设计量化指标持续监测幻觉率变化?

    46710编辑于 2026-01-13
领券