首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏自然语言处理

    大型语言模型幻觉检测相关综述

    幻觉检测的基本技术 幻觉检测领域利用了一系列基本技术,每种技术都在模型内省和错误识别中贡献了独特的能力。 2.1.3 有监督检测 本小节探讨将幻觉检测问题形式化为一个有监督分类任务的方法。这类方法通过在标注了“幻觉”与“非幻觉”标签的数据集上进行微调,训练出一个专门的检测模型。 多模态幻觉检测数据集 对象幻觉检测 POPE / CHAIR 通过问答或评估指标来检测图像描述中是否存在不存在的对象。 挑战与未来方向 4.1 挑战 4.1.1 监督式幻觉检测器的泛化挑战 监督式幻觉检测器在不同领域之间的泛化性能较差,是当前大语言模型(LLMs)幻觉检测中的一个重大挑战。 4.2.5 提高幻觉检测模型的可解释性与可解释性 幻觉检测的一个关键未来方向是增强检测模型的可解释性和可解释性,为用户提供清晰的洞察,说明为何某些响应部分被标记为幻觉

    1.5K20编辑于 2025-07-12
  • 来自专栏深度学习自然语言处理

    每日论文速递 | InterrogateLLM: 大模型幻觉检测框架

    幻觉检测数据集:Liu等人(2022)提出了一个用于自由形式文本生成的幻觉检测基准,该数据集包含文本段落和扰动,目标是确定整个段落是否表现出幻觉。 这些研究为理解幻觉现象、开发检测方法以及提高LLMs的可靠性提供了基础。论文中提到的InterrogateLLM方法在这些研究的基础上,提出了一种新的检测幻觉的方法,并通过实验验证了其有效性。 温度值的影响:研究了在反向过程中使用不同温度值对检测准确性的影响。通过调整温度,可以增加重构查询的多样性,从而可能提高检测幻觉的能力。 实时检测:将InterrogateLLM集成到实时应用中,例如聊天机器人或虚拟助手,以实时检测和减少幻觉的发生。 长期影响评估:研究长期使用InterrogateLLM对模型性能的影响,包括幻觉检测的长期效果和模型对幻觉的适应性。

    1.5K10编辑于 2024-03-25
  • 新工具RefChecker助力精准检测大语言模型幻觉

    新工具与数据集助力检测大语言模型中的幻觉尽管大型语言模型能力非凡,但其存在一个致命弱点:倾向于产生“幻觉”,即听起来合理但事实不准确的断言。 为了帮助检测此类细微的幻觉,某机构发布了 RefChecker(“Ref”代表“参考”),这是一个结合了新的幻觉检测框架和用于评估不同上下文下幻觉的基准数据集的工具。 以往的幻觉检测框架使用句子或短短语来表征大语言模型生成文本中的事实断言,而 RefChecker 则使用具有 <主体, 谓词, 客体> 结构的知识三元组(与知识图谱中表示数据所用的结构相同)。 幻觉检测幻觉检测的目标是根据一组参考资料检查大语言模型生成回复的事实性。此问题涉及三个主要问题:如何以及在何处找到参考资料?我们将在何种细节级别上检查回复?如何对回复中的主张进行分类?1. RefChecker 流程RefChecker 由两个可配置模块组成:主张三元组提取器 E 和幻觉检查器 C。您还可以配置结果的汇总方式,以在三元组级别的检测和回复级别的幻觉报告之间进行转换。

    16510编辑于 2026-02-01
  • 来自专栏iOSDevLog

    图像检测-如何通过扫描图像来制造幻觉

    其中之一就是图像检测。这是一个非常酷的功能,允许您在用户的环境中跟踪2D图像,并在其上放置增强现实内容。 在本课程中,您将学习如何通过检测您喜欢的任何图像以及如何在呈现模型时更改模型的材质,将您自己的3D模型放置在任何对象之上。 下载图像检测 要学习本教程,您需要Xcode 10并确保下载assets文件夹。您可以下载Final Xcode项目,以帮助您与自己的进度进行比较。 ARImageAnchor 如果检测到图像,它将自动为每个检测到的图像添加一个ARImageAnchor锚点列表。 您刚学会了如何通过检测图像将3D模型放置在您的环境中。在本课程的其余部分,我将教你如何制作动画,以及与按钮的互动。最重要的是,您将玩光照和阴影。

    3.3K20发布于 2019-06-17
  • 思维链推理自动化检测大模型幻觉

    自动化幻觉检测与思维链推理当大型语言模型(LLM)被提示诸如"圣约翰草可能与哪些药物发生相互作用?" 这类LLM幻觉——听起来合理但可验证为错误的断言或主张——仍然阻碍着LLM的商业化应用。虽然在医疗保健等领域有减少幻觉的方法,但识别和测量幻觉的需求仍然是生成式AI安全使用的关键。 在最近一次自然语言处理实证方法会议(EMNLP)上发表的论文中,描述了一种名为HalluMeasure的幻觉测量方法,该方法采用了三种技术的新颖组合:声明级评估、思维链推理和幻觉的语言错误类型分类。 选择在声明级别进行评估是因为单个声明的分类提高了幻觉检测准确性,并且声明的更高原子性允许更精确的测量和幻觉定位。与现有方法不同,该方法直接从完整响应文本中提取声明列表。 因此,通过探索无参考检测、采用针对特定用例定制的动态少样本提示技术以及整合代理AI框架,继续在负责任AI领域推动创新。

    21010编辑于 2025-09-05
  • 无需LLM评判,用几何方法检测AI幻觉

    无需LLM评判:一种检测AI幻觉的几何方法想象一群正在飞行的鸟。没有领队,没有中央指令。每只鸟都与邻近的鸟对齐——调整方向、匹配速度,通过纯粹的局部协调保持队形。 检测此类幻觉的标准方法是让另一个语言模型来检查输出,即“LLM作为评判者”。你马上就能看出问题所在:我们用一个本身就会产生幻觉的系统去检测幻觉。这就像让一个无法分辨颜色的人去给颜料样本分类。 我们提出的问题则不同:能否仅从文本本身的几何结构中检测幻觉,而不需要另一个语言模型的意见?嵌入向量实际做了什么在深入检测方法之前,我们先回顾一下我们正在处理的对象。 基于事实的回答紧密聚集在高DC值周围(约0.9),而产生幻觉的回答则分布在较低值区域(约0.3)。这两个分布几乎不重叠。DC在狭窄领域内实现了完美检测。 但如果你尝试使用一个领域的参考集去检测另一个领域的幻觉,性能会降至随机水平——AUROC约为0.50。这揭示了嵌入向量编码“事实基础”方式的一个根本特性。

    16110编辑于 2026-01-23
  • 大语言模型幻觉检测新工具与数据集

    新工具与数据集助力大语言模型幻觉检测大语言模型(LLMs)虽能力卓越,却存在“幻觉”问题——生成看似合理但事实错误的断言。某些幻觉极为细微,例如日期误差仅一两年。 为检测此类细微幻觉,某机构推出RefChecker,包含新型幻觉检测框架和基准数据集。 与以往基于句子或短语的检测方法不同,RefChecker采用知识三元组(<主体, 谓词, 客体>结构,类似知识图谱)表征事实,可对LLM输出进行更精细的评估。 检测方法创新参考来源:支持三种任务设置(开放问答、检索增强生成、摘要生成),数据源自NaturalQuestions、MS MARCO等公开集。 使用方式该研究认为,精准识别细粒度幻觉是制定缓解策略的第一步。反馈可通过GitHub提交,欢迎贡献改进。 致谢:Lin Qiu, Zheng Zhang

    43010编辑于 2025-08-06
  • 来自专栏我爱计算机视觉

    幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

    (属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。 Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。 例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。 对于MLLM难以检测到的小对象,Woodpecker也可以精准修正: 面对MLLM难以解决的复杂的计数场景,Woodpecker同样可以进行解决: 对于目标属性类的幻觉问题,Woopecker处理地也很好 例如,我们可以利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。 这些视觉断言可以看做与原有MLLM的回答以及输入图片相关的视觉知识库; 幻觉修正: 基于前面得到的,使用大语言模型对MLLM的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

    91240编辑于 2023-11-01
  • 来自专栏新智元

    推理越多,幻觉越重?多模态推理模型的「幻觉悖论」

    推理能力的提升,在一定程度伴随着视觉对齐的弱化,呈现出「越推理越幻觉」的倾向。 该工具不仅提升了模型幻觉风险的可测性,也为未来多模态系统的稳健性评估与改进提供了重要参考。 这种结构性偏移使得模型即使面对明确依赖图像的问题,也往往「凭语言猜」,最终生成与图像严重脱节的幻觉答案。 推理链「长度悖论」:思考越多,幻觉越大? 模型推理链条的长短,真的越长越好吗? RH-AUC:推理与幻觉的动态权衡评估 面对多模态模型中推理增强与幻觉放大的两难局面,研究团队提出了一项全新评估指标:RH-AUC(Reasoning-Hallucination Area Under

    34010编辑于 2025-06-26
  • 来自专栏deepseek

    从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

    这些都是“幻觉”,但它们却是文明诞生和发展的原动力。主持人: 听您这么一说,感觉幻觉还挺重要的。那咱们回到DeepSeek-R1,它的幻觉问题真的很严重。立委: 是很严重。 另外,用户更多的反馈还是鼓励和欣赏见到的创造力,一般人对于幻觉的觉察并不敏感,尤其是大模型丝滑顺畅,识别幻觉就更加困难。 赫拉利在《人类简史》中强调了幻觉对于文明的根本作用:语言的产生赋能了人类幻觉(“讲故事”)的能力。幻觉是文明的催化剂。人类是唯一的会“说谎”的实体 -- 除了LLM外。 记不住就用幻觉去补白,编造细节。幻觉绝不是没有束缚的任意编造,大模型是概率模型,束缚就是条件概率中的前文条件。 幻觉选择的虚假事实需要与补白所要求的value类型匹配,即符合ontology/taxonomy 的相应的上位节点概念。“张三”可以幻觉为“李四”,但不可以幻觉成“石头”。

    52810编辑于 2025-02-10
  • 来自专栏技术人生黄勇

    大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)

    01 — 上一篇《人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)》讲了大模型人工智能的幻觉类别,产生的缘由以及评测标准,这篇继续介绍目前对缓解及避免幻觉所做的研究和努力。 此外,还可以使用过程监督来检测和减少推理任务中的幻觉,并为每个中间推理步骤提供反馈。 上一节提到:在SFT阶段,行为克隆现象可能导致幻觉。 其中,FacTool针对特定的下游任务,利用不同的工具帮助检测LLM中的幻觉,如用于基于知识的质量保证的搜索引擎API、用于代码生成的代码执行器和用于科学文献审查的谷歌学术API。 三、检查LLM内部状态 Analyzing LLMs' internal states 有研究认为,LLMs可能意识到自己的虚假性,这表明其内部状态可以用于检测幻觉。 然而,LVLMs存在多模态幻觉问题一样比较严重。 一些研究表明,LVLMs继承了LLMs的幻觉问题,例如物体幻觉

    2K10编辑于 2024-07-19
  • 【 人工智能AI幻觉

    一、AI幻觉的定义与风险 AI幻觉指人工智能系统生成看似合理但实际错误或虚构的内容,例如编造不存在的论文、人名或事件。这种现象在生成式AI中尤为常见,尤其在缺乏足够训练数据或上下文的情况下。 高风险领域如医疗、法律和新闻,一旦出现AI幻觉可能导致严重后果,例如误诊、法律文件错误或虚假新闻传播。 二、应对策略与案例分析 事实核查机制 部署自动化工具对AI生成内容进行实时验证。 检索增强生成(RAG) RAG通过将外部知识库与生成过程结合,减少幻觉。 "no_repeat_ngram_size": 2, "repetition_penalty": 1.5, "hallucination_threshold": 0.7 # 自定义幻觉检测阈值 需完整保存案例分析的推理路径(如:大前提→小前提→结论) 法律条文引用要精确到条款项,并标注时效性 应区分事实陈述和法律意见 风险控制: 跨境业务需遵守当地司法管辖区规定 合同生成系统必须内置条款冲突检测

    25810编辑于 2026-01-20
  • 来自专栏小七的各种胡思乱想

    解密Prompt系列23.大模型幻觉分类&归因&检测&缓解方案脑图全梳理

    上一章我们主要聊聊RAG场景下的幻觉检测和解决方案,这一章我们单独针对大模型的幻觉问题,从幻觉类型,幻觉来源,幻觉检测幻觉缓解这四个方向进行整理。 这里就不细说任意一种方法了,因为说不完根本说不完,索性用脑图概览式地看下整个大模型幻觉领域。

    2.2K42编辑于 2024-01-11
  • 来自专栏DeepHub IMBA

    如何避免LLM的“幻觉”(Hallucination)

    然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。 大语言模型的长而详细的输出看起来很有说服力,但是这些输出很有可能是虚构的。 这个简单的想法允许引入一种新的基于样本的幻觉检测机制。如果LLM对同一提示的输出相互矛盾,它们很可能是幻觉。如果它们相互关联,就意味着信息是真实的。对于这种类型的求值,我们只需要llm的文本输出。 有效输出的幻觉得分较低,而虚构输出的幻觉得分较高。但是计算BERTScore的过程非常耗时,这使得它不适合用于实时幻觉检测。 实时幻觉检测 我们可以构建一个实时幻觉检测的Streamlit应用。如前所述,最好的度量是LLM自相似性得分。我们将使用0.5的阈值来决定是显示生成的输出还是显示免责声明。 总结 聊天机器人的幻觉检测一直是人们讨论已久的质量问题。 我们只是概述的了目前的研究成果:通过生成对同一提示的多个响应并比较它们的一致性来完成。

    78611编辑于 2024-01-04
  • 来自专栏自然语言处理(NLP)论文速递

    大模型幻觉!人大 & IAAR & 新华社 | 提出幻觉评测基准UHGEval,全面支持中文!

    为了有效控制幻觉在语言生成中的问题,除了设计新的训练方法和模型架构之外,制定一个全面、统一的基准来评测幻觉现象显得至关重要。 大多数评测基准主要集中在英语幻觉上,「而中文幻觉评测数据集较少」。 因此,这两个方面共同构成了模型和提示的无约束候选幻觉生成的框架。 2.3 幻觉排名 对于生成的5个候选幻觉文本,UHGEval从「文本流畅性」和「幻觉发生可能性」两个维度进行排名。 具体来说,这种评测模式包括在仔细审查的LLM中呈现一个初始文本,然后是一个可能包括幻觉也可能不包括幻觉的延续,LLM的任务是对幻觉的存在做出判决。 具体来说,在选择性评测中,评测中的LLM有一个初始文本,后面是两个续写文本:一个包含幻觉,另一个不包含幻觉。LLM的目的是确定两者中哪一个产生了幻觉

    2K10编辑于 2023-12-04
  • 来自专栏新智元

    大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉

    编辑:Henry 【新智元导读】Alembic首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。 原来大模型的「幻觉」,真的可以完全消除! 也就是说,饱受诟病的LLM幻觉,被彻底攻破了。 他接着表示,我们基本上让生成式AI免于产生幻觉。它可以确定性输出,也可以谈论因果关系。 解决幻觉问题 「幻觉」一直是企业采用聊天机器人和虚拟助理等人工智能系统的主要障碍。 此前的AI模型即使可以生成看似逼真的文本,还是经常会产生错误或无意义的信息,也就是所谓的「幻觉」,导致在关键业务应用中的部署存在风险。 随着人工智能竞争的白热化,Alembic的「无幻觉」方法可能会成为一个关键卖点,也可能成为研究突破与实际影响之间差距的警示故事。

    31910编辑于 2024-06-17
  • 来自专栏小吾的AI辅助软件开发

    如何一键减少AI幻觉

    让小吾来给你说说这些"幻觉"是从哪儿来的:(1)数据不够全:AI只能学它见过的东西。要是训练数据有错,它就学错了。而且数据可能带有偏见,或者信息不完整。(2)靠猜测回答:AI其实是在玩文字接龙游戏。

    61031编辑于 2025-05-29
  • 来自专栏算法一只狗

    AI幻觉下,如何识别虚假信息

    其实目前来看,AI 在很多时候确实存在幻觉现象,尤其是在处理严谨性较强的问题时,例如数学题、编程问题等,经常会给出错误答案,甚至出现胡编乱造的情况。那为什么当前的大模型会出现幻觉呢? 目前主流模型如 GPT、Claude、Gemini 等,虽然持续强化其检索增强能力(RAG)与事实校验机制,但幻觉现象依然难以完全杜绝。 因此,我们要想识别 AI 所生成的幻觉信息,最根本的方法仍然是主动进行多重验证。 尤其当幻觉信息被用户误信后扩散传播,甚至被恶意剪辑包装为“真相”,就可能引发信息污染、社会恐慌,乃至影响政策判断与公众认知。那我们如何辨别是否为虚假信息呢? 借助工具辅助判断: GPT 类模型可帮助分析语义逻辑,但其自身也可能产生幻觉; ImageForensics、Deepware Scanner 可判断图像/视频是否由 AI 生成; Bing、Gemini

    80410编辑于 2025-04-02
  • 来自专栏机器之心

    幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

    在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。 不仅能够准确识别图像中的目标对象,还能判断这些对象的具体位置和形状,这在伪装动物检测或医学图像分割等复杂任务中表现尤为出色。 这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。 为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。 ., 伪装动物检测,医学图像检测) 上进行了实验: 图 4. 伪装样本检测实验结果 图 5. 医学图像实验结果 图 6.

    24400编辑于 2025-02-14
  • 来自专栏52test

    用工具堆砌的DevOps 幻觉(上)

    第一届 DevOpsDays结束后,DevOps 运动则如星火燎原之势在全球发展开来。随着 DevOps 思想的不断传播,相对的质疑和批评也从未停止过。以至于到今天对于 DevOps 的定义还是众说纷纭,争论不休。 当人们还在争论 DevOps的时候,一批基于敏捷的工程实践和自动化工具带着 DevOps 的标签走入了人们的视野。人们开始认为 DevOps 就是使用这些工具进行自动化。

    43310发布于 2021-07-09
领券