首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏技术人生黄勇

    大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)

    “ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。 01 — 上一篇《人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)》讲了大模型人工智能的幻觉类别,产生的缘由以及评测标准,这篇继续介绍目前对缓解及避免幻觉所做的研究和努力。 在LLM时代之前,人们通过手动清理训练数据来减少幻觉。Gardent等人和Wang都采用了人工修正的方法,有效地减少了幻觉。 然而,LVLMs存在多模态幻觉问题一样比较严重。 一些研究表明,LVLMs继承了LLMs的幻觉问题,例如物体幻觉。 同时,研究还表明,语言模型可以通过精心制作的提示来诱导幻觉,这可能会违反相关法律,导致应用程序被强制关闭。因此,诱导幻觉的攻击和防御策略也是一个重要的研究方向,与现有的幻觉缓解方法密切相关。

    1.9K10编辑于 2024-07-19
  • 来自专栏我爱计算机视觉

    幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

    (属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。 Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。 例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。 方法 Woodpecker的架构如下,它包括五个主要步骤: 关键概念提取、问题构造、视觉知识检验、视觉断言生成 以及幻觉修正。 关键概念提取: 关键概念指的是MLLM的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。 此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示: 从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现

    90240编辑于 2023-11-01
  • 来自专栏新智元

    推理越多,幻觉越重?多模态推理模型的「幻觉悖论」

    推理能力的提升,在一定程度伴随着视觉对齐的弱化,呈现出「越推理越幻觉」的倾向。 该工具不仅提升了模型幻觉风险的可测性,也为未来多模态系统的稳健性评估与改进提供了重要参考。 这种结构性偏移使得模型即使面对明确依赖图像的问题,也往往「凭语言猜」,最终生成与图像严重脱节的幻觉答案。 推理链「长度悖论」:思考越多,幻觉越大? 模型推理链条的长短,真的越长越好吗? RH-AUC:推理与幻觉的动态权衡评估 面对多模态模型中推理增强与幻觉放大的两难局面,研究团队提出了一项全新评估指标:RH-AUC(Reasoning-Hallucination Area Under

    32010编辑于 2025-06-26
  • 来自专栏DeepHub IMBA

    如何避免LLM的“幻觉”(Hallucination)

    然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。 大语言模型的长而详细的输出看起来很有说服力,但是这些输出很有可能是虚构的。 这个简单的想法允许引入一种新的基于样本的幻觉检测机制。如果LLM对同一提示的输出相互矛盾,它们很可能是幻觉。如果它们相互关联,就意味着信息是真实的。对于这种类型的求值,我们只需要llm的文本输出。 有效输出的幻觉得分较低,而虚构输出的幻觉得分较高。但是计算BERTScore的过程非常耗时,这使得它不适合用于实时幻觉检测。 实时幻觉检测 我们可以构建一个实时幻觉检测的Streamlit应用。如前所述,最好的度量是LLM自相似性得分。我们将使用0.5的阈值来决定是显示生成的输出还是显示免责声明。 总结 聊天机器人的幻觉检测一直是人们讨论已久的质量问题。 我们只是概述的了目前的研究成果:通过生成对同一提示的多个响应并比较它们的一致性来完成。

    75311编辑于 2024-01-04
  • 来自专栏deepseek

    从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

    这些都是“幻觉”,但它们却是文明诞生和发展的原动力。主持人: 听您这么一说,感觉幻觉还挺重要的。那咱们回到DeepSeek-R1,它的幻觉问题真的很严重。立委: 是很严重。 另外,用户更多的反馈还是鼓励和欣赏见到的创造力,一般人对于幻觉的觉察并不敏感,尤其是大模型丝滑顺畅,识别幻觉就更加困难。 赫拉利在《人类简史》中强调了幻觉对于文明的根本作用:语言的产生赋能了人类幻觉(“讲故事”)的能力。幻觉是文明的催化剂。人类是唯一的会“说谎”的实体 -- 除了LLM外。 记不住就用幻觉去补白,编造细节。幻觉绝不是没有束缚的任意编造,大模型是概率模型,束缚就是条件概率中的前文条件。 幻觉选择的虚假事实需要与补白所要求的value类型匹配,即符合ontology/taxonomy 的相应的上位节点概念。“张三”可以幻觉为“李四”,但不可以幻觉成“石头”。

    50610编辑于 2025-02-10
  • 【 人工智能AI幻觉

    一、AI幻觉的定义与风险 AI幻觉指人工智能系统生成看似合理但实际错误或虚构的内容,例如编造不存在的论文、人名或事件。这种现象在生成式AI中尤为常见,尤其在缺乏足够训练数据或上下文的情况下。 高风险领域如医疗、法律和新闻,一旦出现AI幻觉可能导致严重后果,例如误诊、法律文件错误或虚假新闻传播。 二、应对策略与案例分析 事实核查机制 部署自动化工具对AI生成内容进行实时验证。 检索增强生成(RAG) RAG通过将外部知识库与生成过程结合,减少幻觉。 "no_repeat_ngram_size": 2, "repetition_penalty": 1.5, "hallucination_threshold": 0.7 # 自定义幻觉检测阈值

    22410编辑于 2026-01-20
  • 来自专栏明明如月的技术专栏

    AI 通俗讲解大语言模型幻觉

    大模型幻觉,听起来就像是从未来科技中走出的术语,其实它是人工智能领域中一个非常有趣的现象。 这就有点像所谓的“大模型幻觉”。 更具体地说,当我们提到大模型(如GPT系列),其实是指一种基于大量数据训练出来的人工智能模型,这些模型能够处理语言、图像等多种类型的任务。 但是,就像那个善于编故事的朋友一样,大模型有时也会“幻觉”,即它们可能会生成一些听起来很合理,但实际上完全是虚构的信息。 为什么会产生大模型幻觉? 数据的局限性:虽然大模型的训练数据非常庞大,但并不全面,可能会缺乏某些领域或主题的信息。 应对大模型幻觉的方法 增加模型的透明度:通过理解模型的工作原理和限制,用户可以更加警惕可能出现的幻觉。 持续改进和训练模型:通过不断地训练和改进,增加模型处理信息的准确性和可靠性。

    49100编辑于 2024-05-24
  • 来自专栏52test

    用工具堆砌的DevOps 幻觉(上)

    第一届 DevOpsDays结束后,DevOps 运动则如星火燎原之势在全球发展开来。随着 DevOps 思想的不断传播,相对的质疑和批评也从未停止过。以至于到今天对于 DevOps 的定义还是众说纷纭,争论不休。 当人们还在争论 DevOps的时候,一批基于敏捷的工程实践和自动化工具带着 DevOps 的标签走入了人们的视野。人们开始认为 DevOps 就是使用这些工具进行自动化。

    42910发布于 2021-07-09
  • 来自专栏CSDNToQQCode

    大语言模型LLM中的幻觉

    幻觉 由ChatGPT带来的大模型时代,国内外各大厂家都在陆续推出自己的大模型,然而目前大模型都存在一个普遍的现象就是:幻觉。 大白话就是大模型无法理解你的用词约束,结果出来一个稀里糊涂的东西。 我们在医学、金融、科研等领域对一些数据要求精准度非常的高,如果给个幻觉的错误数据,那么后面问题就太大了。 事实幻觉 事实不一致,当问AI:如何解决大模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 附: 解决大模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。 通过微调,可以减少大模型对特定领域的泛化能力不足的问题,从而减少幻觉的产生。 引入注意力机制:注意力机制能够使模型更加关注重要的信息,减少对无关信息的关注,从而减少幻觉的产生。

    48210编辑于 2024-01-02
  • 来自专栏自然语言处理(NLP)论文速递

    大模型幻觉!人大 & IAAR & 新华社 | 提出幻觉评测基准UHGEval,全面支持中文!

    为了有效控制幻觉在语言生成中的问题,除了设计新的训练方法和模型架构之外,制定一个全面、统一的基准来评测幻觉现象显得至关重要。 大多数评测基准主要集中在英语幻觉上,「而中文幻觉评测数据集较少」。 因此,这两个方面共同构成了模型和提示的无约束候选幻觉生成的框架。 2.3 幻觉排名 对于生成的5个候选幻觉文本,UHGEval从「文本流畅性」和「幻觉发生可能性」两个维度进行排名。 具体来说,这种评测模式包括在仔细审查的LLM中呈现一个初始文本,然后是一个可能包括幻觉也可能不包括幻觉的延续,LLM的任务是对幻觉的存在做出判决。 具体来说,在选择性评测中,评测中的LLM有一个初始文本,后面是两个续写文本:一个包含幻觉,另一个不包含幻觉。LLM的目的是确定两者中哪一个产生了幻觉

    1.9K10编辑于 2023-12-04
  • 来自专栏新智元

    大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉

    编辑:Henry 【新智元导读】Alembic首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。 原来大模型的「幻觉」,真的可以完全消除! 也就是说,饱受诟病的LLM幻觉,被彻底攻破了。 他接着表示,我们基本上让生成式AI免于产生幻觉。它可以确定性输出,也可以谈论因果关系。 解决幻觉问题 「幻觉」一直是企业采用聊天机器人和虚拟助理等人工智能系统的主要障碍。 此前的AI模型即使可以生成看似逼真的文本,还是经常会产生错误或无意义的信息,也就是所谓的「幻觉」,导致在关键业务应用中的部署存在风险。 随着人工智能竞争的白热化,Alembic的「无幻觉」方法可能会成为一个关键卖点,也可能成为研究突破与实际影响之间差距的警示故事。

    31110编辑于 2024-06-17
  • 来自专栏小吾的AI辅助软件开发

    如何一键减少AI幻觉

    让小吾来给你说说这些"幻觉"是从哪儿来的:(1)数据不够全:AI只能学它见过的东西。要是训练数据有错,它就学错了。而且数据可能带有偏见,或者信息不完整。(2)靠猜测回答:AI其实是在玩文字接龙游戏。

    57531编辑于 2025-05-29
  • 来自专栏算法一只狗

    AI幻觉下,如何识别虚假信息

    其实目前来看,AI 在很多时候确实存在幻觉现象,尤其是在处理严谨性较强的问题时,例如数学题、编程问题等,经常会给出错误答案,甚至出现胡编乱造的情况。那为什么当前的大模型会出现幻觉呢? 目前主流模型如 GPT、Claude、Gemini 等,虽然持续强化其检索增强能力(RAG)与事实校验机制,但幻觉现象依然难以完全杜绝。 因此,我们要想识别 AI 所生成的幻觉信息,最根本的方法仍然是主动进行多重验证。 尤其当幻觉信息被用户误信后扩散传播,甚至被恶意剪辑包装为“真相”,就可能引发信息污染、社会恐慌,乃至影响政策判断与公众认知。那我们如何辨别是否为虚假信息呢? 借助工具辅助判断: GPT 类模型可帮助分析语义逻辑,但其自身也可能产生幻觉; ImageForensics、Deepware Scanner 可判断图像/视频是否由 AI 生成; Bing、Gemini

    73810编辑于 2025-04-02
  • 来自专栏机器之心

    幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

    在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。 这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。 前者推断出较为准确的样本特有提示来引导 SAM 进行分割,后者则将生成的掩码与任务语义进行对齐,对齐后的掩码又可以作为提示反向作用于第一个模块来验证利用幻觉得到的信息。 为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。 这能充分利用幻觉来提取图片中与任务相关的信息,验证后生成更准确的提示。这样,更好的提示又能改善掩码的质量,形成一个互相促进的提升过程。

    23900编辑于 2025-02-14
  • 来自专栏素质云笔记

    大模型幻觉(LLM Hallucination)若干记录

    主要参考:大模型的幻觉问题调研: LLM Hallucination Survey 1 幻觉定义 当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题 ; 基于NLI:基于NLI的方法通过NLI模型评估是否Source Information可以蕴含Generated Text,从而评估是否出现了幻觉现象。 基于Factualness Classification Metric:标注/构造一批和幻觉/事实有关的数据,训练检测模型,利用该模型评估新生成文本的幻觉/事实问题。 训练方式 可控文本生成:将幻觉的程度作为一个可控的属性,利用可控文本生成技术进行控制。 现有工作将减轻幻觉的指标作为强化学习的reward函数,从而减轻幻觉现象。 多任务学习: 通过设计合适的额外任务,可以达到减轻幻觉的效果。 后处理:设计一个小模型专门用于fix幻觉错误。

    1.3K40编辑于 2023-07-25
  • 来自专栏老张的求知思考世界

    警惕DeepSeek带来的AI信息幻觉

    这种情况,就是AI大模型在当前阶段面临的重大挑战:信息幻觉。 如何理解信息幻觉呢? 简单来说,同样的Prompt(提示词)会产生不同的答案,这就是所谓的信息幻觉问题。再换个更容易理解的说法,针对同一个或同一组Prompt,大模型的结果不具备幂等性。 而当前缓解(或者说解决)信息幻觉的技术方法只有RAG。 所谓的RAG(Retrieval-Augmented Generation),即检索增强生成。 将RAG解决信息幻觉的过程拆开,就是理解-检索-生成。 “理解”就是拆解用户提问,充分理解用户需求。 个体如何面对信息幻觉的挑战,我是这样思考的: 如果你完全相信AI给出的信息,那你很快就会陷入一种信息幻觉

    31310编辑于 2025-02-25
  • 来自专栏自然语言处理

    大型语言模型幻觉检测相关综述

    为此,研究者们开发了专门用于检测多模态幻觉的数据集,如评估对象存在性幻觉的POPE和CHAIR,以及提供更细粒度多模态幻觉评估的综合基准MHALO,标志着幻觉检测研究进入了跨模态融合的新阶段。 细粒度幻觉检测 MHALO 覆盖12种不同类型的幻觉,对多模态模型进行token级别的细粒度幻觉检测。 F1_IoU, F1_M 细粒度标注成本高昂,挑战在于定义清晰的幻觉分类体系并实现自动化评估。 这些数据集的设计趋势表明,研究者们正从单纯检测“有没有幻觉”,走向“有什么样的幻觉”、“幻觉发生在哪一步”以及“如何修正幻觉”的更深层次研究。 专业化幻觉基準 - 深入特定幻觉维度:针对传统数据集难以覆盖的特定问题,如意图幻觉(FAITHQA)、交互式幻觉(SHARP)和不确定性识别(ConfuseBench)。 同样,在摘要任务中,FHSumBench不仅检测幻觉,还进一步区分其是与源文档相符但与世界知识冲突的“事实性幻觉”,还是完全无依据的“非事实性幻觉”,这种细化有助于理解幻觉的不同成因。

    1.3K20编辑于 2025-07-12
  • 来自专栏52test

    用工具堆砌的DevOps 幻觉(下)

    质量內建于开发流程中(building quality into the development process) DevOps文化的转变带来的一个效果是让新代码进入生产环境更加容易。这使一些未来的 DevOps 文化转变非常必要。为了确保生产环境的变更稳妥。团队需要重视“将质量构建在开发过程中”,这包括很多跨功能的考虑例如性能和安全,持续交付和自我测试的代码会形成一个允许频繁且低风险部署的基础。

    36440发布于 2021-07-09
  • 来自专栏明明如月的技术专栏

    AI 讲解大语言模型幻觉原因

    大模型幻觉(AI hallucination)是指AI模型生成与事实不符或虚构的信息。这种现象的原因可以归结为以下几个方面: 训练数据的局限性:大模型依赖于大量的数据进行训练。 通过改进训练数据质量、引入事实验证机制、以及优化模型的生成策略,可以在一定程度上减少大模型幻觉的发生。

    81100编辑于 2024-05-25
  • 来自专栏深度学习自然语言处理

    每日论文速递 | InterrogateLLM: 大模型幻觉检测框架

    阻碍其广泛应用的一个关键因素是幻觉的出现,在幻觉中,大型语言模型编造出听起来逼真的答案,但却与事实真相相去甚远。 对话生成中的幻觉:Shuster等人(2021)研究了对话生成中的幻觉问题。 问答系统中的幻觉:Lin等人(2022)在问答系统中测量模型模仿人类错误的方式。 幻觉检测数据集:Liu等人(2022)提出了一个用于自由形式文本生成的幻觉检测基准,该数据集包含文本段落和扰动,目标是确定整个段落是否表现出幻觉。 用户交互式验证:开发用户交互式的方法,允许用户参与验证过程,以进一步提高幻觉检测的准确性。 幻觉原因分析:深入研究导致幻觉的根本原因,例如模型训练数据的偏差、模型架构的局限性或特定类型的查询。 幻觉缓解策略:开发和测试不同的幻觉缓解策略,例如通过调整训练过程、引入额外的监督信号或使用对抗性训练来减少幻觉的发生。

    1.5K10编辑于 2024-03-25
领券