(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。 实验效果 实验选取了几个典型的MLLM作为基线,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4 论文中首先测试了Woodpecker在面对目标幻觉时的修正能力,在POPE验证集的实验结果如下表所示 在随机设定下,Woodpecker给MiniGPT-4和mPLUG-Owl和在准确率指标上分别带来了30.66%和24.33%的提升。 不同于以往将图片转译后送入纯文本GPT-4的做法,文章利用OpenAI最近开放的视觉接口,提出使用GPT-4(Vision)对修正前后的图片描述直接对下列两个维度进行打分: 准确度:模型的答复相对于图片内容是否准确 GPT-4V辅助的评测样例如下图所示: 感兴趣的读者,可以读论文进一步了解更多内容。
推理能力的提升,在一定程度伴随着视觉对齐的弱化,呈现出「越推理越幻觉」的倾向。 该工具不仅提升了模型幻觉风险的可测性,也为未来多模态系统的稳健性评估与改进提供了重要参考。 这种结构性偏移使得模型即使面对明确依赖图像的问题,也往往「凭语言猜」,最终生成与图像严重脱节的幻觉答案。 推理链「长度悖论」:思考越多,幻觉越大? 模型推理链条的长短,真的越长越好吗? RH-AUC:推理与幻觉的动态权衡评估 面对多模态模型中推理增强与幻觉放大的两难局面,研究团队提出了一项全新评估指标:RH-AUC(Reasoning-Hallucination Area Under
01 — 上一篇《人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)》讲了大模型人工智能的幻觉类别,产生的缘由以及评测标准,这篇继续介绍目前对缓解及避免幻觉所做的研究和努力。 在LLM时代之前,人们通过手动清理训练数据来减少幻觉。Gardent等人和Wang都采用了人工修正的方法,有效地减少了幻觉。 现有的大语言模型LLMs已经考虑了这一方面,如InstructGPT、ChatGPT、GPT4(Ope-nAI,2023年b)和Llama2-Chat,在RLHF过程中都考虑到了这一方面。 例如,GPT4使用合成幻觉数据来训练奖励模型并执行RL(强化学习),从而将Truth-fulQA(幻觉基准测试)的准确率从约30%提高到60%。 然而,LVLMs存在多模态幻觉问题一样比较严重。 一些研究表明,LVLMs继承了LLMs的幻觉问题,例如物体幻觉。
我合上电脑,脑子里全是刚刚看完的那份内部调研报告——《业务分析中的定向幻觉能力:可行性研究与实施方案》。 说实话,这标题起得挺有意思。 在咱们数据圈,“幻觉(Hallucination)” 这个词,跟运维圈的“删库跑路”一样,属于绝对的禁忌。 要是谁在周一的经营分析会上说:“老板,我们的数据获取是有幻觉的。” 这种念头,在被验证之前,在逻辑上就是一种“幻觉”。 它没有数据支撑,它违背现有的常识。 但在商业战场上,这种“幻觉”往往就是下一个十亿级增长点的种子。 现在的企业 AI,太老实了,老实得让人心疼。 第一阶段,我们用 AI 是为了求真(去伪存真,消灭幻觉)。 第二阶段,我们用 AI 竟然是为了求假(借假修真,定向幻觉)。 这其实不矛盾。 没有精准的数据基座(LF2Data),幻觉就是胡言乱语。 如果想看那篇《业务分析中的定向幻觉能力:可行性研究与实施方案》,可以关注公众号,回复“幻觉方案”来获取网盘下载链接,也可以加我好友我发你,希望能给大家带来一些启发。
OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。 幻觉一直是大模型的致命缺陷。 过多重复的信息还会使大模型形成偏见,这也是幻觉的一种。但是幻觉并非无解命题。开发过程中对数据集慎重使用、严格过滤,构建高质量数据集,以及优化模型结构、训练方式都能在一定程度上缓解幻觉问题。 由于 GPT-4 一贯的优秀表现,它的幻觉率最低似乎是意料之中的。但是有网友表示,GPT-3.5 与 GPT-4 并没有非常大的差距是令他较为惊讶的。 LLaMA 2 紧追 GPT-4 与 GPT-3.5 之后,有着较好的表现。但谷歌大模型的表现实在不尽人意。有网友表示,谷歌 BARD 常用「我还在训练中」来搪塞它的错误答案。 前几天,OpenAI 推出了 GPT-4 Turbo,这不,立刻有网友提议将其也更新在排行榜中。 下次的排行榜会是怎样的,有没有大幅变动,我们拭目以待。
这些都是“幻觉”,但它们却是文明诞生和发展的原动力。主持人: 听您这么一说,感觉幻觉还挺重要的。那咱们回到DeepSeek-R1,它的幻觉问题真的很严重。立委: 是很严重。 另外,用户更多的反馈还是鼓励和欣赏见到的创造力,一般人对于幻觉的觉察并不敏感,尤其是大模型丝滑顺畅,识别幻觉就更加困难。 赫拉利在《人类简史》中强调了幻觉对于文明的根本作用:语言的产生赋能了人类幻觉(“讲故事”)的能力。幻觉是文明的催化剂。人类是唯一的会“说谎”的实体 -- 除了LLM外。 记不住就用幻觉去补白,编造细节。幻觉绝不是没有束缚的任意编造,大模型是概率模型,束缚就是条件概率中的前文条件。 幻觉选择的虚假事实需要与补白所要求的value类型匹配,即符合ontology/taxonomy 的相应的上位节点概念。“张三”可以幻觉为“李四”,但不可以幻觉成“石头”。
一、AI幻觉的定义与风险 AI幻觉指人工智能系统生成看似合理但实际错误或虚构的内容,例如编造不存在的论文、人名或事件。这种现象在生成式AI中尤为常见,尤其在缺乏足够训练数据或上下文的情况下。 高风险领域如医疗、法律和新闻,一旦出现AI幻觉可能导致严重后果,例如误诊、法律文件错误或虚假新闻传播。 二、应对策略与案例分析 事实核查机制 部署自动化工具对AI生成内容进行实时验证。 检索增强生成(RAG) RAG通过将外部知识库与生成过程结合,减少幻觉。 "no_repeat_ngram_size": 2, "repetition_penalty": 1.5, "hallucination_threshold": 0.7 # 自定义幻觉检测阈值
然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。 大语言模型的长而详细的输出看起来很有说服力,但是这些输出很有可能是虚构的。 这个简单的想法允许引入一种新的基于样本的幻觉检测机制。如果LLM对同一提示的输出相互矛盾,它们很可能是幻觉。如果它们相互关联,就意味着信息是真实的。对于这种类型的求值,我们只需要llm的文本输出。 最初的输出有4个句子,分别是r1 r2 r3和r4。第一个样本有两个句子:c1和c2。计算原始输出中的每个句子与第一个样本中的每个句子匹配的F1 BERTScore。 有效输出的幻觉得分较低,而虚构输出的幻觉得分较高。但是计算BERTScore的过程非常耗时,这使得它不适合用于实时幻觉检测。 实时幻觉检测 我们可以构建一个实时幻觉检测的Streamlit应用。如前所述,最好的度量是LLM自相似性得分。我们将使用0.5的阈值来决定是显示生成的输出还是显示免责声明。
大多数评测基准主要集中在英语幻觉上,「而中文幻觉评测数据集较少」。 该方案使用了超过上万条候选续写文本,并通过GPT-4模型进行关键词粒度的标注,这些关键词的标注涉及幻觉的存在与否,以及存在幻觉的原因。 随后,由人工对GPT-4标注的准确性进行判断,并仅保留那些被人工认定为GPT-4标注准确且包含幻觉关键词的续写文本。 其中,3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文大语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM [3]Meta提出BSM,Llama-chat媲美GPT-4! [4]EMNLP2023 | 分享10篇值得阅读的paper
第一届 DevOpsDays结束后,DevOps 运动则如星火燎原之势在全球发展开来。随着 DevOps 思想的不断传播,相对的质疑和批评也从未停止过。以至于到今天对于 DevOps 的定义还是众说纷纭,争论不休。 当人们还在争论 DevOps的时候,一批基于敏捷的工程实践和自动化工具带着 DevOps 的标签走入了人们的视野。人们开始认为 DevOps 就是使用这些工具进行自动化。
幻觉 由ChatGPT带来的大模型时代,国内外各大厂家都在陆续推出自己的大模型,然而目前大模型都存在一个普遍的现象就是:幻觉。 大白话就是大模型无法理解你的用词约束,结果出来一个稀里糊涂的东西。 我们在医学、金融、科研等领域对一些数据要求精准度非常的高,如果给个幻觉的错误数据,那么后面问题就太大了。 事实幻觉 事实不一致,当问AI:如何解决大模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 附: 解决大模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。 通过微调,可以减少大模型对特定领域的泛化能力不足的问题,从而减少幻觉的产生。 引入注意力机制:注意力机制能够使模型更加关注重要的信息,减少对无关信息的关注,从而减少幻觉的产生。
大模型幻觉,听起来就像是从未来科技中走出的术语,其实它是人工智能领域中一个非常有趣的现象。 这就有点像所谓的“大模型幻觉”。 更具体地说,当我们提到大模型(如GPT系列),其实是指一种基于大量数据训练出来的人工智能模型,这些模型能够处理语言、图像等多种类型的任务。 但是,就像那个善于编故事的朋友一样,大模型有时也会“幻觉”,即它们可能会生成一些听起来很合理,但实际上完全是虚构的信息。 为什么会产生大模型幻觉? 数据的局限性:虽然大模型的训练数据非常庞大,但并不全面,可能会缺乏某些领域或主题的信息。 应对大模型幻觉的方法 增加模型的透明度:通过理解模型的工作原理和限制,用户可以更加警惕可能出现的幻觉。 持续改进和训练模型:通过不断地训练和改进,增加模型处理信息的准确性和可靠性。
编辑:Henry 【新智元导读】Alembic首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。 原来大模型的「幻觉」,真的可以完全消除! 也就是说,饱受诟病的LLM幻觉,被彻底攻破了。 他接着表示,我们基本上让生成式AI免于产生幻觉。它可以确定性输出,也可以谈论因果关系。 解决幻觉问题 「幻觉」一直是企业采用聊天机器人和虚拟助理等人工智能系统的主要障碍。 此前的AI模型即使可以生成看似逼真的文本,还是经常会产生错误或无意义的信息,也就是所谓的「幻觉」,导致在关键业务应用中的部署存在风险。 随着人工智能竞争的白热化,Alembic的「无幻觉」方法可能会成为一个关键卖点,也可能成为研究突破与实际影响之间差距的警示故事。
让小吾来给你说说这些"幻觉"是从哪儿来的:(1)数据不够全:AI只能学它见过的东西。要是训练数据有错,它就学错了。而且数据可能带有偏见,或者信息不完整。(2)靠猜测回答:AI其实是在玩文字接龙游戏。 (4)理解能力有限:AI经常会会错意,特别是在面对复杂或模糊的问题时,容易产生误解。那我们该怎么办呢?其实可以从这几点着手解决。
其实目前来看,AI 在很多时候确实存在幻觉现象,尤其是在处理严谨性较强的问题时,例如数学题、编程问题等,经常会给出错误答案,甚至出现胡编乱造的情况。那为什么当前的大模型会出现幻觉呢? 目前主流模型如 GPT、Claude、Gemini 等,虽然持续强化其检索增强能力(RAG)与事实校验机制,但幻觉现象依然难以完全杜绝。 因此,我们要想识别 AI 所生成的幻觉信息,最根本的方法仍然是主动进行多重验证。 尤其当幻觉信息被用户误信后扩散传播,甚至被恶意剪辑包装为“真相”,就可能引发信息污染、社会恐慌,乃至影响政策判断与公众认知。那我们如何辨别是否为虚假信息呢? 借助工具辅助判断: GPT 类模型可帮助分析语义逻辑,但其自身也可能产生幻觉; ImageForensics、Deepware Scanner 可判断图像/视频是否由 AI 生成; Bing、Gemini
在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。 这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。 为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。 这能充分利用幻觉来提取图片中与任务相关的信息,验证后生成更准确的提示。这样,更好的提示又能改善掩码的质量,形成一个互相促进的提升过程。 ., 伪装动物检测,医学图像检测) 上进行了实验: 图 4. 伪装样本检测实验结果 图 5. 医学图像实验结果 图 6.
在步骤7和8中,GPT-4开始执行猜测和检查。 这是该模型可能产生「幻觉」的常见地方,它会声称某个特定的猜测是成功的。在这种情况下,奖励模型验证每一步,并确定思维链是正确的。 假正(FP) 在步骤4中,GPT-4错误地声称「序列每12项重复一次」,但实际上每10项重复一次。这种计数错误偶尔会欺骗奖励模型。 步骤13中,GPT-4试图通过合并类似的项来简化方程。 在生成式人工智能的热潮中,大语言模型的幻觉一直让人们苦恼不已。 OpenAI的研究者在报告中提到:“在需要多步骤推理的领域,这些幻觉尤其成问题,因为,一个简单的逻辑错误,就足以对整个解决方案造成极大的破坏。” 而且,减轻幻觉,也是构建一致AGI的关键。 这样,即使在最强大的模型中也很难避免的幻觉或逻辑错误,就可以减少了。
本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题,结果如表 1 所示,与 GPT-4 生成的摘要相比,人工书写的摘要表现出相同或更高数量的幻觉。 人工撰写的摘要和 GPT-4 生成摘要中出现幻觉的比例,如表 2 所示: 本文还发现人工编写的参考摘要存在这样一个问题,即缺乏流畅性。 并且在图 2 (b) 中,一些由人工编写的参考摘要会出现幻觉。 本文还发现微调模型生成的摘要往往具有固定且严格的长度,而 LLM 能够根据输入信息调整输出长度。 此外,当输入包含多个主题时,微调模型生成的摘要对主题的覆盖率较低,如图 3 所示,而 LLM 在生成摘要时能够捕获所有主题: 由图 4 可得,人类对大模型的偏好分数超过 50%,表明人们对其摘要有强烈的偏好
质量內建于开发流程中(building quality into the development process) DevOps文化的转变带来的一个效果是让新代码进入生产环境更加容易。这使一些未来的 DevOps 文化转变非常必要。为了确保生产环境的变更稳妥。团队需要重视“将质量构建在开发过程中”,这包括很多跨功能的考虑例如性能和安全,持续交付和自我测试的代码会形成一个允许频繁且低风险部署的基础。
MHALO和VHR探索了LVLMs中的细粒度幻觉检测,采用了诸如视觉感知头强化和基准开发(例如HALODET-4B)等方法。 - 评估和优化MLLMs(如GPT-4o, Qwen-VL)的视觉忠实度。- 研究图像描述、视觉问答等任务中的物体、属性或关系幻觉。- 开发针对多模态输入的细粒度幻觉检测模型。 例如,在MHALO基准上,即便是最先进的GPT-4o,其平均F1_IoU也仅为40.59%,这表明在token级别上精确定位多模态幻觉的能力仍然非常有限。 4O)从根本上提升模型的视觉-语言对齐能力和忠实度。 4. 挑战与未来方向 4.1 挑战 4.1.1 监督式幻觉检测器的泛化挑战 监督式幻觉检测器在不同领域之间的泛化性能较差,是当前大语言模型(LLMs)幻觉检测中的一个重大挑战。