首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏我爱计算机视觉

    幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

    (属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。 Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。 例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。 对于目标颜色等这类属性问题,我们可以利用BLIP-2来进行回答。 BLIP-2这类传统VQA模型输出答案的长度有限,幻觉问题也更少; 视觉断言生成: 基于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。 此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示: 从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现

    91640编辑于 2023-11-01
  • 来自专栏新智元

    推理越多,幻觉越重?多模态推理模型的「幻觉悖论」

    推理能力的提升,在一定程度伴随着视觉对齐的弱化,呈现出「越推理越幻觉」的倾向。 该工具不仅提升了模型幻觉风险的可测性,也为未来多模态系统的稳健性评估与改进提供了重要参考。 推理链「长度悖论」:思考越多,幻觉越大? 模型推理链条的长短,真的越长越好吗? RH-AUC:推理与幻觉的动态权衡评估 面对多模态模型中推理增强与幻觉放大的两难局面,研究团队提出了一项全新评估指标:RH-AUC(Reasoning-Hallucination Area Under 2. RL-only 训练范式优于SFT+RL:如图 (b) 所示,在不同训练策略下,纯RL训练的模型平均 RH-AUC 均高于混合范式,尤其在长推理链条件下差距显著(0.57vs0.50)。

    34410编辑于 2025-06-26
  • 来自专栏技术人生黄勇

    大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)

    如下图所示,几个常见的大模型预训练使用的语料库的数据量‍‍‍‍‍‍‍‍ Llama2达到了大约两万亿个token的数据规模。因此,与人工整理相比,目前更实用的方法是自动选择可靠数据或过滤掉噪声数据。 Llama2在构建预训练语料库时,从高度可信的来源如维基百科中提取数据。 有些研究在事实性文档的句子前加入主题前缀,使每个句子在预训练时都被看作一个独立的事实,以文档名称作为主题前缀。 2. 推理时间干预 Li等人提出了一种新颖的推理时间干预(ITI:Iterative Time Intervention)方法,以提高LLM的真实性。 2. 知识利用 知识利用可以在不同阶段应用于缓解LLMs中的幻觉。现有的知识利用方法可以大致分为两类:基于上下文的修正通过利用上下文知识来纠正先前生成的非事实性声明。 例如给"Llama2-Chat"的系统提示:如果您不知道问题的答案,请不要分享虚假信息。

    2K10编辑于 2024-07-19
  • 来自专栏deepseek

    从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

    这些都是“幻觉”,但它们却是文明诞生和发展的原动力。主持人: 听您这么一说,感觉幻觉还挺重要的。那咱们回到DeepSeek-R1,它的幻觉问题真的很严重。立委: 是很严重。 赫拉利在《人类简史》中强调了幻觉对于文明的根本作用:语言的产生赋能了人类幻觉(“讲故事”)的能力。幻觉是文明的催化剂。人类是唯一的会“说谎”的实体 -- 除了LLM外。 幻觉选择的虚假事实需要与补白所要求的value类型匹配,即符合ontology/taxonomy 的相应的上位节点概念。“张三”可以幻觉为“李四”,但不可以幻觉成“石头”。 具体说,R1训练pipeline是四个过程,微调1,强化1,微调2,强化2。强化2主要是与人类偏好对齐的强化。这个过程在创造力与忠实方面,目前看来倾斜于前者,后去可以再做平衡。 也许更重要的是在阶段三的微调2中,针对不同任务加强约束,例如,增加摘要的监督数据,引导忠实平实的结果。Routing: 以后可能会有一个“调度员”,根据任务的类型,安排不同的模型来处理。

    53110编辑于 2025-02-10
  • 【 人工智能AI幻觉

    一、AI幻觉的定义与风险 AI幻觉指人工智能系统生成看似合理但实际错误或虚构的内容,例如编造不存在的论文、人名或事件。这种现象在生成式AI中尤为常见,尤其在缺乏足够训练数据或上下文的情况下。 高风险领域如医疗、法律和新闻,一旦出现AI幻觉可能导致严重后果,例如误诊、法律文件错误或虚假新闻传播。 二、应对策略与案例分析 事实核查机制 部署自动化工具对AI生成内容进行实时验证。 检索增强生成(RAG) RAG通过将外部知识库与生成过程结合,减少幻觉。 generation_config = { "max_length": 100, "do_sample": True, "top_k": 50, "no_repeat_ngram_size": 2, "repetition_penalty": 1.5, "hallucination_threshold": 0.7 # 自定义幻觉检测阈值 } 多模态验证 结合文本、图像等多模态数据交叉验证

    26310编辑于 2026-01-20
  • 来自专栏DeepHub IMBA

    如何避免LLM的“幻觉”(Hallucination)

    这个简单的想法允许引入一种新的基于样本的幻觉检测机制。如果LLM对同一提示的输出相互矛盾,它们很可能是幻觉。如果它们相互关联,就意味着信息是真实的。对于这种类型的求值,我们只需要llm的文本输出。 这里使用了all-MiniLM-L6-v2轻量模型。嵌入一个句子会把它变成它的向量表示。 最初的输出有4个句子,分别是r1 r2 r3和r4。第一个样本有两个句子:c1和c2。计算原始输出中的每个句子与第一个样本中的每个句子匹配的F1 BERTScore。 有效输出的幻觉得分较低,而虚构输出的幻觉得分较高。但是计算BERTScore的过程非常耗时,这使得它不适合用于实时幻觉检测。 实时幻觉检测 我们可以构建一个实时幻觉检测的Streamlit应用。如前所述,最好的度量是LLM自相似性得分。我们将使用0.5的阈值来决定是显示生成的输出还是显示免责声明。

    78811编辑于 2024-01-04
  • 来自专栏自然语言处理(NLP)论文速递

    大模型幻觉!人大 & IAAR & 新华社 | 提出幻觉评测基准UHGEval,全面支持中文!

    大多数评测基准主要集中在英语幻觉上,「而中文幻觉评测数据集较少」。 因此,这两个方面共同构成了模型和提示的无约束候选幻觉生成的框架。 2.3 幻觉排名 对于生成的5个候选幻觉文本,UHGEval从「文本流畅性」和「幻觉发生可能性」两个维度进行排名。 其中,3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文大语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM -20B,Baichuan2-13B,Baichuan2-53B,Qwen14B,Aquila2-34B。 推荐阅读 [1]2023年10月 爆款论文总结,共计12篇 [2]微软提出代码生成模型,参数仅有75M! [2]当大模型遇到新知识,还能给出正确答案吗?

    2K10编辑于 2023-12-04
  • 来自专栏52test

    用工具堆砌的DevOps 幻觉(上)

    第一届 DevOpsDays结束后,DevOps 运动则如星火燎原之势在全球发展开来。随着 DevOps 思想的不断传播,相对的质疑和批评也从未停止过。以至于到今天对于 DevOps 的定义还是众说纷纭,争论不休。 当人们还在争论 DevOps的时候,一批基于敏捷的工程实践和自动化工具带着 DevOps 的标签走入了人们的视野。人们开始认为 DevOps 就是使用这些工具进行自动化。

    43310发布于 2021-07-09
  • 来自专栏CSDNToQQCode

    大语言模型LLM中的幻觉

    幻觉 由ChatGPT带来的大模型时代,国内外各大厂家都在陆续推出自己的大模型,然而目前大模型都存在一个普遍的现象就是:幻觉。 大白话就是大模型无法理解你的用词约束,结果出来一个稀里糊涂的东西。 我们在医学、金融、科研等领域对一些数据要求精准度非常的高,如果给个幻觉的错误数据,那么后面问题就太大了。 事实幻觉 事实不一致,当问AI:如何解决大模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 附: 解决大模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。 通过微调,可以减少大模型对特定领域的泛化能力不足的问题,从而减少幻觉的产生。 引入注意力机制:注意力机制能够使模型更加关注重要的信息,减少对无关信息的关注,从而减少幻觉的产生。

    49010编辑于 2024-01-02
  • 来自专栏明明如月的技术专栏

    AI 通俗讲解大语言模型幻觉

    大模型幻觉,听起来就像是从未来科技中走出的术语,其实它是人工智能领域中一个非常有趣的现象。 这就有点像所谓的“大模型幻觉”。 更具体地说,当我们提到大模型(如GPT系列),其实是指一种基于大量数据训练出来的人工智能模型,这些模型能够处理语言、图像等多种类型的任务。 但是,就像那个善于编故事的朋友一样,大模型有时也会“幻觉”,即它们可能会生成一些听起来很合理,但实际上完全是虚构的信息。 为什么会产生大模型幻觉? 数据的局限性:虽然大模型的训练数据非常庞大,但并不全面,可能会缺乏某些领域或主题的信息。 应对大模型幻觉的方法 增加模型的透明度:通过理解模型的工作原理和限制,用户可以更加警惕可能出现的幻觉。 持续改进和训练模型:通过不断地训练和改进,增加模型处理信息的准确性和可靠性。

    50600编辑于 2024-05-24
  • 来自专栏新智元

    大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉

    编辑:Henry 【新智元导读】Alembic首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。 原来大模型的「幻觉」,真的可以完全消除! 也就是说,饱受诟病的LLM幻觉,被彻底攻破了。 他接着表示,我们基本上让生成式AI免于产生幻觉。它可以确定性输出,也可以谈论因果关系。 解决幻觉问题 「幻觉」一直是企业采用聊天机器人和虚拟助理等人工智能系统的主要障碍。 此前的AI模型即使可以生成看似逼真的文本,还是经常会产生错误或无意义的信息,也就是所谓的「幻觉」,导致在关键业务应用中的部署存在风险。 随着人工智能竞争的白热化,Alembic的「无幻觉」方法可能会成为一个关键卖点,也可能成为研究突破与实际影响之间差距的警示故事。

    32010编辑于 2024-06-17
  • 来自专栏小吾的AI辅助软件开发

    如何一键减少AI幻觉

    让小吾来给你说说这些"幻觉"是从哪儿来的:(1)数据不够全:AI只能学它见过的东西。要是训练数据有错,它就学错了。而且数据可能带有偏见,或者信息不完整。(2)靠猜测回答:AI其实是在玩文字接龙游戏。

    61031编辑于 2025-05-29
  • 来自专栏人工智能

    当 AI 开始编造事实:Text2SQL 中的幻觉陷阱与破解之道

    AI幻觉:大语言模型的"睁眼说瞎话"问题一、什么是AI幻觉(定义与现象)AI幻觉(AIHallucination)是指大语言模型在生成回答时,以极其自信和流畅的语气,输出了事实上不正确、无中生有、或与现实不符的内容 二、为什么会产生幻觉(技术原理)要理解幻觉的成因,需要先简单了解大语言模型的工作方式。 2.缺乏真正的"知识验证机制"人类在说话时,如果不确定一件事,通常会意识到自己不确定,然后选择说"我不太清楚"。但语言模型在生成文本时,并没有一个独立的模块去检查"我刚才说的这句话在事实上是否正确"。 三、AI幻觉的具体案例(Text2SQL)AI幻觉是指大语言模型以自信、流畅的语气,输出事实上不正确或凭空捏造的内容。它的危险之处在于:看起来太像真的了,普通人很难一眼辨别。 Text2SQL场景示例假设你的数据库里有一张orders表,字段是order_id,user_id,amount,created_at。

    14100编辑于 2026-02-17
  • 来自专栏算法一只狗

    AI幻觉下,如何识别虚假信息

    其实目前来看,AI 在很多时候确实存在幻觉现象,尤其是在处理严谨性较强的问题时,例如数学题、编程问题等,经常会给出错误答案,甚至出现胡编乱造的情况。那为什么当前的大模型会出现幻觉呢? 目前主流模型如 GPT、Claude、Gemini 等,虽然持续强化其检索增强能力(RAG)与事实校验机制,但幻觉现象依然难以完全杜绝。 因此,我们要想识别 AI 所生成的幻觉信息,最根本的方法仍然是主动进行多重验证。 尤其当幻觉信息被用户误信后扩散传播,甚至被恶意剪辑包装为“真相”,就可能引发信息污染、社会恐慌,乃至影响政策判断与公众认知。那我们如何辨别是否为虚假信息呢? 借助工具辅助判断: GPT 类模型可帮助分析语义逻辑,但其自身也可能产生幻觉; ImageForensics、Deepware Scanner 可判断图像/视频是否由 AI 生成; Bing、Gemini

    80810编辑于 2025-04-02
  • 来自专栏机器之心

    幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

    在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。 以往的研究,如 GenSAM [1],提出利用 LLaVA/BLIP2 这类多模态大模型(MLLMs)来推理出特定样本的分割提示,以指导分割过程。 更进一步地说,这种由幻觉带来的常识可能有助于更深入地分析图片内容,发现与图片相关但不显而易见的信息。如果这些信息得到验证,它们可能有助于更有效地执行下游任务。 图 2. ProMaC 整体架构 实现方法 如图 2 所示,该研究提出了一个循环优化的 ProMaC 框架,它包括两部分:利用幻觉来从任务通用提示中推理出样本特有提示的 multi-scale chain of 为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉

    24700编辑于 2025-02-14
  • 来自专栏52test

    用工具堆砌的DevOps 幻觉(下)

    质量內建于开发流程中(building quality into the development process) DevOps文化的转变带来的一个效果是让新代码进入生产环境更加容易。这使一些未来的 DevOps 文化转变非常必要。为了确保生产环境的变更稳妥。团队需要重视“将质量构建在开发过程中”,这包括很多跨功能的考虑例如性能和安全,持续交付和自我测试的代码会形成一个允许频繁且低风险部署的基础。

    36740发布于 2021-07-09
  • 来自专栏自然语言处理

    大型语言模型幻觉检测相关综述

    2)从单一模态到多模态: 随着多模态模型的发展,评估范围已从纯文本扩展至图文结合的复杂场景,关注对象存在、属性及关系等跨模态幻觉。 HotpotQA和2WikiMultihopQA是其典型代表,问题本身无法通过单一信息源解决,这极大地考验了模型的逻辑推理和信息整合能力,也是幻觉产生的高发区。 2) 交互式与动态评估:构建如ToolBench和WildHallu那样的动态基准,从真实、连续的用户交互中捕捉和评估幻觉,而非静态的问答对。 多跳问答数据集如HotpotQA和2WikiMultihopQA要求模型综合多个信息源进行推理,这本身就是幻觉的高发区。 方法/模型 (Method/Model) 2WikiMultihopQA (EM) 2WikiMultihopQA (F1) HotpotQA (EM) HotpotQA (F1) TriviaQA (

    1.5K20编辑于 2025-07-12
  • 来自专栏素质云笔记

    大模型幻觉(LLM Hallucination)若干记录

    主要参考:大模型的幻觉问题调研: LLM Hallucination Survey 1 幻觉定义 当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题 input content(传统包括:Intrinsic Hallucination(信息冲突) 以及Extrinsic Hallucination(无中生有) ) Factualness:是否符合世界知识 2 基于Factualness Classification Metric:标注/构造一批和幻觉/事实有关的数据,训练检测模型,利用该模型评估新生成文本的幻觉/事实问题。 训练方式 可控文本生成:将幻觉的程度作为一个可控的属性,利用可控文本生成技术进行控制。 现有工作将减轻幻觉的指标作为强化学习的reward函数,从而减轻幻觉现象。 多任务学习: 通过设计合适的额外任务,可以达到减轻幻觉的效果。 后处理:设计一个小模型专门用于fix幻觉错误。

    1.3K40编辑于 2023-07-25
  • 来自专栏老张的求知思考世界

    警惕DeepSeek带来的AI信息幻觉

    这种情况,就是AI大模型在当前阶段面临的重大挑战:信息幻觉。 如何理解信息幻觉呢? 简单来说,同样的Prompt(提示词)会产生不同的答案,这就是所谓的信息幻觉问题。再换个更容易理解的说法,针对同一个或同一组Prompt,大模型的结果不具备幂等性。 而当前缓解(或者说解决)信息幻觉的技术方法只有RAG。 所谓的RAG(Retrieval-Augmented Generation),即检索增强生成。 将RAG解决信息幻觉的过程拆开,就是理解-检索-生成。 “理解”就是拆解用户提问,充分理解用户需求。 个体如何面对信息幻觉的挑战,我是这样思考的: 如果你完全相信AI给出的信息,那你很快就会陷入一种信息幻觉

    33810编辑于 2025-02-25
  • 小红书团队开源FireRed-OCR:2B模型攻克视觉语言模型“结构幻觉

    Model:https://modelscope.cn/models/FireRedTeam/FireRed-OCR%E2%80%A6Demo:https://modelscope.cn/studios /FireRedTeam/FireRed-OCR%E2%80%A6GitHub:https://github.com/FireRedTeam/FireRed-OCRTechnicalreport:https ://github.com/FireRedTeam/FireRed-OCR/blob/main/assets/FireRed_OCR_Technical_Report.pdf测试数据显示,参数量仅为2B 这一表现不仅大幅超越DeepSeek-OCR2等专用的端到端OCR系统,更在复杂表格结构解析与空间位置推理任务上,跨越量级击败了数百亿参数的各类通用智能体与旗舰大模型。

    44710编辑于 2026-03-03
领券