首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏新智元

    【Science】DeepMind关系推理ANN,在图像理解中击败人类

    【新智元导读】人类通常相当擅长关系推理,但对 AI 来说是难点。谷歌 DeepMind 研究人员提出了用于关系推理的人工神经网络。 这些问题需要关系推理,这对于 AI 来说是难点。现在,谷歌 DeepMind 的研究人员已经开发了一种简单的算法来处理这种推理,而且它已经在复杂的图像理解测试中打败了人类。 它拥有处理图像、分析语言甚至学习游戏的专门架构。在这种情况下,新的“关系网络”设计用来比较各个场景中的每一对对象。 对于这个任务,关系网络与另外两种类型的神经网络组合:一个用于识别图像中的对象,一个解释问题。在许多图像和问题上,其他机器学习算法在 42% 到 77% 的时间是正确的。人类取得了 92% 的好成绩。 “我希望可以实现自己生成策略的模型”,他表示:“ DeepMind 正在致力于一种特定类别推理的建模,并非普遍意义上的关系推理。但是向着正确方向迈进的及其重要的一步”。

    1.1K170发布于 2018-03-28
  • 原生多模态推理:Gemini 3 如何“理解世界”而非“拼接图像”?

    @TOC开篇引言在人工智能领域,多模态推理一直是一个重要的研究方向。传统的多模态模型通常将不同模态的数据(如文本、图像、音频)进行简单的特征拼接,然后进行联合推理。 Gemini 3 是一种新型的多模态推理框架,它通过原生多模态推理技术,能够更好地“理解世界”,而不仅仅是“拼接图像”。 通过结合用户的历史听歌记录(文本)、专辑封面(图像)和音乐片段(音频),Gemini 3 能够更准确地理解用户的音乐偏好,并推荐符合其口味的音乐。 这种原生多模态推理技术不仅能够更好地“理解世界”,还能够应用于各种实际场景,如猴子音悦100万正版音乐的推荐系统。 总结本文深入探讨了原生多模态推理:Gemini 3 如何“理解世界”而非“拼接图像”?的相关技术,从原理到实践,从基础到进阶,希望能够帮助读者全面掌握这一技术。

    24310编辑于 2025-12-25
  • 来自专栏人人都是架构师

    HugggingFace 推理 API、推理端点和推理空间使用介绍

    本文将介绍 HuggingFace 的推理 API、推理端点和推理空间的使用方法。 页面小组件 推理 API 有两种使用方式,一种是在模型页面的右侧找到推理 API 的小组件页面,初始界面如下图所示: 我们可以在这个页面中上传图片,然后就可以看到模型进行推理运行,等一会后推理结果就出来了 (Endpoint) 推理 API 虽然方便,但推理 API 一般用于测试和验证,由于速率限制,官方不推荐在生产环境中使用,而且也不是所有模型都有提供推理 API。 信息确认无误后点击Create Endpoint按钮创建推理端点,创建成功后可以进入推理端点的详情页面看到如下信息: 其中Endpoint URL就是部署好的推理端点地址,我们可以跟调用推理 API 总结 本文介绍了 HuggingFace 的推理 API、推理端点和推理空间的使用方法,推理 API 是免费的,使用 HuggingFace 自建的 API 服务,推理端点是部署自己专属的 API 服务

    4.3K40编辑于 2023-09-17
  • 来自专栏EMQ 物联网

    eKuiper 1.8.0 发布:零代码实现图像视频流的实时 AI 推理

    该版本的主要亮点有: 零编码 AI 推理: 通过通用 AI 函数,用户无需编码即可针对流式数据或视频流实现实时 AI 算法推理。该函数可以推理任意的 Tensor Flow Lite 模型。 图像/视频流推理 配合新版本提供的视频流源(详情见下文),eKuiper 提供了视频接入并定时获取图像帧的能力。图像帧可在规则中,使用 tfLite 函数进行 AI 推理。 Tensor Flow 模型通常是针对特定的图像大小进行训练的,对图像进行推理时,经常需要进行变更大小等预处理。eKuiper 也提供了 resize、thumnail 等预处理方法。 连接生态扩展 eKuiper 可以处理二进制图像数据,但是此前的测试中,图像都是经由 MQTT、HTTP 等偏向文本数据传输的协议来发送。新版本提供了视频流源,增加了一种新的二进制数据源。 通过视频源接入的数据,可以使用已有的 SQL 功能,例如 AI 推理函数功能等,转换成数据进行计算或输出为新的二进制图像等。 规则自动化运维 部署在边缘端的规则运维相对困难。

    1.5K20编辑于 2023-03-01
  • 来自专栏CreateAMind

    因果推理比概率推理更难吗?

    统计和因果推理中的许多任务可以被解释为合适的形式语言中的蕴含问题。我们问,从计算的角度来看,对于因果概率语言来说,这些问题是否比纯概率(或“关联”)语言更困难。 尽管从多种意义上讲,因果推理确实更复杂——无论是表达上的还是推理上的——我们表明因果蕴涵(或可满足性)问题可以系统地、稳健地简化为纯粹的概率问题。因此,计算复杂性不会增加。 毫无争议的是,因果推理比纯粹的概率或统计推理更困难。后者似乎已经足够困难了:估计概率、根据过去的观察预测未来事件、确定统计显着性、在统计假设之间做出裁决——这些已经是艰巨的任务,长期陷入争议。 因果推理问题似乎只会让我们的任务变得更加困难。推断因果效应、预测干预结果、确定因果方向、学习因果模型——这些问题通常需要统计推理,但也对研究者提出更多要求。 从推理的角度来看,概率信息远远不能确定因果信息。 统计推断和因果推断的一个共同特征是,每种方法最突出的方法都可以(至少部分地)理解为试图将归纳问题转化为演绎问题。

    26410编辑于 2024-03-25
  • 推理提速一倍!SegDT:轻量化扩散 Transformer,医学图像分割的技术跨越

    【导读】医学图像分割是疾病诊断和治疗规划的关键一环,尤其是在皮肤癌的早期检测中,分割的准确性直接决定诊断质量。 >>更多资讯可加入CV技术群获取了解哦医学图像分割的困境长期以来,医学图像分割依赖于 卷积神经网络(CNN),如 U-Net 和 DeepLabV3+,它们能捕捉局部与全局特征,在皮肤病变分析中表现突出 与此同时,扩散模型以逐步去噪的方式在图像生成和医学影像分割中崭露头角,精度高但推理速度慢,难以满足临床需求。 Rectified Flow 加速推理传统扩散模型往往需要几十步甚至上百步采样才能生成可靠结果。 总结SegDT 代表了医学图像分割的一次重要突破:它以 轻量化设计,解决了 CNN、Transformer 和扩散模型的性能与效率矛盾;它通过 Rectified Flow,实现了更快的推理速度;它在

    36210编辑于 2025-09-08
  • 来自专栏bit哲学院

    知识推理

    参考链接: 从列表中移除满足Java中给定谓词元素 目录   本体知识推理简介与任务分类  OWL本体语言  知识推理任务  OWL本体推理  ​ 实例化(materialization)的一个例子:   OWL本体推理:不一致性检测  OWL本体非标准推理:计算辩解   本体推理方法与工具介绍  基于Tableaux运算的方法  ​  Tableaux运算的正确性  相关工具简介  ​ 基于逻辑编程改写的方法    本体推理的局限:  (1) 仅支持预定义的本体公理上的推理(无法针对自定义的词汇支持灵活推理)  (2) 用户无法定义自己的推理过程   引入规则推理  (1) 可以根据特定的场景定制规则,以实现用户自定义的推理过程    上下位推理  查询的同时已经做出了推理!   查询触发推理 查询输入类别s和o之间有无上下位关系    添加推理机   OWL推理: 构建OWL推理机  构建一个含OWL推理功能的Model  Model myMod = ModelFactory.createDefaultModel

    2K00发布于 2020-12-13
  • 来自专栏AiCharm

    GPT-4震撼发布:图像理解、先进的推理能力、惊人的准确性

    图像输入功能方面,为了获得更广泛的可用性,OpenAI 正在与其他公司展开合作。 OpenAI 今天还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。 GPT-4:我能玩梗图 GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。 具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。 不过 OpenAI 在这里说了,图像输入是研究预览,仍不公开。 获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。

    1.7K20编辑于 2023-05-15
  • 来自专栏野生AI架构师

    推理与统计:推理的来源是什么?

    有文章提到chatgpt已经具备了复杂的推理能力,按照自己以前对这些大模型的了解,是不太相信的,那不过就是从训练数据提炼出来的观点,本质是一种统计的运算。 这时,我们能说他具备推理能力了吗,也许他只是记住了答案。 网文说,chatgpt的推理能力很可能是来源于代码的学习,代码确实可能是学习逻辑的最佳训练集了,如果他从海量的代码里,学习到了逻辑运算的模式,再加上大模型本身所学到的知识,如果融合在一起,是不是就是产生推理能力了呢 好像是这么回事,不过这个归纳推理,难道不也是从训练集统计而来的吗?如果这么看,那我们个人的推理能力是不是也是这么来的? 话又说回来,推理的来源是不是也是统计?这么理解是不是也是可行的。

    32910编辑于 2023-08-26
  • 来自专栏深度学习和计算机视觉

    顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测

    为了解决上述两个问题,如图1c所示,我们在之前的作品中提出了一个图推理变换器(GReaT),它使图像块能够按照全局关系推理模式进行交互。 如图1d所示,CAE-GReaT编码器层主要由两个分支组成:高效的图推理分支,用于通过基于图的图像块交互捕获长距离特征依赖性,以及辅助卷积分支,用于通过丰富局部特征表示来缓解ViT的固有问题。 我们提出了一种高效的信息扩散策略,以减少图推理过程中的计算成本。-我们将实验从语义分割扩展到一般密集图像预测任务,并取得了有竞争力的结果。 2.3 图推理(GR)在图像识别中的应用 GR是捕获给定图像像素级长距离特征依赖性的最有效方式之一。现有的GR方法可以分为以下两类:没有外部知识库的方法和有外部知识库的方法。 如图1d所示,CAE-GReaT层由两个分支组成:高效的图推理分支,用于通过基于图的图像补丁交互捕获长距离特征依赖,以及辅助卷积分支,用于通过丰富局部特征表示来缓解ViT的固有问题。

    41110编辑于 2024-10-21
  • 来自专栏机器之心

    7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本

    随后,作者建议在概括性和鲁棒性、可信推理、从反馈中学习和多模态数学推理方面改进目前的工作(第 7 节)。 推荐:深度学习如何慢慢推开数学推理的门。 研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。 模型体系架构概述。 推荐:推理速度比 Stable Diffusion 快 2 倍,生成、修复图像谷歌一个模型搞定。 恰如图 1 所示,在一个图像智能分类系统中,对图像加入适量的噪声后再训练,识别准确率反而上升了。这给我们带来一点启发:图像中加入一些噪声,而不是去除,再执行图像分类任务,可能效果会更好。 值得一提的是,我们的模型在单卡 P100 上实现了 4K 超高分辨率图像的实时推理。 推荐:一键抹去瑕疵、褶皱。

    52520编辑于 2023-03-29
  • 来自专栏机器之心

    无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题

    最新研究 VisPlay 首次提出了一个自进化强化学习框架,使 VLM 能够仅通过海量的未标注图像数据进行自我演化和能力提升。 引言: VLM 推理能力的「数据困境」 近年来,Vision-Language Model(VLM)在感知任务上取得了不小的进展,但在更复杂的视觉推理上仍然吃力。 前者鼓励提问者生成更复杂的、需要深层次推理才能解决的问题;后者确保生成的问题类型和涉及的知识点足够广泛,防止模型陷入狭窄的知识或推理路径,从而实现更强大的组合泛化能力。 (如 MMMU)、视觉数学推理(如 MathVerse)以及幻觉检测(HallusionBench)。 强大的组合泛化能力: 模型在训练中未见过的复杂推理组合上表现出更强的鲁棒性。

    20410编辑于 2025-12-24
  • 来自专栏CreateAMind

    因果推理和概率推理难度一样?

    其他参考: 最新Tractability易处理的因果推理 80PPT 概率编程with Fast Exact Symbolic Inference 快速准确符号推理 小数据大任务 实现框架开源 再发:迄今为止

    50620编辑于 2022-11-22
  • 来自专栏机器之心

    CMU朱俊彦、Adobe新作:512x512图像推理,A100只用0.11秒

    但是问题在于,扩散模型的迭代导致推理速度变慢,限制了实时应用,比如交互式 Sketch2Photo。此外模型训练通常需要大规模成对数据集,给很多应用带来了巨大成本,对其他一些应用也不可行。 结果显示,他们的模型 pix2pix-Turbo 实现了与 Edge2Image、Sketch2Photo 不相上下的视觉效果,并将推理步骤缩减到了 1 步。 这样做既能利用预训练扩散模型的内部知识,同时还能实现高效的推理(例如,对于 512x512 图像,在 A6000 上为 0.29 秒,在 A100 上为 0.11 秒)。 保留输入细节 潜在扩散模型 (LDMs) 的图像编码器通过将输入图像的空间分辨率压缩 8 倍同时将通道数从 3 增加到 4 来加速扩散模型的训练和推理过程。 这种设计虽然能加快训练和推理速度,但对于需要保留输入图像细节的图像转换任务来说,可能并不理想。

    29000编辑于 2024-03-26
  • 来自专栏机器之心

    学界 | 抛弃黑箱,斯坦福大学与Facebook提出程序生成式图像推理模型

    选自arXiv 作者:Justin Johnson等 机器之心编译 参与:李泽南 去年 12 月,斯坦福大学联合 Facebook 推出了一个用于组合式语言和初级视觉推理的诊断数据集 CLEVR,可用于测试许多视觉推理能力 论文:推理和执行视觉推理程序(Inferring and Executing Programs for Visual Reasoning) ? 摘要 现有的视觉推理方法通常使用黑箱架构将输入映射到输出,而没有对其中的推理过程建模。于是,这些黑箱模型经常在学习过程中受到数据偏差的影响,而导致图像推理的错误。 受到网络模块的启发,本论文提出了一种视觉推理模型,其中包括一个程序生成器(program generator)——该组件构造要执行的推理过程的显式表示;以及一个执行引擎(execution engine 执行引擎:负责对图像执行生成出的程序以产生答案,由神经网络模块实现。 它们是互相独立训练的基础功能模块,这些模块根据预测的程序进行组合,为每个问题提供专属的神经网络架构。 ? 图 1.

    74450发布于 2018-05-07
  • 来自专栏全栈程序员必看

    复合命题及其推理答案_基本复合命题及其推理

    推理规则为:否定一部分选言支,必须肯定其余选言支;肯定一部分选言支,不能肯定或否定其余支 2、不相容选言推理 (1)否定肯定不相容选言推理 指通过否定不相容选言命题的一部分选言支,进而肯定其余选言支的推理 (2)肯定否定不相容选言推理 指通过肯定不相容选言命题的一部分选言支,进而否定其余选言支的推理。 不相容选言推理的规则:肯定一部分选言支,必须否定其余选言支;否定一部分选言支,必肯定其余支。 互相的) 二、假言推理 假言推理是前提之一为假言命题,并根据假言命题的逻辑性进行推演的复合命题推演。包括假言(条件)直言推理、假言换位推理、假言连锁推理三种。 1、假言直言推理 假言直言推理是前提之一为假言命题,另一前提和结论为直言命题(性质命题)的推理。 2、假言换位推理 即以某种类型的假言命题为前提,通过其前后件的换位而得出另一假言命题推理。 (1)充分条件换位推理 其形式为:如果p,那么q,所以,只有q,才p。

    85310编辑于 2022-09-20
  • 来自专栏AI绘画

    OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步

    OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步引言:当AI学会“用图像思考” 2025年4月17日,OpenAI以一场30分钟的极简发布会,向世界投下一枚“重磅炸弹”——新一代推理模型 这款被称为“迄今最智能的模型”不仅以87.5%的ARC-AGI基准得分刷新人类对AI推理能力的认知,更首次实现图像深度融入思维链,让机器真正“用图片思考”。 一、产品解析:o3的技术突破与核心能力1.1 多模态推理革命:图像成为思维载体 o3首次突破传统文本推理框架,将视觉信息直接融入思维链。 二、核心功能:从工具执行到主动推理2.1 图像驱动式问题解决 • 案例1:科研加速 用户上传一篇未完成的学术海报图片,o3自动识别图表数据,调用Python计算质子同位旋矢量标量电荷,并搜索最新论文对比误差 DeepSeek R1 核心架构 密集Transformer 混合专家(MoE) 多模态支持 原生图像推理

    83210编辑于 2025-04-24
  • LLM推理中 KVCache 提示推理效率的几点应用

    LLM推理中KVCache提示推理效率的几点应用这是基于2025AICon大会的马腾的演讲整理而成通过kvCache的优化提升效率,如模型算法优化减少KVCache产生量,KVCache压缩,KVCache 复用,KVCache共享,前言在大模型应用的浪潮中,有一个问题始终困扰着从业者:如何在保证服务质量的同时,降低推理成本、提高吞吐效率? 在分布式推理场景下,KVCache需要在不同的GPU甚至不同的服务器之间传输,带宽成为重要的瓶颈。管理复杂性也不可小觑。 分离指的是将KVCache从模型推理过程中分离出来,形成独立的服务。模型推理节点不再负责KVCache的存储和管理,而是专注于计算任务。 这种分离带来了几个好处:推理节点可以更专注于计算,提高资源利用率;KVCache服务可以独立扩展,适应不同的负载特征;不同推理节点之间可以共享KVCache,减少重复计算。

    27910编辑于 2026-01-14
  • 来自专栏DeepHub IMBA

    解决推理能力瓶颈,用因果推理提升LLM智能决策

    因果AI能够影响智能体AI生命周期的多个环节,特别是推理、可观察性和可解释性这几个方面。 LLM推理能力的现实困境 苹果最近的研究(论文1)深入分析了LLM的推理局限性。 LLM看起来无法进行真正的逻辑推理,只是在模仿训练数据中观察到的推理步骤。 要让AI真正具备推理和问题解决能力,它必须在算法层面理解因果关系。 像howso这样的公司正在通过集成因果AI、数据水印和归因推理来创建新的推理模型,目标是降低风险并提升准确性。 内省机制增强推理过程 从LLM训练转到推理阶段,我们来看看如何通过添加"内省"步骤来进一步改善智能体推理。 智能体AI的核心架构 一个完整的智能体AI平台包含几个关键模块。 ),推理不一致(特别是日期偏移推理,比如"上个月"这种表达),过早结束任务、重复调用工具、多步组合失败等。

    39510编辑于 2025-11-15
  • 来自专栏机器之心

    具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互

    这些连贯的、图像-文本交错的轨迹引导模型学习如何基于其交互历史和空间布局进行规划和推理,从而提升其空间和时间推理能力。 此后,我们引入了一个三阶段迭代训练流程,结合了模仿学习、自我探索和自我纠正微调。 观察-动作序列中插入多样化的思考过程 在运行合成的动作( )后,数据引擎获得一个交互轨迹: ,其中 oi 表示第一人称视角图像。 在每个回合中,观察到的图像和模拟器的反馈作为用户输入,而思考和行动则作为助手输出。在训练过程中,我们仅对思考和行动 token 计算损失。 然后在此数据集上微调 Qwen2-VL-7B-Instruct,使其学会理解交织的图像-文本上下文,输出推理和动作 token。经过微调得到 Embodied-Interactor。 模型分析每张图像并生成动作命令,然后由操作员执行这些动作。 上图展示了一个例子:「你能帮我找到咖啡并加热它吗?」

    38810编辑于 2025-04-27
领券