首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏媒矿工厂

    CVPR 2023 | MIME: 人物感知3D 场景生成

    实验表明,MIME 生成的 3D 场景支持人物接触和运动,并能够在自由空间中填充可信的物体。 引言 图 1:从人物运动估计 3D 场景。给定 3D 人物动作,我们可以重建运动可能发生的 3D 场景。 为了从 3D 人物运动生成 3D 室内场景,我们提出了 MIME(Mining Interaction and Movement to infer 3D Environments)来生成与人物运动相一致的室内场景 生成式人物感知场景合成 我们将 3D 场景 \mathcal{S} 表示为物体的无序集合,包含与人物接触的物体 \mathcal{O}=\{o\}_{i=1}^N 和无接触的物体 \mathcal 图 3:使用碰撞损失和接触损失进行场景细化。 模型生成的场景3D 边界框表示。根据边界框的大小和类别标签,我们从 3D FUTURE 中检索最接近的网格模型。 实验 定量结果 表 1:3D FRONT HUMAN 测试集上的定量比较。穿模损失、2D IoU 和 3D IoU 用于评估生成场景中人物与场景的交互。

    62110编辑于 2024-01-23
  • 来自专栏人工智能前沿讲习

    【他山之石】CVPR 2024 | 3D开放世界场景感知理解新SOTA!

    摘要 · 看点 场景级别的 3D 开放世界感知一直是一个饱受关注的问题,是具身智能和机器人领域非常重要的一个能力。 这种混合策略只会混合在 3D 空间中互补的 3D-text pairs,因此减少了不同模型产生的 3D-text pairs 在优化时产生冲突的概率。 结论 我们提出了 RegionPLC,一个综合的区域点云-语言对比学习框架,用于识别和定位开放世界 3D 场景理解中的未知类别。 此外,我们的区域感知点云-语言对比损失有助于从区域性描述中学习出具有独特性和鲁棒性的特征。 大量实验证明,RegionPLC 在室内和室外场景中明显优于先前的开放世界方法,并在具有挑战性的长尾或无注释场景中表现出色。

    92710编辑于 2024-05-22
  • 来自专栏运维之路

    风险感知(二)场景设计5要素

    本篇接《风险感知(一)》,将采用数字化运维场景设计方法梳理风险感知场景的一些思路。 ,平台赋能场景生产力 再看看风险感知场景的要点: 在线感知风险状况,即时健康质检 赋能专家主动构建、调优风险感知模型 “数据指标+算法策略”(点)=》编排组装主题(面、兼顾非知风险) 建立风险识别(感知 【聚焦】如第3点不可行,增加重要交易系统的主动分析评估的工作事项是否可行? 【机制、连接】如让一线运维专家主动分析评估工作如要成为常态化,需要配套增加哪些流程机制? …… 3.时间 场景来源于电影。在视频领域,通常按每秒25张或30张图片组合成一个视频画面,对一段时间的视频画面进行剪辑形成一个场景,多个场景组合成为一部电影。 隐性环境重点指风险感知评估配套的工作流程机制,流程机制是为了场景设计能够有效落地提供的约束与保障,是为了明确场景协同人员的责权利。

    1.4K20编辑于 2022-11-16
  • Rokid 的AI场景操作解析:从感知场景落地技术实现

    Rokid作为AR领域的先行者,构建了一套覆盖“感知-决策-执行-优化”的全栈AI技术体系,可高效支撑多场景下的智能交互需求。 一、全链路技术架构概览Rokid AI的核心价值,在于打破单一模态的局限,实现“感知-理解-决策-反馈”的闭环。 其技术架构涵盖多模态感知、AI决策引擎、场景化执行、用户体验优化四大核心环节,各模块协同支撑从交互触发到服务落地的全流程。 3. 接下来让我们逐帧分析,在真实硬件里这段语音是怎么出声、怎么算功耗、怎么被用户感知为“反应快”。代码拆析:/** * 1.

    64410编辑于 2025-10-14
  • 来自专栏好用神器发现

    hiflow场景链接器-实时疫情动态感知

    现在腾讯云推出了一款神器-hiflow场景连接器,可以轻松的解决上述我们每天需要的问题,接下来我们一起来看看如何使用hiflow来解决我们的问题吧 我们来到hiflow场景连接器的官网,在模板中心找到

    1K20编辑于 2022-09-11
  • 来自专栏机器之心

    CVPR 2018 | 商汤科技提出GeoNet:用无监督学习感知3D场景几何

    理解视频中的 3D 场景几何是视觉感知领域内的一项基本主题。其中包括很多经典的计算机视觉任务,比如深度恢复、流估计、视觉里程计(visual odometry)。 它们没有探索这些任务之间固有的冗余性(redundancy),这可以通过几何规律根据 3D 场景构建的本质性质来形式化。 最近已有工作研究了将这些问题与深度学习一起形式化。 我们的方法基于 3D 场景几何的本质性质。直观的解释就是大多数自然场景都由刚性的静态表面组成,即道路、房屋、树木等。它们投射在视频帧之间的 2D 图像运动完全由深度结构和相机运动决定。 GeoNet 概述 我们提出的 GeoNet 能以一种无监督的方式通过 3D 场景几何的本质性质来感知 3D 场景几何。 这三个分量可以根据 3D 场景几何的本质性质而组合到一起,通过我们的框架以一种端到端的方式联合学习得到。

    83730发布于 2018-05-08
  • 来自专栏AI机器学习与深度学习算法

    学习分类 2-3 感知

    感知机 要如何求出权重向量呢?基本做法和回归时相同,将权重向量用作参数,创建更新表达式来更新参数。这就需要一个被称为感知机的模型。 感知机是接受多个输入后将每个值与各自的权重相乘,最后输出总和的模型。 数据包含三个特征的感知机模型如下所示。 感知机是非常简单的模型,基本不会应用到实际的问题当中,但是它是神经网络和深度学习模型的基础模型。 图片 下表示收集到的六个训练数据。

    63610编辑于 2022-11-08
  • 来自专栏全栈程序员必看

    unity3D场景_3D夜晚场景

    在学习阿发你好的网课过程中,学习完Unity的2D课程后深有感触,决定将3D学习过程一步步记录下来,也方便日后查询。 创建3D项目 Step1:在UnityHub中新建3D项目 Step2:将页面调整为2×3布局(项目中通常使用2×3) 新建项目 选择 window -> layouts -> 2 by 3 选择 window->General->Console 调出控制台 认识3D场景 天空盒skybox:上有蓝天,下有深渊,在计算机图形学学习过程中就有所涉及。 场景中还有什么? 方向标识:3D视图导航器Gizmos; 坐标网格Grid,标识y=0坐标平面(一般不作调整); 摄像机与光源。 3D视图导航 1、移动视图:按Q选择手型工具或者直接使用鼠标中键 2、旋转视图:ALT+鼠标左键 ​ 鼠标右键,摇摆 3、缩放:滚轮 或 ALT+右键 建立方向感 由于Unity中没有规定方向,为方便建立方向感

    73530编辑于 2022-09-22
  • 来自专栏AI科技评论

    今日 Paper | 动态图像检索;实时场景文本定位;感知场景表示;双重网络等

    :从未标记的图像中学习3D对象感知场景表示 用于行人重识别的交叉分辨对抗性双重网络 Sketch Less for More:基于细粒度草图的动态图像检索 论文名称:Sketch Less for BlockGAN:从未标记的图像中学习3D对象感知场景表示 论文名称:BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled 发表时间:2020/2/20 论文链接:https://arxiv.org/abs/2002.08988 推荐原因 这篇论文提出了一个名为BlockGAN的图像生成模型,可以直接从未标注的2D图像中学习对象感知3D场景表示。 BlockGAN首先生成背景和前景对象的3D特征,然后将它们组合为整个场景3D特征,最后将它们渲染为逼真的图像。

    1.1K40发布于 2020-03-05
  • 来自专栏人人都是极客

    无人驾驶技术课——感知3

    在前面的课程里,我们提到了感知模块内的计算机视觉和深度学习,这节课我们来讲一讲感知任务中的分类、跟踪、语义分割和 Apollo 感知相关的内容。 如果感知到前方有一辆自行车,汽车可能会决定减速或变道,以便安全驶过自行车;但是,如果感知到前方是一辆汽车,并预测到前方车辆也将以接近限速的速度行驶,无人车可能会保持其速度与车道。 过滤器应用于点云和图像数据,以缩小搜索范围并加快感知。 Apollo的感知融合策略 感知通常依赖于摄像头、激光雷达和雷达,该图显示了三种传感器的优缺点 ? 正是有了这些工具,无人驾驶才可以使用自身的传感器来感知世界。 如果您对无人车的“感知”模块还有疑问,请在文末留言,我们会为您依次解答。接下来我们将开启新的章节——自动驾驶的“预测”模块。

    1.2K20发布于 2018-12-26
  • 来自专栏AI学习笔记

    FlashAttention - 3 精解:硬件感知 Attention 优化

    FlashAttention-3 作为这一领域的闪耀新星,带着硬件感知的优化理念横空出世。 通过智能化的自适应机制,进一步提升 FlashAttention-3 在各种复杂场景下的表现。 七、结论通过以上深入细致的探讨,我们对 FlashAttention-3 这一硬件感知的 Attention 优化技术有了全面而深刻的认识。 (FlashAttention 相关理论基础,阐述了硬件感知优化的初步思路)2挫败,S., et al. "Efficient and Accurate: The Path of FlashAttention-3." (2023). (深入探讨 FlashAttention-3 的核心技术和应用场景

    1.4K01编辑于 2025-07-09
  • 来自专栏运维之路

    风险感知场景(一)之“监控、拨测、巡检、可观测性”

    3.可观测 可观测性概念并非源于计算机软件领域,在控制理论中可观测是指系统可以由其外部输出推断其内部状态的程度。 “感知”与“决策、执行”共同组成了我对数据智能思维框架的三要素,打造数字化IT风险管理的风险感知场景将是数字化运维体系的重要方向。 风险感知场景,将整合上述监控、拨测、可观测、巡检的一些基本能力,并基于场景需要构建工具需要具备的功能、流程机制,配套组织角色。 风险感知之所以能成为场景,在于风险感知在运维体系中是一个既能独立运作,又能与其他场景相结合产生更全面与深度的效能。 今天先把场景可能会使用到的平台能力做个介绍,通过吸收成熟的工具解决方案,为风险感知场景的构建提供帮助。

    4.7K10编辑于 2022-11-16
  • 来自专栏京东技术

    技术解析 | 线下门店消费场景中的感知和互动

    当顾客拿起衣服时增强终端会通过拿起感知技术来增强该商品的信息(比如播放该商品的音视频介绍、显示好评度和促销信息等),因为线下服装吊牌上信息太少,像服装风格、适用场景、用户评价等这些数据线下是缺失的,我们需要增强商品信息 调研发现在线上门店消费者最不满意的一项就是“缺货”,其中大约3/4的店内销售损失可以通过如虚拟货架挽回当发生缺货断码时,顾客直接在店内下单,快递送货上门,从而提升转化。 技术架构 整体技术模块架构如图3所示,分为终端:感知用户和云端:理解用户两部分,并分为三层:感知层、互动展示层和服务层。 图3 具体技术架构如图4所示。 ? 图4 最底层是感知层,通过感知一方面可以深度与顾客做互动,另一方面还能采集到曝光量、顾客行为数据和顾客画像数据等。 :产品场景化、场景数字化、运营自动化 智能化:场景化迎宾&导购、基于人脸属性或风格的“千人千面”互动 体验“所见即所得”:装修、布局、屏与商品一体化、试衣镜/间、体验实时反馈 体验连贯性:从用户经过、靠近

    1.5K30发布于 2019-05-05
  • 来自专栏3D视觉从入门到精通

    Pri3D:一种利用RGB-D数据固有属性完成3D场景感知的表示学习方法

    目前很多基于学习的方法在3D场景语义理解方面取得了快速进展,特别是在3D语义分割、3D对象检测和3D语义实例分割任务中。这些方法通过几何要素,利用点、体素或网格的表示来获得准确的3D语义。 受3D场景理解发展的启发,作者将学习到的几何先验引入基于图像的视觉任务的表示学习,利用稀疏卷积backbone用于预训练期间使用的3D特征。 本文的核心思想是在预训练过程中加入3D先验,其约束是在对比损失公式下应用的。通过利用现有RGB-D数据集中的多视图和图像几何对应关系来学习视图不变和几何感知表示。 主要贡献如下: (1)首次探索3D先验知识对2D图像理解任务的影响,展示了3D几何预训练对复杂2D感知(如语义分割、对象检测和实例分割)的好处。 当然作者也提到,本文虽然专注于室内场景理解,但可以为更一般的3D图像感知理解开辟新的方向。 本文仅做学术分享,如有侵权,请联系删文。

    77510编辑于 2022-03-11
  • 来自专栏机器视觉工坊

    感知

    环境感知了确保无人车对环境的理解和把握,无人驾驶系统的环境感知部分通常需要获取周围环境的大量信息,具体来说包括:障碍物的位置,速度以及可能的行为,可行驶的区域,交通规则等等。 无人车通常是通过融合激光雷达(Lidar),相机(Camera),毫米波雷达(Millimeter Wave Radar)等多种传感器的数据来获取这些信息,本节我们简要地了解一下激光雷达和相机在无人车感知中的应用 激光雷达是一类使用激光进行探测和测距的设备,它能够每秒钟向环境发送数百万光脉冲,它的内部是一种旋转的结构,这使得激光雷达能够实时的建立起周围环境的3维地图。 ? 通常来说,激光雷达以10Hz左右的速度对周围环境进行旋转扫描,其扫描一次的结果为密集的点构成的3维图,每个点具备(x,y,z)信息,这个图被称为点云图(Point Cloud Graph),如下图所示, 可行驶区域的检测目前的一种做法是采用深度神经网络直接对场景进行分割,即通过训练一个逐像素分类的深度神经网络,完成对图像中可行驶区域的切割。

    65020发布于 2020-07-28
  • 来自专栏阿沐教你学知识

    面试系列-3 限流场景实践

    今天呢,我们就不聊redis面试系列,我们一起来聊一聊限流操作以及使用场景。很奇怪哈,为啥突然转变画风了,之前一篇文章中提到 redis的限流操作,并没有实际给小伙伴们演示以及场景的使用演练。 当然想写这篇文章并不是空穴来风,实际的面试场景中是会被面试官问及到。 3 这个面试官肯定在搞我 目前限流常用的方式:计数器、滑动窗口、漏桶算法、令牌桶算法四种方案,下面我们逐一讲解下(ps:在之前公司已经实践过)。 fix_time + 1); // 批量执行 此操作是原子性的 $result = $redis->exec(); $current_count = isset($result[3] $result[3]:0; return $current_count < $this->request_limit; } 面试官:“必须给你一个赞,讲的确实明了,虽然还有一些瑕疵,但是细想更重要

    91910发布于 2021-05-28
  • 来自专栏橙光笔记

    Three.js教程(3):场景

    : custom document.body.appendChild( stats.dom ); gui.add(obj, 'x', -3, 3); gui.add(obj, 'y', - 3, 3); gui.add(obj, 'z', -3, 3); gui.add(obj, 'rotateX', 0, 360); gui.add(obj, 'rotateY', 0, 360 场景的属性和方法 创建场景很简单: var scene = new THREE.Scene(); 对于他的属性和方法也不是很多: 类型 名称 描述 默认值 属性 fog 场景中雾的效果 null 属性 () 把场景转换为JSON对象,可以供Three.js导入场景使用 - 方法 dispose() 清楚缓存数据 - THREE.Scene的属性并不多,你可能会问,之前把Mesh添加到Scene中使用到了一个 确实场景是有这个方法的,更准确的说这个方法是来自它的父类THREE.Object3D的,它是好多Three.js对象的直接或间接父类,所以了解它的属性和方法非常有必要,由于篇幅有限,这里就不再叙述了,你可以在这里看一看

    4.5K22发布于 2020-10-17
  • 来自专栏逍遥剑客的游戏开发

    Nebula3场景管理

    N3场景管理最为核心的一个类是GrphicsServer, 它包含一些"stage"和"View". Stage把图形实体(模型, 摄像机, 灯光)进行分类渲染. N3会提供了一些不同用途的Stage子类, 但你也可以根据程序需要自己来实现可见性查询机制. N3 画个东西真简单, 想画个模型, 创建出来设置一下位置扔给Stage就好了 this->model = ModelEntity::Create();   this->model->SetTransform 再往场景里扔个灯就好了: // attach a light entity  matrix44 lightTransform = matrix44::multiply(matrix44::scaling

    50560发布于 2018-05-23
  • 来自专栏全栈程序员必看

    unity3d场景制作

    这是最后的成果 以上图片资源均为资源商店免费获取 制作地形的方法 1创建相邻地形(主要用于地形的扩大) 2绘制地形(主要用于地貌的设置) 3绘制树(用于树木的绘制) 4绘制细节 (用于小草或小花的设置) 5地形设置(用于整体设置) 绘制的主要方面为2、3、4点 第2点: 不同地形是有不同纹理形成,在编辑地形层中选择自己喜欢的地形。 注意:法线贴图是地形纹理的进一步深化,可以加强地形的真实感 第3点 绘制树与绘制地形基本相同 第4点 绘制细节与前两者不同的是,除了细节纹理外,还有细节网格 对与地形的设计非常需要学习

    51820编辑于 2022-08-12
  • 场景感知驱动的下一代黑盒渗透Agent实战解析

    构建基于业务逻辑链路的渗透智能体架构 针对传统黑盒渗透的痛点,通过“像攻击者一样思考”的逻辑,设计了基于场景感知的黑盒漏洞挖掘整体架构。 场景塑造(从页面理解业务逻辑):将漏洞与业务强关联,提供上下文指引。 Agent根据历史请求推导功能点,构建API间依赖图(包括控制流如“登录->后台操作”,以及数据流如“下订单->修改订单”),生成具有特定业务场景属性的检测思路池。 具体执行策略设定为:赛段周期3小时,单次做题周期30分钟,单次并发做题数设定为3,并发进程数设定为4,在资源池中高效流转。 在注册场景(XBEN-025),成功识别并利用了处于注册控制流最后一步的SSTI渲染漏洞。

    35110编辑于 2026-04-04
领券