搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏联远智维
AI+实时仿真——三维力场感知
通过摄像头抓取结构的三维应力场，现寻求有相关诉求的合作方。从想到这个idea开始，我们购买了手抛小飞机，进行了三维建模和对应的CAE仿真，后续通过模型降解实现边缘侧的部署，最终实现了通过摄像头获取小飞机的三维受力特征。
23910编辑于 2025-09-04
来自专栏一点人工一点智能
NeurIPS 2022 | GeoD：用几何感知鉴别器改进三维感知图像合成
01 介绍三维感知图像合成因其在三维世界建模中的潜力而受到越来越多的关注。与主要关注图像质量和多样性的2D相比[1,13–16,28]，3D感知生成也有望获取合成图像背后的精确的3D形状。 02 相关工作 2.1 三维感知图像合成近年来，三维感知图像合成受到了广泛的关注。与2DGANs的主要区别在于在生成器中使用了3D表示。传统的方法是以受监督的方式训练具有多视图数据或标记几何的网络，例如深度估计[7,26,27]和反向渲染[11,17,18,32]。 3.2 几何感知辨别回想一下，我们在鉴别器中引入了一个几何分支，为发生器提供三维监控信号。在这一部分，我们会介绍如何结合几何分支来构建一个几何感知鉴别器，以改进三维感知图像合成。 3.2.3 损失函数一言以蔽之，为了使鉴别器具有几何感知能力，生成器和鉴别器通过以下方式进行联合培训：其中 [20]是逻辑损失函数；公式（7）中的第三项是梯度罚函数。
89340编辑于 2022-12-27
来自专栏OpenMMLab
具身智能中的多模态三维感知思考
本期精彩从驾驶场景到室内场景，具身三维感知系统面对的是更复杂的室内语义，更多样的物体类别和朝向，以及大不相同的感知空间和需求。重新思考其中差异和数据基础，EmbodiedScan 团队构造了一套基于第一视角的多模态全场景三维感知系统/工具包，从数据标注到模型训练，从基准构建到任务评测，以大规模真实场景扫描和面向下游的全面标注为基础本期社区开放麦，我们特别邀请到上海人工智能实验室青年研究员王泰带来《具身智能中的多模态三维感知思考》的分享，该研究近期被 CVPR 2024 接收，更多精彩内容请锁定本周四晚 20:00 的社区开放麦直播分享内容 •从驾驶场景到室内场景：新的问题与挑战 •EmbodiedScan：首个多模态、基于第一视角的真实场景三维感知数据集 •Embodied Perceptron：适配任意帧输入的统一基线框架 • 图 2：EmbodiedScan 提供了一个多模态、基于第一视角的三维感知数据集，其中包含大量的真实扫描数据和全面且丰富的标注，从而构建了一个针对真实世界机器人基于语言的三维场景整体理解方面的评测基准。
1.4K11编辑于 2024-03-07
来自专栏媒矿工厂
VoxGRAF：基于稀疏体素的快速三维感知图像合成
GRAF 采用了 NeRF 中基于坐标的场景表示方法，提出了一种使用基于坐标的 MLP 和体渲染的 3D-aware GAN，将基于 3D 感知的图像合成推进到更高的图像分辨率，同时基于物理真实且无参数的渲染 http://mpvideo.qpic.cn/0b2ei4ad4aaa5uao2ab7crrvar6dhzdqapqa.f10002.mp4? 本文中的方法在不同分辨率下的结果如图 7 所示。图7 本文算法在连续视角下合成的视频： http://mpvideo.qpic.cn/0bc33yac4aaaeuap2ij77brvbxwdf3paalqa.f10002.mp4? http://mpvideo.qpic.cn/0bc3weadkaaasaaodaj7ivrvbmodgwyqania.f10002.mp4?
1.5K30编辑于 2022-11-07
来自专栏未来先知
伦敦大学提出 SAMa: 材料感知三维选择和分割！
为了补充这些数据，Eppel等人[18]从Open Images v7数据集[33]中提取纹理，并将其应用于ShapeNet仓库[10]中3D目标的随机部分。最近，Sharma等人[56]提出了Materialistic模型，该模型基于DINO-ViT[7]特征，并训练用于预测 Query 像素与其他自然图像中所有像素的材料相似性。神经特征融合场[59]和特征场蒸馏[32]提出了为NeRF配备一个辅助特征空间的方法，并且通过体积渲染使其与DINO[7]或CLIP[47]的特征相匹配。作者在图7中展示了作者方法的多视图一致性，并在表2顶部进行了数值测量。具体做法如下：在一个视图中进行一次点击操作，然后采样50个新的视图，在这些新视图中点击的3D点不会被遮挡。材料感知的3D高斯分布。对于3D高斯分布，作者使用了第5.1节中描述的材料分割步骤。
58510编辑于 2025-02-19
来自专栏机器学习算法与Python学习
机器学习(7)之感知机python实现
关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第二【Python】：排名第三【算法】：排名第四感知器PLA是一种最简单，最基本的线性分类算法（二分类）。 PLA是一个很基本的算法，应用场景很受限，只是作为一个引子来了解机器学习，后面有很多高级的算法，比如SVM和MLP，以及大热的deep learning，都是感知器的扩展。感知机python实现代码 #coding = utf-8 import numpy as np import matplotlib.pyplot as plt class showPicture: [1,1]] xArray = np.array([3,3,4,3,1,1]) xArray = xArray.reshape((3,2)) yArray = np.array([1,1,-1]) #感知机计算权值
1.8K51发布于 2018-04-04
来自专栏AI科技评论
活动 | 机器感知、三维点云如何与深度学习擦出火花？
机器人需要在这个过程中学会如何主动感知和控制，深度学习的流行也为探索这一问题提供了一种值得借鉴和学习的方法。 ? AI 科技评论按：ICRA 2018 正于近期在澳大利亚布里斯班举行。 AI 科技评论从议程进行不完全统计，机器感知与控制仍然是 ICRA 2018 的关注重点。等问题，这就涉及到非常多的问题，比如三维重建，视觉测距、对象分类、人类/物体的姿态估计、语义分割、匹配，识别和本地化等。也就是说，机器人需要在这个过程中学会如何主动感知和控制。在三维点云及即时检测、多任务检测上，深度学习对机器人的研究也有着不少先进成果。不论是机器感知，或是以三维点云为代表的技术，在利用深度学习探索的过程中，必然还是会遇到同样的问题。
94710发布于 2018-07-26
StereoLabs：重新定义三维感知的计算机视觉先锋
引言在当今快速发展的计算机视觉和机器人技术领域，三维空间感知已成为自动驾驶、AR/VR、智能监控等应用的核心技术需求。 StereoLabs作为一家专注于立体视觉解决方案的创新公司，凭借其先进的ZED系列深度相机和强大的SDK，正在为行业带来革命性的三维感知能力。云端服务扩展除了本地SDK，StereoLabs正在发展云端三维视觉服务，为移动设备和低算力终端提供远程三维感知能力。总结StereoLabs通过创新的立体视觉技术，为计算机视觉领域提供了强大而灵活的三维感知解决方案。关键词：StereoLabs,立体视觉,深度相机,ZEDSDK,计算机视觉,三维感知,深度估计,SLAM,机器人视觉,视觉感知
23010编辑于 2026-01-09
来自专栏未来先知
VideoScene：以三维感知跳跃流蒸馏策略破局，高效弥合从Sparse视图到三维场景的差距！
具体而言，作者设计了一种三维感知跳跃流蒸馏策略，以跳过耗时冗余信息，并训练一个动态去噪策略网络，以在推理过程中自适应地确定最佳跳跃时间步长。大量实验表明，VideoScene在保真度和速度方面均优于现有的视频扩散方法，涵盖了多个真实世界数据集[7, 11, 45]。为解决这些局限性，作者提出了VideoScene框架，该框架使用三维感知跳跃流蒸馏来整合三维先验知识，实现一致的三维视频生成，同时通过单步扩散去噪加速快速高质量生成。 3. 方法 3.1. 基于三维感知的LeapFlow蒸馏在一致性蒸馏训练[55]中，传统的噪声调度器从数据分布中采样初始真实值，并应用噪声通过正向扩散在随机时间步生成，具体方法如下：高斯噪声，和定义了随机插值 RealEstate10K是一个从YouTube下载的数据集，分为67,477个训练场景和7,289个测试场景。
47900编辑于 2025-05-27
来自专栏音视频技术
【今晚7点】智能感知编码优化与落地实践
感知编码技术基于人眼主观视觉感知针对视频内容编码进一步优化，能更加有效的降低码率与带宽成本，主观上提升视频内容质量与用户体验，是当前互联网各大视频平台重点关注与应用的优化手段之一。今晚7点，我们邀请到了百度智能云视频技术架构师，视频处理和编解码算法技术负责人邢怀飞老师为大家讲述感知编码技术背景、核心技术和技术选型，并详细介绍百度智能云在智能感知编码优化方面的探索与应用落地实践
44920编辑于 2023-04-12
来自专栏RTMP推送
机器人视频感知架构深度解析：7条技术法则，打造低延迟实时感知与交互
因为不论是AGV、巡检无人机、协作机械臂，还是类人服务机器人，感知永远是智能的入口，而感知的最主要来源仍是多通道视频和音频数据。基于我们在行业落地的经验，结合对机器人技术演进的观察，本文总结出一个面向实时音视频维度的“机器人公司 7 条技术生存法则”，希望能为行业带来一些启发。这正是为什么，我们在总结行业经验后，提出了**“机器人公司 7 条技术生存法则”**，帮助企业在设计感知和控制链路时建立系统性思维。这7条法则覆盖从团队架构到协议栈、从实时性能到部署效率，都是企业能否撑过洗牌期的关键。如果你的机器人项目正面临弱网卡顿、延迟过高、协议兼容困难等问题，那么这7条法则，或许是你重新审视架构、打造长期竞争力的起点。
37510编辑于 2025-08-27
来自专栏AI SPPECH
7：灵波空间感知技术：基于MDM技术的高精度深度估计与透明物体感知
，特别是在透明反光物体感知方面的突破性进展。反光表面校正：校正反光表面的深度估计误差材质感知：自动识别不同材质并应用相应的深度估计策略 2.2 全新要素二：透明反光物体感知灵波空间感知技术实现了对透明反光物体的精准感知：玻璃物体：准确估计玻璃的深度和位置技术深度拆解与实现分析 3.1 核心架构设计灵波空间感知技术采用了模块化的端到端架构，主要包括以下组件： 3.2 掩码深度建模（MDM）技术实现掩码深度建模技术是灵波空间感知技术的核心创新之一：掩码生成未来趋势与前瞻预测 6.1 技术发展趋势基于灵波空间感知技术的创新，未来深度估计技术可能朝着以下方向发展：更精确的材质感知：进一步提高对各种材质的感知能力更远的深度范围：拓展深度估计的有效范围多模态融合透明物体感知, 单目深度估计, 实时推理, ModelScope, 深度图还原
11910编辑于 2026-02-05
来自专栏点云PCL
当视觉遇到毫米波雷达：自动驾驶的三维目标感知基准
公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享。侵权或转载联系微信cloudpoint9527。摘要传感器融合对于自动驾驶车辆上的准确和鲁棒的感知系统至关重要。从摄像机获取丰富的语义信息，以及从雷达获取可靠的三维信息，潜在地可以实现对于3D目标感知任务的高效、廉价和便携的解决方案。它包含不同的光照条件，对于基于视觉的对象感知方法具有挑战性，因此为基于传感器融合的对象感知算法提供了一个很好的基准。用于三维点云语义分割的标注工具和城市数据集 ROS2入门之基本介绍固态激光雷达和相机系统的自动标定激光雷达+GPS+IMU+轮速计的传感器融合定位方案基于稀疏语义视觉特征的道路场景的建图与定位自动驾驶中基于激光雷达的车辆道路和人行道实时检测（代码开源）用于三维点云语义分割的标注工具和城市数据集更多文章可查看：点云学习历史文章大汇总 SLAM及AR相关分享 TOF相机原理介绍 TOF
1.2K11编辑于 2023-12-12
来自专栏DrugOne
. | 引导等变扩散驱动的靶标感知三维分子生成
现有的分子生成模型在结构基础的药物设计中常常忽视结构合理性和药物样性质，因而生成不真实的三维分子。近年来，几何深度学习推动了基于蛋白口袋的三维分子生成方法的发展，但已有模型往往存在结构扭曲、缺乏药物样性质等问题。结果 DiffGui 框架概述 DiffGui 是一种非自回归的目标感知分子生成模型，基于等变扩散框架构建。讨论生成能够在蛋白口袋中稳定结合的三维分子是药物设计中的重大挑战。
31610编辑于 2025-09-02
来自专栏机器视觉工坊
感知
环境感知了确保无人车对环境的理解和把握，无人驾驶系统的环境感知部分通常需要获取周围环境的大量信息，具体来说包括：障碍物的位置，速度以及可能的行为，可行驶的区域，交通规则等等。无人车通常是通过融合激光雷达（Lidar），相机（Camera），毫米波雷达（Millimeter Wave Radar）等多种传感器的数据来获取这些信息，本节我们简要地了解一下激光雷达和相机在无人车感知中的应用 Support Vector Machine，SVM）对聚类的特征进行分类，最近几年由于深度学习的发展，业界开始使用特别设计的卷积神经网络（Convolutional Neural Network，CNN）对三维的点云聚类进行分类对于反射点稀疏的目标（比如说行人），基于点云的分类并不可靠，所以在实践中，我们往往融合激光雷达和相机传感器，利用相机的高分辨率来对目标进行分类，利用Lidar的可靠性对障碍物检测和测距，融合两者的优点完成环境感知
64520发布于 2020-07-28
来自专栏机器之心
CVPR 25 |全面提升视觉感知鲁棒性，生成模型快速赋能三维检测
其中，基于纯视觉的自动驾驶方案只需使用多视角图像进行环境感知与分析，具有成本低、效率高的优势，因而备受关注。然而在实际应用中，视觉感知模型的泛化能力至关重要。然而，在借助该技术将感知任务的训练图像扩充到各类分布偏移场景时，必须确保物体的三维信息与原始标注相匹配，否则就会给视觉感知模型带来额外噪音干扰。技术方案基于前面的讨论，我们不禁思考：要怎么去设计一个无需额外训练的可控生成方法，在准确保留物体三维信息的前提下，实现感知模型训练图像的可控扩充？图 5 基于KITTI数据集的消融实验示意图结果可视化进一步提供了单目和多目的可视化结果如下图所示：图 6 基于KITTI数据集的单目三维检测图像增广示例图 7 基于nuScenes数据集的多目三维检测图像增广示例基于上述实验结果，有理由相信通过对视觉三维检测训练数据的有效扩充，该论文所设计的方法能够有效地提高视觉感知模型的泛化性能，从而提升三维检测在自动驾驶中的落地和应用。
39910编辑于 2025-05-25
来自专栏AI科技评论
用于形状精确三维感知图像合成的着色引导生成隐式模型 | NeurIPS2021
在多个数据集上实验表明，在捕获精确的底层三维形状的同时，ShadeGAN做到了实现具备真实感的三维感知图像合成。它们也无法表示明确的三维物体形状。为了克服这些限制，研究人员提出了新的深度生成模型，将3D场景表示为神经辐射场。3D感知生成模型可以显式控制视点，同时在图像合成过程中保持3D一致性。 ShadeGAN可以总结如下：1）使用满足多重照明约束的着色引导生成模型，从而解决现有三维感知图像合成中形状-颜色模糊问题。ShadeGAN能够学习更精确的3D形状，从而更好地进行图像合成。生成三维感知图像合成生成对抗网络（GANs）可以生成高分辨率的真实照片图像，但对摄像机视点的明确控制却很匮乏。为了能够以3D感知的方式合成图像，许多最新方法研究了如何将3D表示合并到GANs中。但这种方法需要低效的实例特定训练，并恢复深度贴图，而不是完整的三维表示。本文提出的三维感知生成模型也可以作为无监督三维形状学习的有力方法。
1K10编辑于 2022-03-03
来自专栏计算摄影学
三维重建7-立体匹配3
三维重建6——立体匹配2中，我主要阐述了各种经典的局部代价聚合方法。三维重建5——立体匹配1中所提到的，立体匹配的经典流程如下。我们之前所讲解的局部法(上图左边路径)虽然已经取得了不错的成就，但由于仅仅利用了图像的局部信息，始终在一些场景下会出现较为明显的错误。如果在(x-1,y)处可能的视差值有7个，那么这个方向上的代价就是：如果每次只用1个方向的信息来作为代价，你可以想见肯定会出现很多错误。三维重建6——立体匹配2中已经介绍了局部一致性(Local Consistant)约束给局部聚合方法带来的效果提升。三维重建5——立体匹配1 71. 三维重建6——立体匹配2 文章中以图片形式截取了关键论文的标题等信息，如有需要你可以直接下载阅读
73240编辑于 2022-04-27
来自专栏AI科技评论
干货 | 平面图像的感知已经基本解决了，那三维数据的呢？
你要如何让你的车感知行人、骑自行车的人以及其他车辆，以安全行驶呢？显而易见，我们需要的是能够直接以 3D 方式操作的计算机视觉方法，而这就提出了三个明显的挑战：3D 数据的感知、表示和理解。感知 3D 数据的采集是一个复杂的过程。虽然 2D 摄像价格便宜且应用广泛，但是 3D 感知通常需要专用硬件设施。 ? 双目视觉使用了多个相机，并对感知目标位置的转移进行了评估，来计算深层信息 1. 将 3D 感知问题转换为 2D 感知问题是一个聪明的做法，但在某种程度上，这种方法仍然需要你推理出一个目标的 3D 几何。通过连接这两个向量，每个点都能感知到其全局语义和局部特征，从而使网络能够学习有助于分割的附加的、更有意义的特征。 ?
1K51发布于 2019-10-31
耕地土壤墒情监测站：三维感知 + 动态响应，构建田间水分精准管理新范式
耕地土壤墒情监测站作为田间水分信息的 “立体感知终端”，其核心优势在于突破传统单点、静态监测的局限，通过多维度技术融合实现土壤水分的高精度、全周期表征。
31700编辑于 2025-08-04

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

AI+实时仿真——三维力场感知

NeurIPS 2022 | GeoD：用几何感知鉴别器改进三维感知图像合成

具身智能中的多模态三维感知思考

VoxGRAF：基于稀疏体素的快速三维感知图像合成

伦敦大学提出 SAMa: 材料感知三维选择和分割！

机器学习(7)之感知机python实现

活动 | 机器感知、三维点云如何与深度学习擦出火花？

StereoLabs：重新定义三维感知的计算机视觉先锋

VideoScene：以三维感知跳跃流蒸馏策略破局，高效弥合从Sparse视图到三维场景的差距！

【今晚7点】智能感知编码优化与落地实践

机器人视频感知架构深度解析：7条技术法则，打造低延迟实时感知与交互

7：灵波空间感知技术：基于MDM技术的高精度深度估计与透明物体感知

当视觉遇到毫米波雷达：自动驾驶的三维目标感知基准

. | 引导等变扩散驱动的靶标感知三维分子生成

感知

CVPR 25 |全面提升视觉感知鲁棒性，生成模型快速赋能三维检测

用于形状精确三维感知图像合成的着色引导生成隐式模型 | NeurIPS2021

三维重建7-立体匹配3

干货 | 平面图像的感知已经基本解决了，那三维数据的呢？

耕地土壤墒情监测站：三维感知 + 动态响应，构建田间水分精准管理新范式

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

AI+实时仿真——三维力场感知

NeurIPS 2022 | GeoD：用几何感知鉴别器改进三维感知图像合成

具身智能中的多模态三维感知思考

VoxGRAF：基于稀疏体素的快速三维感知图像合成

伦敦大学提出 SAMa: 材料感知三维选择和分割 ！

机器学习(7)之感知机python实现

活动 | 机器感知、三维点云如何与深度学习擦出火花？

StereoLabs：重新定义三维感知的计算机视觉先锋

VideoScene：以三维感知跳跃流蒸馏策略破局，高效弥合从Sparse视图到三维场景的差距！

【今晚7点】智能感知编码优化与落地实践

机器人视频感知架构深度解析：7条技术法则，打造低延迟实时感知与交互

7：灵波空间感知技术：基于MDM技术的高精度深度估计与透明物体感知

当视觉遇到毫米波雷达：自动驾驶的三维目标感知基准

. | 引导等变扩散驱动的靶标感知三维分子生成

感知

CVPR 25 |全面提升视觉感知鲁棒性，生成模型快速赋能三维检测

用于形状精确三维感知图像合成的着色引导生成隐式模型 | NeurIPS2021

三维重建7-立体匹配3

干货 | 平面图像的感知已经基本解决了，那三维数据的呢？

耕地土壤墒情监测站：三维感知 + 动态响应，构建田间水分精准管理新范式

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

伦敦大学提出 SAMa: 材料感知三维选择和分割！