我正在阅读一篇论文,以了解将原始点云数据转换为机器学习可读的数据集的方法。在这里,我想问你一个问题,我在研究论文PointNet:对三维分类和分割点集的深入学习。我想要了解的是,在PointNet体系结构中(如下图所示),在第一步中,在将原始点云数据引入算法之后,数据进入“输入转换”部分,其中一些进程发生在that (Transformation )和矩阵乘法中。我的问题是,“输入转换”和“特征转换”部分发生了什么?输入数据是什么,输出数据是什么?请解释一下这一点,因为这是我的主要问题。
你可以找到doi: 10.1109/CVPR.2017.16的研究论文。

发布于 2022-11-20 19:57:13
我也在努力解决这个问题,认为这是一个不完整的答案。我认为带有3x3矩阵的输入转换器作用于空间变换(通过一些仿射变换),即nx3输入(三维思想x,y,z)。直觉上,你可能会这样想:假设你给它一个旋转的物体(比如倒立的椅子),它会将物体去旋转成一个典型的表示(直立的椅子)。它是一个3x3矩阵,以保持输入的维数。这样,输入就会对姿态(透视)的变化保持不变。在此之后,共享的mlps (本质上是1x1 conv)增加了从nx3到(nx64)的特性数量,下一个T-net的操作与在另一个示例中相同,它将高维特征空间移动到规范形式。至于盒子到底是怎么工作的,我正在读代码,会让你知道的。
https://stackoverflow.com/questions/73330861
复制相似问题