我目前正在阅读这篇文章,其中原始的点云坐标正在经历两种转换,输入转换和特征转换,转换本身由一个迷你点网和一个矩阵乘法组成,输入转换将其转换为nx3向量,而特征转换将其转换为nx64向量。然而,这两个转换在结构上本质上是相同的(tnet X matrixmultiply),那么我们怎么能说第一个转换转换输入,第二个转换作用于特征呢?
发布于 2020-04-23 20:59:13
这是一个老问题,但希望有人能找到有用的答案,我的理解是:
这两种变换都由输出矩阵的T-net组成,该矩阵在乘以点云时执行affine transform,将所有点云对齐到相同的输入或特征空间。T-net由PointNet分类体系结构中经过特征转换后的所有模块组成。共享MLP、最大池化和另一个MLP。
输入变换将所有不同的点云对齐到一个canonical space,有效地将点云围绕原点居中并对其进行缩放,以便网络训练所来自的所有点云都是标准化大小。
然后,特征变换执行相同的操作,现在使用已使用共享MLP嵌入到特征空间的点云。这是共享MLP的关键,因为它意味着输出可以理解给定点云中的所有点,并嵌入到特征空间中。然后,点云的64xn表示可以全部对齐到相同的特征空间。当共享的MLP在所有点云上训练时,它将嵌入到点云的更健壮的特征空间表示中。
对word embedding的理解真的帮助我理解了PointNet和类似的点云架构是如何工作的,因为将点云嵌入到特征空间非常相似。

https://stackoverflow.com/questions/50578212
复制相似问题