我正在尝试实现用于目标检测和跟踪的这种方法。我不能把我的心思集中在细节上。我试图寻找这篇文章的评论和解释。我不相信的是:
对于时间信息,我们从过去的5个时间戳中提取所有的3D点。因此,我们的输入是一个由时间、高度、X和Y组成的四维张量。对于我们的早期融合模型和后期融合模型,我们使用Adam优化器从零开始训练,学习速率为1e-4。该模型是在4台Titan XP GPU服务器上训练的,批处理大小为12。
我知道CNN的输入如下
batch_size,频道,X,Y
但在这里他们正在考虑
时间,频道,X,Y
然后他们提到批次的大小是12!我不明白的是,他们在哪里考虑的batch_size和它代表的5个时间戳。
我希望有人能提供洞察力。
因为他们的数据集不是开源的,所以我正在研究KITTI跟踪基准。
发布于 2019-06-27 13:01:47
如果考虑tf.nn.conv3d,则输入形状为:
形状批次,in_depth,in_height,in_width,in_channels
您可以看到批处理维度的发展方向,并且您可以按照自己的意愿对待in_depth。对于时态任务,可以说这代表了一些时间步骤。
好吧,特别是在他们的情况下。他们有一个点云。每个点(或体素)处于(X, Y)位置。这个数据点也有height。他们非常具体地说:
“.并将高度维数视为通道维数”
因此,如果我们使用通道-最后标记(作为默认的TensorFlow文档),那么我们就有了[X, Y, height] (即3D点)。然后,他们说:
“.关于时间信息,我们从过去的5个时间戳中提取了所有的3D点”
这意味着我们需要一个时间维度,例如,[time, X, Y, height],这正是他们所说的(除非他们使用通道-第一符号)。有了这个四维张量,我们可以使用三维卷积。然而,我们通常需要它们在批量的上操作,而不是在单样本上操作。因此产生了批处理维度:[batch, time, X, Y, height]。特别是在他们的例子中,他们与[12, 5, X, Y, height]一起训练,在那里batch=12和time=5。
https://stackoverflow.com/questions/56790829
复制相似问题