首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >三维卷积神经网络的实现

三维卷积神经网络的实现
EN

Stack Overflow用户
提问于 2019-06-27 12:18:52
回答 1查看 230关注 0票数 0

我正在尝试实现用于目标检测和跟踪的这种方法。我不能把我的心思集中在细节上。我试图寻找这篇文章的评论和解释。我不相信的是:

对于时间信息,我们从过去的5个时间戳中提取所有的3D点。因此,我们的输入是一个由时间、高度、X和Y组成的四维张量。对于我们的早期融合模型和后期融合模型,我们使用Adam优化器从零开始训练,学习速率为1e-4。该模型是在4台Titan XP GPU服务器上训练的,批处理大小为12。

我知道CNN的输入如下

batch_size,频道,X,Y

但在这里他们正在考虑

时间,频道,X,Y

然后他们提到批次的大小是12!我不明白的是,他们在哪里考虑的batch_size和它代表的5个时间戳。

我希望有人能提供洞察力。

因为他们的数据集不是开源的,所以我正在研究KITTI跟踪基准。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-27 13:01:47

如果考虑tf.nn.conv3d,则输入形状为:

形状批次,in_depth,in_height,in_width,in_channels

您可以看到批处理维度的发展方向,并且您可以按照自己的意愿对待in_depth。对于时态任务,可以说这代表了一些时间步骤。

好吧,特别是在他们的情况下。他们有一个点云。每个点(或体素)处于(X, Y)位置。这个数据点也有height。他们非常具体地说:

“.并将高度维数视为通道维数”

因此,如果我们使用通道-最后标记(作为默认的TensorFlow文档),那么我们就有了[X, Y, height] (即3D点)。然后,他们说:

“.关于时间信息,我们从过去的5个时间戳中提取了所有的3D点

这意味着我们需要一个时间维度,例如,[time, X, Y, height],这正是他们所说的(除非他们使用通道-第一符号)。有了这个四维张量,我们可以使用三维卷积。然而,我们通常需要它们在批量的上操作,而不是在单样本上操作。因此产生了批处理维度:[batch, time, X, Y, height]。特别是在他们的例子中,他们与[12, 5, X, Y, height]一起训练,在那里batch=12time=5

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56790829

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档