我想要做的是..
数据集:手持棍子的图片,我知道关节的3d位置,或每张图片的3D姿势。照片是从相同的位置拍摄的,所以手是唯一能移动的。输入:一张手的图片输出: 3D手势这是可能的吗,如果是的话,这是如何做到的?因为我是ML的新手,所以我想得到一些好的理解的想法。谢谢!
发布于 2017-11-13 09:23:40
这应该是可能的,但这将是一个艰难的研究项目。
由于该问题需要如此复杂的输出,因此使用机器学习方法解决该问题将需要大量的训练示例,而不是手动生成的。一个好的方法可能是制作一个小程序,它可以3D渲染具有随机照明、随机手大小等姿势的手的图像,然后将数百万张这些训练图像馈送到具有深度学习的卷积神经网络,其中最终输出神经元对姿势进行编码。
使用相同的程序,另一种方法是对姿势进行梯度下降,反复渲染姿势,直到获得最佳匹配。这就是生成模型。它不涉及神经网络,但它可能会很慢。毫无疑问,还有其他方法。
如果你感兴趣,微软一直在解决这个问题,以支持新类型的Xbox Kinect游戏:https://www.microsoft.com/en-us/research/project/fully-articulated-hand-tracking/
总而言之,如果你是计算机视觉和机器学习的新手,我建议你先从更简单的挑战开始。
https://stackoverflow.com/questions/47250641
复制相似问题