我的选择是用户探索模拟3D环境的视频(类似于Sims电子游戏),我的任务是能够使用tensorflow框架对每个房间进行分类。例如,如果用户在环境中的某个区域上悬停,模型应该能够分类它是否是一条安全线路

或行李托运等。

我对机器学习算法和技术相当陌生,但是我得到了一个工作的VGG16 CNN模型,它能够描述(给定标记的输入数据)视频剪辑中的参与者,而且我希望将其重新加工成环境分类。在这样的框架下,这样的事情可能发生吗?我还没有决定是否应该从房间/环境的不同角度收集图像,并使用VGG16 16/Resnet50 50对每幅图像进行整体标记和训练,还是使用包围框实现某种found /YOLO模型,以便根据屏幕上发现的已知对象对环境进行分类。实际上,我并不局限于给定的tensorflow框架,因此如果有更好的方法来解决这个问题,如果需要的话,我可以从头开始重新创建一个新的代码环境。
发布于 2021-06-28 07:43:14
这取决于你的目标:如果目标仅仅是识别环境,那么首先选择一个简单的图像识别模型。此外,模拟环境比真实环境更干净(没有阴影,没有噪音)。因此,有很好的机会达到非常好的结果与一个快速的模型(如盗梦空间),也将有一个很好的处理时间。
https://datascience.stackexchange.com/questions/97182
复制相似问题