假设我有一系列的神经网络,产生对视频输入的一些解释(例如,分类对象并提供帧中每个人的姿态估计)。
我想要构建一个显示视频的应用程序,将网络的输出映射到视频上--也就是说,一个人用标签human和他们的摆姿 (关节和四肢)在他们周围行走。
我的问题是,设计这类应用程序的后端的最佳起点是什么?假设CNN的视频处理将在云端进行,并返回必须几乎实时显示的输出。
具体来说,我应该使用什么样的平台或语言,如果有任何考虑因素将决定哪种实现是最好的。
注意:我理解这个问题非常通用,但我只是想找个地方开始(假设我没有适当的软件开发培训)。
发布于 2018-12-21 09:51:57
如果您已经培训了对象检测/计算化模型,并且能够检测到所需的对象。
以下是检测对象并将其保存为视频的常用管道。
1. Read the video frames using opencv [You can use moviepy as well]
2. For each frame : a) Preprocess the frame before sending to the network
b) Get the output as coordinates
c) Use opencv to draw the predicted bounding box along with the classified label in the frame
d) Add the current frame to the new video_writer object of opencv
e) Finally save it as a video
3. Display the video如果我们计划创建一个web应用程序,它接受视频作为输入并实时动态显示预测,
使用web套接字将每个帧发送到服务器高端机器,如您所说的那样,处理图像,并将图像作为响应并在页面中显示
请通过下面给出的链接获得更多关于这方面的想法:
https://software.intel.com/en-us/articles/object-detection-on-drone-videos-using-caffe-framework
https://software.intel.com/en-us/articles/ai-developer-project-part-3-combating-distracted-driver-behaviorhttps://stackoverflow.com/questions/53853840
复制相似问题