我对Google视频智能API的人脸检测模型有问题。
我正在使用Python 3.6.5和google-cloud-videointelligence==1.15.0。
偶尔,我会从人脸检测模型中得到一个错误的反应。我通过使用google.protobuf.json_format.MessageToDict()将其转换为字典来解析API中的响应。我预计会出现以下两种行为之一:
答:如果视频中有人脸,我希望结果在键'FaceDetectionAnnotations'下面,并采用字典字典的形式;外部字典的键是“段号”(一个整数),内部字典看起来如下所示:
{'coordinates': {'left': 0.3432,
'top': 0.075,
'right': 0.6667,
'bottom': 0.7435},
'labels': {'confidence': 1.0,
'attributes': [{'name': 'glasses', 'confidence': 0.041921083},
{'name': 'headwear', 'confidence': 0.10601594},
{'name': 'eyes_visible', 'confidence': 0.9976739},
{'name': 'mouth_open', 'confidence': 0.005100015},
{'name': 'looking_at_camera', 'confidence': 0.9647807},
{'name': 'smiling', 'confidence': 0.017670842}]}}如果视频中没有脸,我希望结果中没有这样的'FaceDetectionAnnotations'键。
然而,我偶尔会看到第三种响应,结果中存在'FaceDetectionAnnotations'键(这意味着人脸检测模型实际上检测了人脸),但是每个内部字典都是完全空的。每个段仍然有一个内部字典,但是它们不包含任何通常的信息,例如分段的开始和结束时间,或者任何坐标或置信值。
我只看到这个问题的视频,他们有脸在他们。
我可以确认这个问题存在于Google的原始响应中(在用MessageToDict()函数解析之前),我不知道是什么原因造成的。下面是一个显示这个问题的示例视频的链接。
如果有人以前见过这样的东西,或者知道如何解决这个问题,我会非常感激的。
发布于 2020-10-21 09:58:41
目前,关于您所关心的问题,这里还有一个悬而未决的问题。在那里,工程团队正在调查它,您可以跟踪它的进展,通过上面链接的线程。
https://stackoverflow.com/questions/64357733
复制相似问题