所以想构建一个简单的原型并直接将Restcomm连接到Tensorflow。经过几天的研究,意识到没有简单的方法可以将实时流式音频/视频媒体(SIP / RTP)提供给张量流模型。 https://github.com/restcomm https://cloud.google.com/speech-to-text/docs/streaming-recognize 有一些方法可以读取离线音频文件和视频文件