我正在玩微软认知服务(使用Python )的语音评估服务。目前,我可以根据我在请求中传递的参考文本显示音素分解(以及信心分数)。我的问题是:有什么方法可以得到它的真正的音素分解吗?换句话说..。作为输出,可以得到哪些音素被检测到,而不是系统等待根据参考文本识别的音素?
这个图片显示了我目前的输出。但是,我不想得到构成单词“不能”的音素,而是想得到输出中所传递的单词的音素
{
"Word": "can't",
"AccuracyScore": 85.0,
"ErrorType": "None",
"Offset": 39900000,
"Duration": 6500000,
"Phonemes": [
{
"Duration": 1300000,
"Phoneme": "k",
"AccuracyScore": 89.0,
"Offset": 39900000
},
{
"Duration": 800000,
"Phoneme": "aa",
"AccuracyScore": 86.0,
"Offset": 41300000
},
{
"Duration": 1600000,
"Phoneme": "n",
"AccuracyScore": 74.0,
"Offset": 42200000
},
{
"Duration": 2500000,
"Phoneme": "t",
"AccuracyScore": 89.0,
"Offset": 43900000
}
]
}, 提前感谢
https://stackoverflow.com/questions/66762152
复制相似问题