首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >音素级发音正确性微软语音

音素级发音正确性微软语音
EN

Stack Overflow用户
提问于 2021-03-23 11:22:17
回答 1查看 372关注 0票数 1

我正在玩微软认知服务(使用Python )的语音评估服务。目前,我可以根据我在请求中传递的参考文本显示音素分解(以及信心分数)。我的问题是:有什么方法可以得到它的真正的音素分解吗?换句话说..。作为输出,可以得到哪些音素被检测到,而不是系统等待根据参考文本识别的音素?

这个图片显示了我目前的输出。但是,我不想得到构成单词“不能”的音素,而是想得到输出中所传递的单词的音素

代码语言:javascript
复制
            {
                "Word": "can't", 
                "AccuracyScore": 85.0, 
                "ErrorType": "None", 
                "Offset": 39900000, 
                "Duration": 6500000, 
                "Phonemes": [
                    {
                        "Duration": 1300000, 
                        "Phoneme": "k", 
                        "AccuracyScore": 89.0, 
                        "Offset": 39900000
                    }, 
                    {
                        "Duration": 800000, 
                        "Phoneme": "aa", 
                        "AccuracyScore": 86.0, 
                        "Offset": 41300000
                    }, 
                    {
                        "Duration": 1600000, 
                        "Phoneme": "n", 
                        "AccuracyScore": 74.0, 
                        "Offset": 42200000
                    }, 
                    {
                        "Duration": 2500000, 
                        "Phoneme": "t", 
                        "AccuracyScore": 89.0, 
                        "Offset": 43900000
                    }
                ]
            }, 

提前感谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-03-29 09:27:32

翻阅语音评估样本代码的文档,我们似乎可以通过打印reference_text得到演讲者所说的话。

您还可以通过json()(pronunciation_config.to_json())来获取所有参数(包括其中的reference_text )。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66762152

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档