假设您想要接受如下所示的CMU's phonetic data set输入:
ABERRATION AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z
ABERT AE1 B ER0 T
ABET AH0 B EH1 T
ABETTED AH0 B EH1 T IH0 D
ABETTING AH0 B EH1 T IH0 NG
ABEX EY1 B EH0 K S
ABEYANCE AH0 B EY1 AH0 N S(单词在左边,右边是一系列音素,key here)
你想用它作为机器学习系统的训练数据,机器学习系统将接受新单词并猜测它们在英语中的发音。
这对我来说不是那么明显,至少因为没有一个固定的字母标记大小,这可能会映射到一个音素。我有一种感觉,与马尔可夫链有关的东西可能是正确的方法。
你会怎么做呢?
发布于 2009-04-05 23:07:17
这个问题被称为字素到音素的转换,是Natural Language Processing的一个子问题。谷歌brings up几篇论文。
发布于 2009-03-23 14:58:37
不完全是我的领域,但也许可以构建一个具有几层的神经网络-前面的层猜测单词的连续音节,后面的层猜测所述音节的发音。
对于数字数据,建立ANFIS学习神经网络相当简单,对于文字/语音数据,任务无疑要复杂几个数量级。
https://stackoverflow.com/questions/673617
复制相似问题