这个问题遵循前一个问题,但不同。Synopse's delphi连字符非常快速,并且构建在OpenOffice 使用TeX连字符的libhnj库上。
一个简单的测试是:
如果我输入‘发音’,合成连字符输出'pro=nun=ci=ation‘(4个可能的连字符或音节)。//(非“pro=nun=ci=a=tion”,5个连字符或音节)。
我读过两篇关于Tex连字符算法在教学大纲中使用的论文(这里和这里)。作者认为音节化的准确率约为95%。我测试Synopse连字符只用于计算CMU发音词典上的音节,但只有大约53%的准确性。
为什么结果会有很大的不同?
我用一种比较详细的方式再现了我的方法。
我解析CMU发音字典来计算所有的单词数。CMU dic类似于:
PRONOUNS P R OW1 N AW0 N Z
PRONOVOST P R OW0 N OW1 V OW0 S T
PRONTO P R AA1 N T OW0
PRONUNCIATION P R OW0 N AH2 N S IY0 EY1 SH AH0 N
PRONUNCIATION(1) P R AH0 N AH2 N S IY0 EY1 SH AH0 N我将得到这样的结果:
PRONOUNS=2
PRONOVOST=3
PRONTO=2
PRONUNCIATION(1)=5 // will be ignored
PRONUNCIATION=5 // use this one与Synopse连字符库相比,带括号的单词将被忽略。它们是替代的或次要的发音(变体)。
类似地,我将使用连字符库来计算CMU字典中每个单词的音节数。然后我比较这两个人,看看有多少匹配。不同音节数的单词记录如下:
...
94814 cmu PROMULGATED=4 | PROMULGATED=3 Synopse Hyphenation
94821 cmu PRONGER=2 | PRONGER=1 Synopse Hyphenation
94829 cmu PRONOUNCES=3 | PRONOUNCES=2 Synopse Hyphenation
94833 cmu PRONTO=2 | PRONTO=1 Synopse Hyphenation
94835 cmu PRONUNCIATION=5 | PRONUNCIATION=4 Synopse Hyphenation
...CMU的总行数为123611 (不包括带括号的行和没有有意义单词的行,如引号行'(') )。相同单词的总音节数: 57870。
CMU可能不是音节数的标准。在这个测试中,(123611-57870)/123611=53.183%.这与作者在上述论文中所述的准确率有很大的不同。当然,他们在测试中使用了另一个数据库(CELEX)。为什么结果会如此不同?
Synopse连字符库非常快。我想进一步了解这是否是由于模式文件(最初用于连字符的dic文件来自OpenOffice中使用的libhnj )。还是作者使用了不同的字典文件?
发布于 2012-04-16 14:50:35
简而言之,我认为,我们在2009年尖峰论文中报告的结果与在这里报告的结果之间的准确性差异如此之大,是因为我们培训了该方法,而不是使用以前的培训产生的模式(据我所知,这就是您在这里所做的)。
本文第三页(pg.176)简要介绍了我们如何进行培训以获得我们的模式,更详细地介绍了我论文的4.3节,您可以在这里找到:2008.pdf。
https://stackoverflow.com/questions/10159414
复制相似问题