我在试着理解这种势利球堵塞算法。该算法使用两个区域R1和R2,定义如下:
R1是在元音之后的第一个非元音之后的区域,如果没有这样的非元音,则为单词末尾的空区域。 R2是在R1中元音后面的第一个非元音之后的区域,如果没有这样的非元音,则为单词末尾的空区域。 http://snowball.tartarus.org/texts/r1r2.html
例子有:
b e a u t i f u l
|<------------->| R1
|<----->| R2
b e a u t y
|<->| R1
->|<- R2
a n i m a d v e r s i o n
|<----------------------------------------->| R1
|<--------------------------------->| R2
s p r i n k l e d
|<------------->| R1
->|<- R2
e u c h a r i s t
|<--------------------->| R1
|<--------->| R2我的问题是,为什么弹力中的"kled“和圣体中的"harist”被定义为R1?我以为正确的结果会是“墨水”和"arist"?
发布于 2015-08-06 07:20:42
你应该再读一遍定义,上面写着:
R1是继元音之后的第一个非元音之后的区域.
不:后面跟着一个元音。
在sprinkled中,元音后面的第一个非元音是n,所以后面的区域是kled.
对于eucharist,元音后面的第一个非元音是c,所以后面的区域是harist。
https://stackoverflow.com/questions/31848056
复制相似问题