我用crf++表示中文命名实体recognition.The,列车文件的第一列是token代表当前单词,我看到有人在第一列只用了一个汉字,但也有人用了很多像中国这样的汉字。
发布于 2015-11-16 13:06:03
中文单词可以是1个汉字,也可以是多个汉字:
中代表一个英文单词--中间。
国代表另一个英语单词- country。
中国代表英语单词--中国。
它们是相同的当前词-就像‘中国’有5个英文字符,中国有2个中文字符-两者都是cft++中的当前词。
https://stackoverflow.com/questions/33728677
复制相似问题