我正在为斯特拉斯堡的CDS开发一个自然语言搜索引擎。(斯特拉斯堡天文数据中心)
我想知道斯坦福的词性标记器是如何标记缩略语的,因为缩略语有时被标记为NNP,有时被标记为NN。
我不能确切地找到程序员是如何决定像"CDS“或"NASA”这样的缩写是NNP还是NN的。
如果有人能在这个问题上帮助我,我会很高兴的。:)
祝你今天愉快。
发布于 2017-05-12 05:30:27
词性标记器是一个统计模型,它是根据“华尔街日报”上的数千个句子进行训练的。它可能会受到一些因素的影响,例如单词中出现的字符序列以及句子中单词周围的单词。
https://stackoverflow.com/questions/43871328
复制相似问题