我试着通过不同的地名词典查找列表条目(也使用了一些Cerole插件),例如“数据质量”。然而,当在测试集上使用地名词典时:_ Data Quality。数据质量。数据的准确性和质量。高质量数据。_
只找到前两个条目。显然,我希望找到上面提到的测试集中的所有条目。问题是,我的问题是否可以通过地名词典来解决,或者是否需要语法规则来实现这一目的。在文献建议的术语“虚拟化”下,我找不到答案。
提前谢谢你,
发布于 2015-12-30 21:42:34
地名词典(通常)只是匹配列表中的单词。您应该将所有这些表单添加到地名词典列表中,或者与语法规则相结合,以处理“数据质量”、“数据质量”等。
也许你遇到的真正问题是如何构建正确的字典-这很难,而且已经过时了,至少在我的经验中是这样的:)
对于字典,你应该检查带有同义词的字典,虚拟化特定的术语是专门的网站,dbpedia/LOD-like repositories的术语等。
还可以看看棕色集群,主题建模,word2vec也许你可以用这些工具找到或构建正确的同义词短语。
https://stackoverflow.com/questions/34509533
复制相似问题