我有大约三百万字来自于许多论文研究。
我想根据元数据对研究进行过滤。
这项研究是关于汽车、书籍、食品的。
例如,我有一个带有元数据Toyota的文档。
我有另一个带有元数据Toiota的文档
请注意,Toiota与Toyota相同
请问有哪些方法可以解决这个问题?
我试过的
我用词干来取词根。
我的问题
词干只对有意义的词起作用。例如,eating, eat, ate。但是当这个词没有像Toyota那样的意思时,它的词根就是完全相同的词。
另一个问题
在这种情况下,阀杆也不起作用:
美国并不等于美国,但从逻辑上讲,它们是一样的。
有谁有更好的方法吗?
我不知道StackOverFlow中哪些可用的标记可以解决我的问题,所以欢迎您添加标记。
更新1
我想在gooogle里搜索这个问题,但是我不知道搜索时正确的单词,你能帮我弹一下吗?
发布于 2014-08-21 17:48:22
如果你想让Toiota的意思和丰田( Toyota )一样,有几种选择:
对于美国/美国,您可能需要一个同义词文件(国家及其缩写),并为每个文档添加同义词。另一种方法是取单词并自动缩写,并将其添加到索引中。示例
abbrev('United States') = {'united,'states','us'} --take first letter of each word in multi-part words
abbrev('Canada') = {'canada', 'can'} -- take first three letters of single letter wordshttps://stackoverflow.com/questions/25306558
复制相似问题