我是一名计算机科学专业的学生,正在从事一个基于Nutch搜索引擎的项目。我想开发Java算法,以更好地索引和搜索阿拉伯网站。我该如何优化这个目的,有什么想法吗?
发布于 2010-05-22 17:03:07
阿拉伯语有29个字母表,其中一些字母表有像Alif (أ)这样的子字母表,它们可以有不同的形式。
如果您设法容忍子字母表,即允许在这些字符上出现拼写错误
例如,أحمد和احمد以及إحمد和آحمد虽然它们有不同的UTF8值,但您可以将它们视为接近的结果。
此外,如果您可以从单词派生词根,以允许搜索单数、复数、动词、名词等。
因此,如果有人输入قال(说),您可以在搜索条件中包括单词قول(说)和(يقول) (说)和مقال(说)等,这将需要一个复杂的引擎来做这样的事情
最后,如果您认为tashkeel (装饰元音)在键入时是可选的,那么您可以将其视为更具体的搜索,但允许忽略它
例如,رجل可以匹配رَجُلٌ(意为男人)、رَجَلَ(意为用脚行走)或رِِِِِجْل(腿)
我希望这能有所帮助。
https://stackoverflow.com/questions/2752471
复制相似问题