我的问题很简单:我有一个包含40万个子字(电影和电视节目标题)的数据库。我想在一条信息中匹配这些标题,例如:
我真的很喜欢游戏“权力的游戏”()和“西服”(Game),而且聚光灯( Spotlight )也是一部很棒的电影。
我需要的是匹配游戏的权力,适合和聚光灯在这串。
我试图将所有标题发送到wit.ai,但它似乎无法处理100000个子字符串。
我想知道elasticsearch是否能胜任这项工作?
如果这是个常见的问题,对不起,你能帮我找到正确的方向吗?
谢谢!
发布于 2016-10-26 10:06:10
从文本中的字典中查找字符串的最佳算法之一是阿霍-科拉西克 One。
字典匹配算法,它在输入文本中定位有限字符串集(“字典”)的元素。它同时匹配所有字符串。算法的复杂度与字符串长度、搜索文本长度和输出匹配数成线性关系。
但我想知道你的数据库引擎没有提供这种搜索的可能性.也许真的可以,但你不知道?
https://stackoverflow.com/questions/40258646
复制相似问题