我正在开发一个在MongoDB数据库中存储Node.js文档的应用程序,并希望提供全文搜索功能。从我所看到的来看,包含在MongoDB中的全文搜索要求文档是纯文本的,因此不适合索引我的html文档。这个假设是正确的吗?如果是这样,人们对此有什么建议。
从阅读其他SO posts来看,弹性搜索似乎是最受建议的路径。不过,我不能说我对将Java应用程序引入这一领域感到非常高兴。此外,拥有一个完全独立的应用程序也不是我的理想方案。
发布于 2013-09-02 18:17:22
您可以在HTML中抛出一些正则表达式,然后尝试自己从HTML执行strip the markup。可以通过MongoDB对输出进行索引。
这可能比使用ES或Solr之类的搜索工具更容易开发(这里确实超出了讨论范围),但它不会让您走得更远:简单地剥离HTML意味着上下文信息会丢失,无效的HTML可能会带来麻烦。
https://stackoverflow.com/questions/18567989
复制相似问题