我想实现一个搜索引擎,应该爬行一组网站,从网页中提取特定的信息,并创建该特定信息的全文索引。
在我看来,Xapian可能是搜索引擎库的一个很好的选择。
爬虫/解析器与Xapian集成有哪些选项?
与开源爬虫/解析器集成,Solr是比Xapian更好的选择吗?
发布于 2008-12-19 01:29:19
Here's对Xapian和Solr进行了一些比较。
但是如果你想构建一个爬虫,看看Nutch。它是extensible with plugins,所以你可以编写一个插件来分析你正在寻找的信息。
发布于 2009-04-20 21:33:02
Flax可能会提供一些你想要的东西。
https://stackoverflow.com/questions/332623
复制相似问题