对于HTML和XML文档(本地或基于web),什么是一个好的爬虫(爬虫),并且在Lucene / Solr解决方案空间中工作得很好?可以是基于Java的,但不一定是。
发布于 2008-11-12 21:28:17
在我看来,这是一个非常重要的漏洞,它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的很好的第一步,但是对于Solr来说,没有一个好的文档摄取管道。Nutch确实可以工作,但是Nutch crawler和Solr之间的集成有点笨拙。
我尝试了我能找到的所有开源爬虫,但它们都没有与Solr集成。
密切关注OpenPipeline和Apache Tika。
发布于 2009-05-01 21:06:02
我尝试过nutch,但它很难与Solr集成。我会去看看Heritrix。它有一个广泛的插件系统,使得它很容易与Solr集成,并且爬行速度要快得多。它大量使用线程来加速进程。
发布于 2008-11-12 01:19:13
我建议你去看看Nutch,从中获得一些灵感:
Nutch是一个开源的网络搜索软件。它构建在Lucene Java之上,添加了特定于web的功能,如爬虫、链接图数据库、超文本标记语言和其他文档格式的解析器等。
https://stackoverflow.com/questions/282654
复制相似问题