首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对使用Lucene或Solr的爬虫工具的建议?

对使用Lucene或Solr的爬虫工具的建议?
EN

Stack Overflow用户
提问于 2008-11-12 00:50:36
回答 7查看 6.7K关注 0票数 16

对于HTML和XML文档(本地或基于web),什么是一个好的爬虫(爬虫),并且在Lucene / Solr解决方案空间中工作得很好?可以是基于Java的,但不一定是。

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2008-11-12 21:28:17

在我看来,这是一个非常重要的漏洞,它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的很好的第一步,但是对于Solr来说,没有一个好的文档摄取管道。Nutch确实可以工作,但是Nutch crawler和Solr之间的集成有点笨拙。

我尝试了我能找到的所有开源爬虫,但它们都没有与Solr集成。

密切关注OpenPipeline和Apache Tika。

票数 11
EN

Stack Overflow用户

发布于 2009-05-01 21:06:02

我尝试过nutch,但它很难与Solr集成。我会去看看Heritrix。它有一个广泛的插件系统,使得它很容易与Solr集成,并且爬行速度要快得多。它大量使用线程来加速进程。

票数 6
EN

Stack Overflow用户

发布于 2008-11-12 01:19:13

我建议你去看看Nutch,从中获得一些灵感:

Nutch是一个开源的网络搜索软件。它构建在Lucene Java之上,添加了特定于web的功能,如爬虫、链接图数据库、超文本标记语言和其他文档格式的解析器等。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/282654

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档