问nutch + mysql集成
EN

Stack Overflow用户

提问于 2010-07-12 17:29:52

回答 1查看 1.7K关注 0票数 1

当nutch在索引阶段完成它的循环(即爬取-解析-索引)时，我不希望nutch索引(lucene索引)，但我希望nutch使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)放到mysql中。

有没有办法做到这一点？

谢谢

回答已采纳

发布于 2010-07-12 21:01:18

创建您自己的java类来管理Nutch循环。它应该类似于org.apache.nutch.crawl.Crawl，但您必须将对索引器的调用替换为对Mysql连接器的调用。或者，您可以在每个周期中调用Mysql连接器，这取决于您是希望在爬网结束时还是在爬网发生时更新Mysql。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3227259

复制

相似问题

问nutch + mysql集成EN