当nutch在索引阶段完成它的循环(即爬取-解析-索引)时,我不希望nutch索引(lucene索引),但我希望nutch使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)放到mysql中。
有没有办法做到这一点?
谢谢
发布于 2010-07-12 21:01:18
创建您自己的java类来管理Nutch循环。它应该类似于org.apache.nutch.crawl.Crawl,但您必须将对索引器的调用替换为对Mysql连接器的调用。或者,您可以在每个周期中调用Mysql连接器,这取决于您是希望在爬网结束时还是在爬网发生时更新Mysql。
https://stackoverflow.com/questions/3227259
复制相似问题