我可以使用Nutch抓取和索引网页,但我不知道如何读取索引并从中提取数据。
有人能给我介绍一些有用的工具来阅读索引吗?
我想添加一个中文分析器和一个IndexFilter插件,所以我想阅读索引来验证我的插件。此外,我还想对我使用Java爬行的数据进行一些处理。
发布于 2012-04-23 03:11:00
使用卢克工具浏览nutch索引。转储索引选项可以为整个索引创建xml文件。如果你必须通过代码来完成它,那么你需要学习lucene。
若要读取爬行内容,请使用nutch段读取器。
发布于 2012-04-24 09:07:59
您可以使用提供的read命令,如下所示
bin/nutch readseg xxx阅读内容。
希望这能帮你。
https://stackoverflow.com/questions/10274242
复制相似问题