首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从Nutch索引中读取内容?

如何从Nutch索引中读取内容?
EN

Stack Overflow用户
提问于 2012-04-23 02:47:02
回答 2查看 2.6K关注 0票数 4

我可以使用Nutch抓取和索引网页,但我不知道如何读取索引并从中提取数据。

有人能给我介绍一些有用的工具来阅读索引吗?

我想添加一个中文分析器和一个IndexFilter插件,所以我想阅读索引来验证我的插件。此外,我还想对我使用Java爬行的数据进行一些处理。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-04-23 03:11:00

使用卢克工具浏览nutch索引。转储索引选项可以为整个索引创建xml文件。如果你必须通过代码来完成它,那么你需要学习lucene。

若要读取爬行内容,请使用nutch段读取器

票数 0
EN

Stack Overflow用户

发布于 2012-04-24 09:07:59

您可以使用提供的read命令,如下所示

代码语言:javascript
复制
bin/nutch readseg xxx

阅读内容。

希望能帮你。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10274242

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档