开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >基于Hadoop MapReduce的Web Java爬虫

问基于Hadoop MapReduce的Web Java爬虫
EN

Stack Overflow用户

提问于 2017-12-19 21:40:03

回答 1查看 1.3K关注 0票数 1

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫，并在HBase中插入内容。我试着把这两个教程结合起来：

Basic web crawler example

MapReduce tutorial

但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里？Mapper的输入数据类型是什么？提前感谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-12-19 23:57:24

只需使用Apache Nutch就可以了-它基于Hadoop，拥有您需要的一切，甚至更多。

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47888296

复制

相似问题