首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于Hadoop MapReduce的Web Java爬虫

基于Hadoop MapReduce的Web Java爬虫
EN

Stack Overflow用户
提问于 2017-12-19 21:40:03
回答 1查看 1.3K关注 0票数 1

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫,并在HBase中插入内容。我试着把这两个教程结合起来:

Basic web crawler example

MapReduce tutorial

但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里?Mapper的输入数据类型是什么?提前感谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-12-19 23:57:24

只需使用Apache Nutch就可以了-它基于Hadoop,拥有您需要的一切,甚至更多。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47888296

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档