我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫,并在HBase中插入内容。我试着把这两个教程结合起来:
Basic web crawler example
MapReduce tutorial
但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里?Mapper的输入数据类型是什么?提前感谢
发布于 2017-12-19 23:57:24
只需使用Apache Nutch就可以了-它基于Hadoop,拥有您需要的一切,甚至更多。
https://stackoverflow.com/questions/47888296
相似问题