我已经阅读了官方的Apache Nutch with Hadoop tutorial。它讨论了在“部署模式”下(即在Hadoop集群中)使用Nutch时,使用HDFS来存储Nutch的数据。
在使用Hadoop时,我更喜欢使用s3a而不是HDFS作为存储后端。Nutch1.x是否支持使用s3a而不是HDFS来存储数据?如果是,需要调整哪些相关的Nutch/Hadoop设置?
发布于 2019-08-13 05:52:48
Nutch1.x的最新版本(1.14和更高版本,请参阅NUTCH-2281)支持s3a文件系统,前提是底层Hadoop支持它。
注意:通常情况下,s3a比HDFS慢,请参考S3A performance issues。这一点尤其适用于纳奇的CrawlDb或LinkDb。CrawlDb每周期更新一次,首先将新的CrawlDb写入新目录,然后通过将新的CrawlDb移动到“当前”来替换active CrawlDb(称为“当前”)。mv在HDFS上很便宜,但在S3A上就不便宜了。
最后,您可能希望将CrawlDb保留在HDFS上,并使用"distcp“在S3A上设置检查点。
https://stackoverflow.com/questions/57458525
复制相似问题