注意:通常情况下，s3a比HDFS慢，请参考S3A performance issues。这一点尤其适用于纳奇的CrawlDb或LinkDb。CrawlDb每周期更新一次，首先将新的CrawlDb写入新目录，然后通过将新的CrawlDb移动到“当前”来替换active CrawlDb(称为“当前”)。mv在HDFS上很便宜，但在S3A上就不便宜了。

最后，您可能希望将CrawlDb保留在HDFS上，并使用"distcp“在S3A上设置检查点。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57458525

复制

相似问题

问Nutch 1.x:如何使用s3a而不是HDFS？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch 1.x:如何使用s3a而不是HDFS？EN