首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch 1.x:如何使用s3a而不是HDFS?

Nutch 1.x:如何使用s3a而不是HDFS?
EN

Stack Overflow用户
提问于 2019-08-12 17:21:12
回答 1查看 42关注 0票数 0

我已经阅读了官方的Apache Nutch with Hadoop tutorial。它讨论了在“部署模式”下(即在Hadoop集群中)使用Nutch时,使用HDFS来存储Nutch的数据。

在使用Hadoop时,我更喜欢使用s3a而不是HDFS作为存储后端。Nutch1.x是否支持使用s3a而不是HDFS来存储数据?如果是,需要调整哪些相关的Nutch/Hadoop设置?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-13 05:52:48

Nutch1.x的最新版本(1.14和更高版本,请参阅NUTCH-2281)支持s3a文件系统,前提是底层Hadoop支持它。

注意:通常情况下,s3a比HDFS慢,请参考S3A performance issues。这一点尤其适用于纳奇的CrawlDb或LinkDb。CrawlDb每周期更新一次,首先将新的CrawlDb写入新目录,然后通过将新的CrawlDb移动到“当前”来替换active CrawlDb(称为“当前”)。mv在HDFS上很便宜,但在S3A上就不便宜了。

最后,您可能希望将CrawlDb保留在HDFS上,并使用"distcp“在S3A上设置检查点。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57458525

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档