首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Gobblin中的HDFS回看配置

Gobblin中的HDFS回看配置
EN

Stack Overflow用户
提问于 2021-07-08 09:16:55
回答 1查看 42关注 0票数 1

我看到配置单元到配置单元的数据移动在Gobblin中有一个回看配置,我们可以在其中指定要复制的分区的日期

gobblin.data.management.copy.hive.filter.LookbackPartitionFilterGenerator

在Gobblin中,HDFS到GCS (Google云存储)的数据复制是否有类似的回看配置,只能在特定分区日期之后复制文件?

我的文件在HDFS中,这些文件是按日期分区的。

EN

回答 1

Stack Overflow用户

发布于 2021-07-13 00:55:15

如果您希望将时间分区的HDFS文件复制到GCS,则可以使用TimeAwareCopyableGlobDatasetFinder。此数据集查找器实例化一个TimeAwareRecursiveCopyableDataset,该as接受配置以指定回顾时间,指定为天数/小时/分钟数。底层的distcp作业将把数据集的所有分区复制到指定的回看时间。

例如,如果您有兴趣复制最近两天数据集的所有每小时分区,则Gobblin distcp作业将包括以下配置:

代码语言:javascript
复制
gobblin.dataset.profile.class="org.apache.gobblin.data.management.copy.TimeAwareCopyableGlobDatasetFinder"
gobblin.dataset.pattern=/root/dataset/path
gobblin.copy.recursive.date.pattern=yyyy-MM-dd-HH
gobblin.copy.recursive.lookback.time=2d
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68294492

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档