我看到配置单元到配置单元的数据移动在Gobblin中有一个回看配置,我们可以在其中指定要复制的分区的日期
gobblin.data.management.copy.hive.filter.LookbackPartitionFilterGenerator
在Gobblin中,HDFS到GCS (Google云存储)的数据复制是否有类似的回看配置,只能在特定分区日期之后复制文件?
我的文件在HDFS中,这些文件是按日期分区的。
发布于 2021-07-13 00:55:15
如果您希望将时间分区的HDFS文件复制到GCS,则可以使用TimeAwareCopyableGlobDatasetFinder。此数据集查找器实例化一个TimeAwareRecursiveCopyableDataset,该as接受配置以指定回顾时间,指定为天数/小时/分钟数。底层的distcp作业将把数据集的所有分区复制到指定的回看时间。
例如,如果您有兴趣复制最近两天数据集的所有每小时分区,则Gobblin distcp作业将包括以下配置:
gobblin.dataset.profile.class="org.apache.gobblin.data.management.copy.TimeAwareCopyableGlobDatasetFinder"
gobblin.dataset.pattern=/root/dataset/path
gobblin.copy.recursive.date.pattern=yyyy-MM-dd-HH
gobblin.copy.recursive.lookback.time=2dhttps://stackoverflow.com/questions/68294492
复制相似问题