我在s3中有类似下面的日志,在名称中有一个时间戳。我想使用s3distcp将数据导入电子病历,这样我就可以使用hive了。
https://s3.amazonaws.com/mybucket/test/201305031003_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031004_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031005_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031006_0_ubuntu.gz如何使用s3distcp选择日期范围?例如从201303031003到201305031003?那是两个月的差额
发布于 2013-05-05 02:17:04
您可以使用--srcPattern s3distcp option指定一个正则表达式,以便只选择要复制的月份。
发布于 2019-12-04 06:35:50
另一个选项是使用--srcPrefixesFile参数指定要复制/移动的所有对象。
这涉及到生成此列表的额外步骤,但如果您想在运行s3distcp步骤之前对其进行测试,则是一种更安全的方法。
https://stackoverflow.com/questions/16370989
复制相似问题