我在S3中有这样的文件:
1-2013-08-22-22-something
2-2013-08-22-22-something
etc没有srcPattern,我可以很容易地从桶中获取所有的文件,但是我想获得一个特定的前缀,例如所有的1。我尝试过使用srcPattern,但出于某种原因,它没有收集任何文件。
我现在的命令是:
elastic-mapreduce --jobflow $JOBFLOW --jar /home/hadoop/lib/emr-s3distcp-1.0.jar \
--args '--src,s3n://some-bucket/,--dest,hdfs:///hdfs-input,--srcPattern,[0-9]-.*' \
--step-name "copying over s3 files" 发布于 2013-08-24 21:35:17
原来你需要.*在正则表达式前面
例如,我需要
.*[0-9]-.*我猜是因为源模式也包含了桶名?
https://stackoverflow.com/questions/18422951
复制相似问题