我正在使用Cascalog运行一个作业,我想使用多个输入文件夹来处理映射减少作业。
我在HDFS rooPath/文件夹_1中有两个文件夹&rootPath/文件夹_2,其中包含要在作业中处理的文件。
我通过Pail函数将输入文件夹提供给作业:
new PailTap(rootPath + "Folder_1",
JcascalogUtils.getPailTapOptions());可以将多个文件夹分配给同一作业吗?
我可以给出一个regex路径,比如rootPath+*/,这样它就可以处理rootPath文件夹中的所有文件夹了。
(谢谢你的帮助:)
发布于 2015-01-09 07:34:23
您可以这样使用MultiSourceTap:
dataSource = new MultiSourceTap(
new PailTap(rootPath + "Folder_1",JcascalogUtils.getPailTapOptions()),
new PailTap(rootPath + "Folder_2",JcascalogUtils.getPailTapOptions())
);或者使用GlobHfs
dataSource = new GlobHfs(new PailTap(rootPath,JcascalogUtils.getPailTapOptions()).getScheme() , rootPath + "*");https://stackoverflow.com/questions/24632458
复制相似问题