首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为Pail作业中的输入指定多个文件夹

为Pail作业中的输入指定多个文件夹
EN

Stack Overflow用户
提问于 2014-07-08 12:56:53
回答 1查看 141关注 0票数 1

我正在使用Cascalog运行一个作业,我想使用多个输入文件夹来处理映射减少作业。

我在HDFS rooPath/文件夹_1中有两个文件夹&rootPath/文件夹_2,其中包含要在作业中处理的文件。

我通过Pail函数将输入文件夹提供给作业:

代码语言:javascript
复制
new PailTap(rootPath + "Folder_1",
            JcascalogUtils.getPailTapOptions());

可以将多个文件夹分配给同一作业吗?

我可以给出一个regex路径,比如rootPath+*/,这样它就可以处理rootPath文件夹中的所有文件夹了。

(谢谢你的帮助:)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-01-09 07:34:23

您可以这样使用MultiSourceTap:

代码语言:javascript
复制
dataSource = new MultiSourceTap( 
              new PailTap(rootPath + "Folder_1",JcascalogUtils.getPailTapOptions()),
              new PailTap(rootPath + "Folder_2",JcascalogUtils.getPailTapOptions())
             );

或者使用GlobHfs

代码语言:javascript
复制
dataSource = new GlobHfs(new PailTap(rootPath,JcascalogUtils.getPailTapOptions()).getScheme() , rootPath + "*");
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24632458

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档