腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(75)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
S3DistCp
按文件夹分组
我正在尝试使用
S3DistCp
来解决Hadoop中的小文件问题。它是有效的,但使用输出有点烦人。我希望按文件夹名称分组,因此我在
s3distcp
中使用以下group by参数:它确实对文件进行了分组
浏览 0
修改于2015-02-26
得票数 4
1
回答
您能在gzipped输入中使用
s3distcp
吗?
我正试图使用
s3distcp
来弥补许多小的gzipped文件,不幸的是,这些文件没有以gz扩展名结尾。
s3distcp
有一个outputCodec参数,可以用来压缩输出,但是没有对应的inputCodec。我试图在hadoop流调用中使用--jobconf,但它似乎没有做任何事情(输出仍然压缩)。
浏览 2
修改于2015-08-27
得票数 0
回答已采纳
1
回答
有没有开源版本的
s3distcp
?
我喜欢使用
s3distcp
将数据从S3存储桶复制到S3存储桶,但我需要使用外部专有加密机制来确保数据是静态加密的(将密钥留给自己,这样亚马逊就无法解密) 我喜欢做一个git克隆,并创建我自己的
s3distcp
浏览 0
修改于2014-04-01
得票数 3
2
回答
s3distcp
的多个源文件
是否有方法将文件列表从S3复制到hdfs,而不是使用
s3distcp
复制完整文件夹?这是srcPattern无法工作的时候。我目前使用的解决方法是告诉srcPattern中的所有文件名。
浏览 4
修改于2014-10-09
得票数 0
回答已采纳
1
回答
distcp和
s3distcp
之间的临时存储使用
我看了的文档-上面写着, “在复制操作期间,
S3DistCp
将临时复制集群上HDFS中的输出。在HDFS中必须有足够的空闲空间来生成数据,否则复制操作就会失败。此外,如果
S3DistCp
失败,它不会清理临时HDFS目录,因此必须手动清除临时文件。例如,如果您将500 GB的数据从HDFS复制到S3,
S3DistCp
将整个500 GB的数据复制到HDFS的临时目录中,然后将数据从临时目录上传到S3”。
浏览 1
修改于2015-02-09
得票数 1
2
回答
如何使用
s3distcp
选择日期范围?
我想使用
s3distcp
将数据导入电子病历,这样我就可以使用hive了。mybucket/test/201305031005_0_ubuntu.gz如何使用
s3distcp
浏览 5
提问于2013-05-04
得票数 1
2
回答
亚马逊提供
S3DistCp
java api吗?
我想使用
S3DistCp
。
浏览 20
修改于2017-06-27
得票数 1
2
回答
显示100%后
s3distcp
挂起
为了使与Amazon一起工作,我尝试使用
s3distcp
将文件从S3复制到我的EMR集群中进行本地处理。这是一个普通的Amazon集群,我从主节点的外壳运行
s3distcp
。
浏览 4
修改于2017-05-23
得票数 4
1
回答
向PySpark添加
S3DistCp
我正在尝试将
S3DistCp
添加到我本地独立的Spark安装中。我已经下载了
S3DistCp
: aws s3 cp s3://elasticmapreduce/libs/
s3distcp
/1.latest/s3distcp.jar .
浏览 5
提问于2017-02-08
得票数 1
回答已采纳
1
回答
为
s3distcp
配置AWS日志记录
我希望更改
s3distcp
和其他hadoop命令,以便只记录WARN消息或更糟的消息,而目前它只记录INFO和更糟的消息。16/06/01 17:18:03 INFO s3distcp.S3DistCp:
S3DistCp
浏览 2
修改于2016-09-08
得票数 0
回答已采纳
1
回答
如何使用
s3DistCp
从子目录复制
尝试使用
s3DistCp
从s3://my-bucket/dir1/、s3://my-bucket/dir2、s3://my-bucket/dir3复制。 所有三个达尔都有一些文件。那么,这是否意味着
s3DistCp
不会在路径中使用通配符?周围有什么工作或想法吗?
浏览 4
修改于2014-08-01
得票数 0
1
回答
AWS EMR
S3DistCp
的性能问题
我在一个EMR集群上使用
S3DistCp
,以便将大约200K个小文件(总共3.4 S3 )从一个S3存储桶聚合到同一存储桶中的另一个路径。我读到过
S3DistCp
可以在一眨眼的时间里传输很多文件,但我不知道是怎么回事。顺便说一下,EMR和bucket在同一个地域。 谢谢。
浏览 2
提问于2020-06-06
得票数 0
2
回答
如何让
s3distcp
与换行符合并
我已经把
s3distcp
语法写下来了,但是我发现在合并文件之后,合并后的文件集中没有包含换行符。我想知道
s3distcp
是否包含强制换行符的选项,或者是否有其他方法可以在不直接修改源文件(或复制它们并执行相同操作)的情况下完成此操作。
浏览 0
修改于2015-08-28
得票数 5
1
回答
S3DistCp
可以合并.snappy.paruqet文件吗?
S3DistCp
是否可以将多个由火花应用程序存储为.snappy.parquet输出的文件合并为一个文件,并使结果文件可由配置单元读取?
浏览 2
提问于2017-06-02
得票数 2
1
回答
s3distcp
srcPattern不工作?
我在S3中有这样的文件:2-2013-08-22-22-something没有srcPattern,我可以很容易地从桶中获取所有的文件,但是我想获得一个特定的前缀,例如所有的1。我尝试过使用srcPattern,但出于某种原因,它没有收集任何文件。elastic-mapreduce --jobflow $JOBFLOW --jar /home/hadoop/lib/emr-s3distcp-1.0.jar \ --args '--src,s3n://some-bucket/,--dest,hdfs://
浏览 1
提问于2013-08-24
得票数 4
回答已采纳
1
回答
S3DistCP
为清单复制一些文件,而不复制其他文件
我们使用
S3Distcp
将文件从S3复制到HDFS,方法是使用清单文件--即在
S3Distcp
命令中使用--copyFromManifest参数。但是,在
S3DistCP
步骤中,只复制清单中列出的一些文件。我不知道我们应该从哪里开始寻找问题--例如,为什么有些文件是复制的,而另一些则不是? 谢谢
浏览 1
提问于2014-11-27
得票数 1
1
回答
文件连接的
s3DistCp
顺序
我试图使用AWS上的工具将多个文件(1.txt、2.txt、3.txt)合并到一个gzip文件中。我使用的是groupBy标志。就目前而言,输出似乎是按名称以反向顺序连接源文件。这是故意的吗?是否有一种方法允许按照文件创建的相同顺序(按创建时间)进行连接?
浏览 2
提问于2017-08-11
得票数 0
回答已采纳
1
回答
S3DistCp
groupBy子句的使用
CustomerID2/File1s3://mysrcbucket/CustomerID2/File3 我已经准备了一个清单列表(将在
s3distcp
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
1
回答
如何正确地进行电子病历
S3DistCp
groupBy?
我正在使用aws .net sdk运行一个
s3distcp
作业到EMR,将文件夹中的所有文件与--groupBy连接起来。
浏览 1
提问于2016-07-14
得票数 8
回答已采纳
2
回答
s3distcp
错误“参数‘--参数’不匹配”
我正在尝试使用
s3distcp
进行电子病历工作,但得到了以下异常: Exception in thread "main" java.lang.RuntimeException: Argument --arg
浏览 3
提问于2013-11-03
得票数 2
第 2 页
第 3 页
第 4 页
点击加载更多
领券