我在emr-5.0.0版本中遇到了s3-dist-cp命令的问题。在我的应用程序中,我需要将一些文件从hdfs推送到S3。我使用s3-dist-cp命令来实现这一点。它在emr-4.2.0中运行良好。但它在emr-5.0.0中不起作用。如果我手动运行该命令,它工作得很好。但它在我的应用程序中失败了。我没有在我的应用程序中做任何更改来在emr-5上运行它。
如果我需要使用emr-5,我需要做任何更改吗?我们在emr-5中使用s3-dist-cp命令的方式有什么变化吗?
我正在使用以下命令:
s3-dist-cp --src /user/hive/warehouse/abc.text --dest s3n://bucket/abc.text发布于 2017-10-18 12:28:26
s3-dist-cp仅在主节点上可用(s3-dist-cp.jar)。
以下是应用程序的位置。
/usr/share/aws/emr/s3-dist-cp/从节点中不提供s3-dist-cp.jar。
您可以登录备机进行验证。
所以你的应用程序失败的原因可能是,在新的emr中,你可能正在使用一些工作流管理工具,这些工具将应用程序部署到从属设备上并从那里开始。因为s3 s3-dist-cp不可用,所以它失败了。
解决方案 First Option
捆绑jar并使用以下命令
hadoop jar s3-dist-cp.jar --src location --dest location 第二个
在群集上启动s3-dist-cp.jars
您甚至可以将其作为java程序运行。
发布于 2016-10-03 14:59:48
您用于s3-dist-cp的语法不正确。请使用下面的命令重试。
s3-dist-cp --src hdfs:///user/hive/warehouse/abc.text --dest s3n://bucket/abc.text如果这解决了你的问题,请告诉我。
发布于 2016-10-03 23:06:13
首先,现在不推荐使用s3n://,开始对S3路径使用s3://。
其次,如果您只是将一个文件从集群上的本地文件复制到S3中,则可以使用aws s3 cp
aws s3 cp /user/hive/warehouse/abc.text s3://bucket/abc.texthttps://stackoverflow.com/questions/39813634
复制相似问题