文章/答案/技术大牛

发布

社区首页 >问答首页 >星星之火SQL - Hivecontext -从一个表到另一个表格的数据副本

问星星之火SQL - Hivecontext -从一个表到另一个表格的数据副本
EN

Stack Overflow用户

提问于 2017-08-22 19:33:09

回答 1查看 1.1K关注 0票数 1

我用Spark代码将数据从一个Hive表复制到另一个Hive表(外部)，数据量为7400万行(~50 GB)。插入操作需要超过40分钟。

HiveContext.sql(“插入覆盖表dev_work.WORK_CUSTOMER select * from dev_warehouse.CUSTOMER")

我尝试过其他数据复制方法，例如：

这些外部表的hdfs -cp：

hdfs dfs -cp hdfs:/home/dummy/dev_dwh/CUSTOMER hdfs:/home/dummy/dev_work/WORK_CUSTOMER

出口进口：

导出表dev_warehouse.CUSTOMER到'hdfs_exports_location/customer'；从‘hdfs_exports_ dev_work.WORK_CUSTOMER /CUSTOMER’导入外部表dev_work.WORK_CUSTOMER；

集群详细信息：

CDH 5.8，19节点群

请您帮助调优性能以找到执行快速数据复制的其他方法。

谢谢你，阿文德

apache-spark

hive

apache-spark-sql

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-08-23 01:02:57

尝试Hadoop DistCp，这是一种用于大规模簇间/簇内复制的工具。

http://hadoop.apache.org/docs/r2.7.3/hadoop-distcp/DistCp.html

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45825616

复制

相似问题

问星星之火SQL - Hivecontext -从一个表到另一个表格的数据副本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星星之火SQL - Hivecontext -从一个表到另一个表格的数据副本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星星之火SQL - Hivecontext -从一个表到另一个表格的数据副本
EN