我用Spark代码将数据从一个Hive表复制到另一个Hive表(外部),数据量为7400万行(~50 GB)。插入操作需要超过40分钟。
HiveContext.sql(“插入覆盖表dev_work.WORK_CUSTOMER select * from dev_warehouse.CUSTOMER")
我尝试过其他数据复制方法,例如:
hdfs dfs -cp hdfs:/home/dummy/dev_dwh/CUSTOMER hdfs:/home/dummy/dev_work/WORK_CUSTOMER
导出表dev_warehouse.CUSTOMER到'hdfs_exports_location/customer';从‘hdfs_exports_ dev_work.WORK_CUSTOMER /CUSTOMER’导入外部表dev_work.WORK_CUSTOMER;
集群详细信息:
CDH 5.8,19节点群
请您帮助调优性能以找到执行快速数据复制的其他方法。
谢谢你,阿文德
发布于 2017-08-23 01:02:57
尝试Hadoop DistCp,这是一种用于大规模簇间/簇内复制的工具。
http://hadoop.apache.org/docs/r2.7.3/hadoop-distcp/DistCp.html
https://stackoverflow.com/questions/45825616
复制相似问题