我尝试将通过连接4-5个数据集创建的Hive表传输到Redshift。这个过程应该如何实现?
我们在边缘节点上有R可用。蜂窝表必须先传输到S3,然后再从s3传输到红移。这是唯一的方法吗?
是否可以使用R,即使用RHive包将我的数据集从HDFS移动到R,然后将此数据集从R移动到Redshift?
发布于 2015-03-06 21:41:55
您可以使用RJDBC连接到Redshift( Redshift为pgsql)。因此您可以使用从hive读取一行,并使用RJDBC从R将其加载到Redshift。
你创建1000个或更多的批次并插入到Redshift中。
如果您正在使用insert方法,那么在redhshift中为每一列使用编码类型来创建表。
将数据加载到s3,然后复制表单s3的速度比insert命令快。默认情况下,复制将应用压缩(编码)。
所以我建议你使用load to s3 from HDFS,然后使用copy命令。
https://stackoverflow.com/questions/28875268
复制相似问题