首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将Hive表从HDFS移动到Amazon Redshift

将Hive表从HDFS移动到Amazon Redshift
EN

Stack Overflow用户
提问于 2015-03-05 18:15:12
回答 1查看 569关注 0票数 2

我尝试将通过连接4-5个数据集创建的Hive表传输到Redshift。这个过程应该如何实现?

我们在边缘节点上有R可用。蜂窝表必须先传输到S3,然后再从s3传输到红移。这是唯一的方法吗?

是否可以使用R,即使用RHive包将我的数据集从HDFS移动到R,然后将此数据集从R移动到Redshift?

EN

回答 1

Stack Overflow用户

发布于 2015-03-06 21:41:55

您可以使用RJDBC连接到Redshift( Redshift为pgsql)。因此您可以使用从hive读取一行,并使用RJDBC从R将其加载到Redshift。

你创建1000个或更多的批次并插入到Redshift中。

如果您正在使用insert方法,那么在redhshift中为每一列使用编码类型来创建表。

将数据加载到s3,然后复制表单s3的速度比insert命令快。默认情况下,复制将应用压缩(编码)。

所以我建议你使用load to s3 from HDFS,然后使用copy命令。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28875268

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档