首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么?

基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么?
EN

Stack Overflow用户
提问于 2018-07-23 19:22:10
回答 1查看 1.2K关注 0票数 0

由于数据的大小,这个问题与我在堆栈溢出上发现的不同,它是不重复的。

我们在使用Cloudera。

我看到了小型xlsx文件的解决方案,头中只有少数列,在我的示例中,要加载到新的hive表中的csv文件有618列。

  1. 默认情况下,如果我通过HUE-> File Browser上传它(先将它保存到csv ),它会被保存为地板吗?如果没有,我可以在哪里指定文件格式?
  2. 基于该位置创建外部Impala表的最佳方法是什么?如果我需要手动创建DDL/模式,这肯定会令人难以置信,因为有那么多列。

非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2018-08-01 21:44:18

答案:

  • 文本文件是通过Hive表生成的默认文件格式。但是可以在hive.default.fileformat上配置它,也可以在创建表时显式地提到它。您可以将CSV文件上传到HDFS中的任意目录中。一旦数据在HDFS中存在,您就可以在CSV数据上创建一个表。在创建表时,可以指定格式。
  • 使用Hue创建表。它基于CSV文件中的头行动态生成列名。它假设每个字段都是字符串数据类型。我们需要显式地处理数据类型。一旦在hive metastore中创建了表,就可以通过Hive和Impala查询来使用了。

这篇文章将提供一个良好的开端:http://gethue.com/hadoop-tutorial-create-hive-tables-with-headers-and/

简而言之,将数据移动到(如下所示)

HDFS =>使用Hue(注意数据类型)创建表,现在=>使用Impala编辑器查询数据。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51485866

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档