文章/答案/技术大牛

发布

社区首页 >问答首页 >基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么？

问基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么？
EN

Stack Overflow用户

提问于 2018-07-23 19:22:10

回答 1查看 1.2K关注 0票数 0

由于数据的大小，这个问题与我在堆栈溢出上发现的不同，它是不重复的。

我们在使用Cloudera。

我看到了小型xlsx文件的解决方案，头中只有少数列，在我的示例中，要加载到新的hive表中的csv文件有618列。

默认情况下，如果我通过HUE-> File Browser上传它(先将它保存到csv )，它会被保存为地板吗？如果没有，我可以在哪里指定文件格式？
基于该位置创建外部Impala表的最佳方法是什么？如果我需要手动创建DDL/模式，这肯定会令人难以置信，因为有那么多列。

非常感谢。

hive

impala

external-tables

回答 1

Stack Overflow用户

发布于 2018-08-01 21:44:18

答案：

文本文件是通过Hive表生成的默认文件格式。但是可以在hive.default.fileformat上配置它，也可以在创建表时显式地提到它。您可以将CSV文件上传到HDFS中的任意目录中。一旦数据在HDFS中存在，您就可以在CSV数据上创建一个表。在创建表时，可以指定格式。
使用Hue创建表。它基于CSV文件中的头行动态生成列名。它假设每个字段都是字符串数据类型。我们需要显式地处理数据类型。一旦在hive metastore中创建了表，就可以通过Hive和Impala查询来使用了。

这篇文章将提供一个良好的开端：http://gethue.com/hadoop-tutorial-create-hive-tables-with-headers-and/

简而言之，将数据移动到(如下所示)

HDFS =>使用Hue(注意数据类型)创建表，现在=>使用Impala编辑器查询数据。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51485866

复制

相似问题

问基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么？
EN