由于数据的大小,这个问题与我在堆栈溢出上发现的不同,它是不重复的。
我们在使用Cloudera。
我看到了小型xlsx文件的解决方案,头中只有少数列,在我的示例中,要加载到新的hive表中的csv文件有618列。
非常感谢。
发布于 2018-08-01 21:44:18
答案:
hive.default.fileformat上配置它,也可以在创建表时显式地提到它。您可以将CSV文件上传到HDFS中的任意目录中。一旦数据在HDFS中存在,您就可以在CSV数据上创建一个表。在创建表时,可以指定格式。hive metastore中创建了表,就可以通过Hive和Impala查询来使用了。这篇文章将提供一个良好的开端:http://gethue.com/hadoop-tutorial-create-hive-tables-with-headers-and/
简而言之,将数据移动到(如下所示)
HDFS =>使用Hue(注意数据类型)创建表,现在=>使用Impala编辑器查询数据。
https://stackoverflow.com/questions/51485866
复制相似问题