首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ORC文件格式

ORC文件格式
EN

Stack Overflow用户
提问于 2018-05-11 09:34:26
回答 2查看 1.2K关注 0票数 0

我是蜂巢的新手。你能让我知道下面问题的答案吗?

为什么在ORC中加载数据时需要基表?我们不能直接将表创建为ORC并在其中加载数据吗?

EN

回答 2

Stack Overflow用户

发布于 2018-05-11 14:00:11

我们需要基表,因为大多数时候我们得到的是文本文件格式的数据文件,即CSV,TXT,DAT或任何其他分隔符,我们可以打开文件并看到内容。但是ORC通过使用他们的算法来优化行和列,以不同的方式保持文件格式。因此,我们需要一个基表,所以,实际上在这种情况下发生了什么。我们创建一个textFile格式的表,并选择数据覆盖它们,并将其写入ORC表。

ORC 2.我们不能直接将表创建为并在其中加载数据吗?

可以,您可以直接将数据加载到ORC文件中。

要了解有关开放源码的更多信息,可以参考https://orc.apache.org/docs/

票数 0
EN

Stack Overflow用户

发布于 2018-10-12 13:35:20

通常情况下,如果你没有定义文件格式,对于hive,它默认是文本文件。之所以需要基表,是因为当您使用orc格式创建配置单元表,然后尝试使用以下命令加载数据时: load data in path '‘.它只是将数据从一个位置移动到另一个位置。配置单元orc表无法理解文本文件。这就是serde出现的时候。在创建表时定义serde。所以当像这样的操作时: 1. select * (read) 2. insert into (write)

serde将序列化和期望各种格式,以便对数据进行排序并将数据映射到配置单元列。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50283757

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档