我正在尝试启用位于s3目录中的CSV文件的基本SQL查询。Presto看起来很适合(文件是10s GB)。当我在Presto中进行设置时,我尝试使用Hive连接器创建一个表。我不清楚是只需要hive metastore来保存我在Presto中的表配置,还是必须先在那里创建它们。
文档表明,您可以使用Presto,而不必配置Hive,但使用Hive语法。这是准确的吗?我的经验是,亚马逊网络服务的S3一直无法连接。
发布于 2017-11-14 05:02:06
Presto语法类似于Hive语法。对于大多数简单的查询,相同的语法在两者中都可以起作用。然而,有一些关键的区别使得Presto和Hive并不完全是一回事。例如,在蜂窝中,你可以使用LATERAL VIEW EXPLODE,而在Presto中,你可以使用CROSS JOIN UNNEST。这两种语言在语法上的细微差别有很多这样的例子。
发布于 2018-04-27 02:17:02
在没有配置单元的情况下,无法使用vanilla Presto分析S3上的数据。Presto只提供分布式执行引擎。但是,它缺少有关表的元数据信息。因此,Presto协调器需要Hive检索表元数据来解析和执行查询。
但是,您可以使用AWS Athena,它是由Presto管理的,在S3之上运行查询。
另一个选项,在最近的AWS Presto中添加了连接0.198 release胶水并在S3中的文件顶部检索表元数据的功能。
发布于 2020-09-14 09:01:09
我知道已经有一段时间了,但是如果这个问题仍然悬而未决,你考虑过使用Spark吗?Spark很容易与开箱即用的方法连接,并可以查询/处理S3/CSV格式的数据。
另外,我很好奇:您最终实现了什么解决方案来解决您的问题?
https://stackoverflow.com/questions/42170929
复制相似问题