我尝试过使用PySpark访问Hive事务表(它在HDFS上有底层的增量文件),但是我无法通过sparkContext/hiveContext读取事务表。
/麦迪姆/德尔塔0117202_0117202
/麦迪姆/德尔塔0117203_0117203
发布于 2019-08-01 17:43:39
正式地说,
Spark还不支持Hive-ACID表,获取一个full dump/incremental dump of acid table到常规hive orc/parquet分区表,然后使用spark读取数据。
有一个Open 索普克-15348来添加对读取Hive ACID表的支持。
major compaction (来自hive),那么可以只读取base_XXX目录,但不能读取此jira中所述的增量目录火花-16996。HDP-3.X HiveWareHouseConnector开始的能够支持读取HiveAcid表。https://stackoverflow.com/questions/57311848
复制相似问题