首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PySpark无法通过sparkContext/hiveContext读取Hive事务表?我们可以使用Pyspark更新/删除蜂箱表数据吗?

PySpark无法通过sparkContext/hiveContext读取Hive事务表?我们可以使用Pyspark更新/删除蜂箱表数据吗?
EN

Stack Overflow用户
提问于 2019-08-01 14:57:55
回答 1查看 1.2K关注 0票数 1

我尝试过使用PySpark访问Hive事务表(它在HDFS上有底层的增量文件),但是我无法通过sparkContext/hiveContext读取事务表。

/麦迪姆/德尔塔0117202_0117202

/麦迪姆/德尔塔0117203_0117203

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-01 17:43:39

正式地说,Spark还不支持Hive-ACID表,获取一个full dump/incremental dump of acid table到常规hive orc/parquet分区表,然后使用spark读取数据。

有一个Open 索普克-15348来添加对读取Hive ACID表的支持。

  • 如果您在Acid表上运行major compaction (来自hive),那么可以只读取base_XXX目录,但不能读取此jira中所述的增量目录火花-16996
  • 如本链接所述,使用火花-LLAP读取acid表有一些解决办法。
  • 我认为,从HDP-3.X HiveWareHouseConnector开始的能够支持读取HiveAcid表。
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57311848

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档