首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用自定义格式的Apache Hudi分区

使用自定义格式的Apache Hudi分区
EN

Stack Overflow用户
提问于 2019-12-16 20:25:57
回答 2查看 857关注 0票数 3

我目前正在使用spark(scala)在Apache Hudi上做一个POC。

我在使用分区保存数据帧时遇到了一个问题。

Hudi使用属性PARTITIONPATH_FIELD_OPT_KEYpath/valueOfPartitionCol1/valueOfPartitionCol2....保存数据帧。

但我的需求是path/COL1=value/COL2=value....,类似于spark使用partitionBy()对数据进行分区的方式。

有没有试过用Hudi进行自定义分区的人可以帮我?

EN

回答 2

Stack Overflow用户

发布于 2020-04-03 16:34:45

这能帮上忙吗?配置HIVE_STYLE_PARTITIONING_OPT_KEY=true设置如下:

代码语言:javascript
复制
  batchDF.write.format("org.apache.hudi")

          .option(HIVE_STYLE_PARTITIONING_OPT_KEY, true)

          .mode(SaveMode.Append)
          .save(bathPath)
票数 2
EN

Stack Overflow用户

发布于 2020-05-07 22:53:27

您可以创建自定义实现的KeyGenerator类,实现override def getKey(record: GenericRecord): HoodieKey类。在此方法中,您将获得一个GenericRecord实例并返回一个HoodieKey()类,该类允许您定义用于生成路径分区的自定义逻辑

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59356613

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档