首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有没有办法在AWS glue上使用Apache Hudi?

有没有办法在AWS glue上使用Apache Hudi?
EN

Stack Overflow用户
提问于 2021-04-28 18:32:09
回答 2查看 1.3K关注 0票数 1

尝试探索使用S3作为源进行增量加载的apach hudi,然后通过AWS glue job将输出保存到S3中的不同位置。

作为起点,有没有什么博客/文章可以帮助我们呢?

EN

回答 2

Stack Overflow用户

发布于 2021-04-28 19:09:38

所以我不完全确定你的用例,但是这个article可能会对你有帮助。

这是关于如何通过胶水自定义连接器连接到Hudi的。

票数 1
EN

Stack Overflow用户

发布于 2021-05-06 02:50:52

还有另一种可能的方法(根据Robert的回答),将自定义jars包含到胶水作业中。然后,这些将被加载到您的胶水作业中,并像在任何其他hadoop/spark环境中一样可用。

实现此方法所需的步骤如下(至少这些工作适用于我的pyspark工作,如果您发现一些信息不够详尽或有一些问题,请纠正我,我会更新我的答案):

注意1:下面是针对批量写入的,没有针对hudi流进行测试

注释2:粘合作业类型: Spark,粘合版本: 2.0,ETL语言: python

  • hudi-spark-bundle_2.11
  • httpclient-4.5.9
  • spark-avro_2.11

  1. 获取hudi所需的所有相应jars,并将它们放入S3:

在创建胶合作业时(参见备注2),指定:

  • dependent jars路径=从第一点开始的jar的逗号分隔路径(例如,您的s3:// s3://your-bucket/some_prefix/hudi-spark-bundle...jar,-
  • /_
    1. /HTTP...jar,s3://your-bucket/some_prefix/spark-avro....jar)

  1. 根据hudi docs中提供的文档创建脚本并享受!

最后注意:确保为您的glue作业分配适当的权限

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67298521

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档