文章/答案/技术大牛

发布

社区首页 >问答首页 >有没有办法在AWS glue上使用Apache Hudi？

问有没有办法在AWS glue上使用Apache Hudi？
EN

Stack Overflow用户

提问于 2021-04-28 18:32:09

回答 2查看 1.3K关注 0票数 1

尝试探索使用S3作为源进行增量加载的apach hudi，然后通过AWS glue job将输出保存到S3中的不同位置。

作为起点，有没有什么博客/文章可以帮助我们呢？

aws-glue

apache-hudi

apache-spark

amazon-s3

回答 2

Stack Overflow用户

发布于 2021-04-28 19:09:38

所以我不完全确定你的用例，但是这个article可能会对你有帮助。

这是关于如何通过胶水自定义连接器连接到Hudi的。

票数 1

Stack Overflow用户

发布于 2021-05-06 02:50:52

还有另一种可能的方法(根据Robert的回答)，将自定义jars包含到胶水作业中。然后，这些将被加载到您的胶水作业中，并像在任何其他hadoop/spark环境中一样可用。

实现此方法所需的步骤如下(至少这些工作适用于我的pyspark工作，如果您发现一些信息不够详尽或有一些问题，请纠正我，我会更新我的答案)：

注意1：下面是针对批量写入的，没有针对hudi流进行测试

注释2：粘合作业类型: Spark，粘合版本: 2.0，ETL语言: python

hudi-spark-bundle_2.11
httpclient-4.5.9
spark-avro_2.11

：

获取hudi所需的所有相应jars，并将它们放入S3：

在创建胶合作业时(参见备注2)，指定：

dependent jars路径=从第一点开始的jar的逗号分隔路径(例如，您的s3:// s3://your-bucket/some_prefix/hudi-spark-bundle...jar，-
/_
1. /HTTP...jar，s3://your-bucket/some_prefix/spark-avro....jar)

根据hudi docs中提供的文档创建脚本并享受！

最后注意:确保为您的glue作业分配适当的权限

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67298521

复制

相似问题

问有没有办法在AWS glue上使用Apache Hudi？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有办法在AWS glue上使用Apache Hudi？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有办法在AWS glue上使用Apache Hudi？
EN