尝试探索使用S3作为源进行增量加载的apach hudi,然后通过AWS glue job将输出保存到S3中的不同位置。
作为起点,有没有什么博客/文章可以帮助我们呢?
发布于 2021-04-28 19:09:38
所以我不完全确定你的用例,但是这个article可能会对你有帮助。
这是关于如何通过胶水自定义连接器连接到Hudi的。
发布于 2021-05-06 02:50:52
还有另一种可能的方法(根据Robert的回答),将自定义jars包含到胶水作业中。然后,这些将被加载到您的胶水作业中,并像在任何其他hadoop/spark环境中一样可用。
实现此方法所需的步骤如下(至少这些工作适用于我的pyspark工作,如果您发现一些信息不够详尽或有一些问题,请纠正我,我会更新我的答案):
注意1:下面是针对批量写入的,没有针对hudi流进行测试
注释2:粘合作业类型: Spark,粘合版本: 2.0,ETL语言: python
:
在创建胶合作业时(参见备注2),指定:
最后注意:确保为您的glue作业分配适当的权限
https://stackoverflow.com/questions/67298521
复制相似问题