首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >AWS Glue作为ETL工具?

AWS Glue作为ETL工具?
EN

Stack Overflow用户
提问于 2020-06-30 19:17:18
回答 1查看 160关注 0票数 1

为什么AWS声称Glue是ETL工具?我们需要编写所有代码来拉取数据,而不是Glue提供的内置功能。使用胶水代替Nifi或其他摄取工具有什么好处吗?

EN

回答 1

Stack Overflow用户

发布于 2020-07-01 00:39:27

在AWS中,Glue是一个很好的ETL工具。尤其是对于大数据工作负载。毕竟它是在spark上运行的。

Glue确实能够生成一些基本的自动化转换代码,->,将数据从A移动到B,以及重新映射列名等。

然而,真正让它脱颖而出的是编写自定义代码的灵活性。使用Glue代码编辑器或Pycharm IDE,您可以使用pyspark和/或scala编写所需的任何转换脚本。

当Glue与其他AWS服务结合使用时,将真正获得优势。Glue Data Catalog与雅典娜甚至AWS EMR共享,因此您最终获得了大数据生态系统的中心点。

我发现Glue的一个限制是将大型数据集写入MS SQL Server (1000万rows+)。Glue使用JDBC驱动程序,到2020年为止,还没有一个Microsoft JDBC连接可以利用批量复制。因此,您实际上是在为每一行编写一条insert语句。因此,一旦您当前进入百万行的10多行,性能可能会受到影响。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62656223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档