首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用AWS Glue加快开发周转时间

使用AWS Glue加快开发周转时间
EN

Stack Overflow用户
提问于 2019-02-02 06:18:58
回答 2查看 1.3K关注 0票数 0

AWS Glue看起来很有希望,但我在开发周期上遇到了挑战。如果我通过亚马逊网络服务控制台编辑PySpark脚本,即使在最小的测试数据集上运行也需要几分钟。如果我不得不等待3-5分钟来查看我是否在glueContext上调用了正确的方法,或者理解了特定的DynamicFrame行为,这就使得快速迭代成为一个挑战。

有什么技术可以让我迭代得更快?

我想我可以在本地开发Spark代码,并将其部署到Glue作为执行框架。但是,如果我需要使用特定于Glue的扩展来测试代码,我就卡住了。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-02-02 09:21:09

对于开发和测试脚本,胶水有Development Endpoints,你可以使用安装在local machineAmazon EC2 instance上的齐柏林飞艇等笔记本电脑(其他选项是'REPL Shell‘和'PyCharm Professional')。

在测试完you pay for it even if it's idling之后,请不要忘记删除端点。

票数 3
EN

Stack Overflow用户

发布于 2019-02-02 16:10:55

我将pyspark代码放在单独的类文件中,而把胶水代码放在另一个文件中。我们只使用glue来读写数据。我们在本地机器上使用pytest进行测试驱动开发。不需要开发端点或zeppelin。一旦在pyspark中修复了所有语法或业务逻辑特定的bug,就可以使用glue进行端到端测试。我们还编写了shell脚本,它将最新的代码上传到运行胶水作业的S3存储桶中。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54487875

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档