首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何实现AWS中数据清洗的自动化

如何实现AWS中数据清洗的自动化
EN

Stack Overflow用户
提问于 2022-07-09 14:05:12
回答 1查看 93关注 0票数 -1

我有一个.csv文件,其中包含13家有列的不同商店的销售数据:

#

  • date

  • manager-generated forecast

  • actual
  • 商店销售

数据列的格式为"day - mm/dd/yyyy“,需要清理。我在Python (朱庇特笔记本)中有代码,它清理数据并将其分割成13家商店的数据集--因此清理部分就被处理了。

Python代码从"day - mm/dd/yyyy“中删除"day:”,并将其转换为pd.to_datetime数据类型,并从这个pd.DateTime对象中创建新特性,如"dayofweek“、"dayofmonth”和"dayofyear“。

磁盘上的文件为721 KB。

如何使清理过程自动化,以便当我以相同的专栏格式(只是有更多的销售记录)将未来的文件上传到S3时,清洗过程是自动化的,其他AWS服务可以访问干净的数据。

最终目标是在Quick和AWS SageMaker中提供干净的数据。

我正在考虑使用与雅典娜集成的AWS,或者当数据上传到S3时使用Lambda来清理数据,但我不确定最好的方法。

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2022-07-10 02:32:24

如果希望在上载后立即处理Amazon中的对象,则可以:

  • 在调用AWS函数
  • 的S3桶中添加了一个S3触发器,将传递AWS函数--详细介绍触发事件的对象。然后,该函数可以从again!)
  • Options:中读取对象,处理内容并将对象的“干净”版本写入另一个位置(为了避免触发它),Lambda函数可以删除传入的对象,因为它不再需要

因为您已经有了Python代码,所以可以将其转换为AWS Lambda函数,同时保留现有的功能。所有这些更改都是从传入的event消息中读取对象键。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72922010

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档