文章/答案/技术大牛

发布

社区首页 >问答首页 >如何实现AWS中数据清洗的自动化

问如何实现AWS中数据清洗的自动化
EN

Stack Overflow用户

提问于 2022-07-09 14:05:12

回答 1查看 93关注 0票数 -1

我有一个.csv文件，其中包含13家有列的不同商店的销售数据：

date

manager-generated forecast

actual
商店销售

数据列的格式为"day - mm/dd/yyyy“，需要清理。我在Python (朱庇特笔记本)中有代码，它清理数据并将其分割成13家商店的数据集--因此清理部分就被处理了。

Python代码从"day - mm/dd/yyyy“中删除"day：”，并将其转换为pd.to_datetime数据类型，并从这个pd.DateTime对象中创建新特性，如"dayofweek“、"dayofmonth”和"dayofyear“。

磁盘上的文件为721 KB。

如何使清理过程自动化，以便当我以相同的专栏格式(只是有更多的销售记录)将未来的文件上传到S3时，清洗过程是自动化的，其他AWS服务可以访问干净的数据。

最终目标是在Quick和AWS SageMaker中提供干净的数据。

我正在考虑使用与雅典娜集成的AWS，或者当数据上传到S3时使用Lambda来清理数据，但我不确定最好的方法。

谢谢。

data-cleaning

amazon-web-services

aws-glue

回答 1

Stack Overflow用户

发布于 2022-07-10 02:32:24

如果希望在上载后立即处理Amazon中的对象，则可以：

在调用AWS函数
的S3桶中添加了一个S3触发器，将传递AWS函数--详细介绍触发事件的对象。然后，该函数可以从again!)
Options:中读取对象，处理内容并将对象的“干净”版本写入另一个位置(为了避免触发它)，Lambda函数可以删除传入的对象，因为它不再需要

。

因为您已经有了Python代码，所以可以将其转换为AWS Lambda函数，同时保留现有的功能。所有这些更改都是从传入的event消息中读取对象键。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72922010

复制

相似问题

问如何实现AWS中数据清洗的自动化
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何实现AWS中数据清洗的自动化EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何实现AWS中数据清洗的自动化
EN