我有一个.csv文件,其中包含13家有列的不同商店的销售数据:
#
数据列的格式为"day - mm/dd/yyyy“,需要清理。我在Python (朱庇特笔记本)中有代码,它清理数据并将其分割成13家商店的数据集--因此清理部分就被处理了。
Python代码从"day - mm/dd/yyyy“中删除"day:”,并将其转换为pd.to_datetime数据类型,并从这个pd.DateTime对象中创建新特性,如"dayofweek“、"dayofmonth”和"dayofyear“。
磁盘上的文件为721 KB。
如何使清理过程自动化,以便当我以相同的专栏格式(只是有更多的销售记录)将未来的文件上传到S3时,清洗过程是自动化的,其他AWS服务可以访问干净的数据。
最终目标是在Quick和AWS SageMaker中提供干净的数据。
我正在考虑使用与雅典娜集成的AWS,或者当数据上传到S3时使用Lambda来清理数据,但我不确定最好的方法。
谢谢。
发布于 2022-07-10 02:32:24
如果希望在上载后立即处理Amazon中的对象,则可以:
。
因为您已经有了Python代码,所以可以将其转换为AWS Lambda函数,同时保留现有的功能。所有这些更改都是从传入的event消息中读取对象键。
https://stackoverflow.com/questions/72922010
复制相似问题