什么是自动摄取csv数据的最简单的方法?从S3桶到时间流数据库的数据?
我有一个S3桶,它继续在文件夹结构中生成csv文件。我想将这些文件保存在一个时间流数据库中,以便在我的grafana实例中可视化它们。
,我已经试过通过Glue爬虫来做了,但这对我来说不太好。有关于如何解决这个任务的解决办法或教程吗?
发布于 2022-04-26 17:56:53
我使用Lambda函数、SNS主题和队列来完成这个任务。
“我的桶”中的新文件触发对SNS主题的通知。
通知被添加到SQS队列中。
lambda函数使用队列,恢复新s3对象的桶和键,下载csv文件,进行一些处理并将数据导入时间流。lambda是用Python实现的。
这是正常的工作,但要注意的是,大型文件可能不会在15分钟内摄入全部。时间流不是超快的。通过使用多值记录,以及在boto3中使用时间流客户端的“公共属性”特性,它得到了更好的效果。
(应该注意,如果愿意的话,S3桶可以直接触发lambda。使用队列可以提供更大的灵活性,例如能够手动将文件添加到队列中进行重新处理)
https://stackoverflow.com/questions/71763745
复制相似问题