我正在寻找一个解决方案,可以每天摄取6到8个表中的RDS。有问题的表具有特定的键关系,因此应该将其合并到数据库中。
目前,我很难找到一种最佳的解决方案来在RDS中以编程方式加载这6-8个表的数据。哪种类型的服务目前是最适合这样做的?
Lambda
对于Lambda的内存占用来说,数据有点太大了。
数据流线
不清楚这将如何与无服务器极光一起工作,这也需要一个预定的ec2实例(打破了无服务器模式)。
Load S3 Data into Amazon RDS MySQL Table - AWS Data Pipeline
胶水?
Glue似乎更适合Redshift。
所以我有点迷茫,不知道最好的解决方案是什么。如果能帮上忙,我们将不胜感激。
发布于 2020-05-27 21:35:35
您应该尝试AWS Date Pipeline。简而言之,以下是步骤:
这个,Loading Data into an Amazon Aurora MySQL,是给MySQL用的。
使用PostgreSQL加载数据应该非常相似。
发布于 2021-07-12 19:55:05
你当然可以使用AWS胶水。诚然,Glue对Redshift有一些偏见,但它同时提供了Pyspark和Python工作,几乎可以用来做任何事情。把它想象成一个没有15分钟时间限制的Lambda,用python写出你想要的任何数据移动逻辑。
由于aurora托管在VPC中,因此一旦您将glue作业托管在同一VPC中,您可能需要创建一些VPC网关端点来访问某些内容,但这只是一次性的事情。
我实际上有一个非常类似的用例,并使用Glue以编程方式将数据从S3加载到Aurora Serverless (MySQL):
您可以参考此post了解更多详细信息。
https://stackoverflow.com/questions/62044079
复制相似问题