我目前的项目结构如下:
从jupyter笔记本中的一个脚本开始,它将数据从CRM加载到本地PostgressSql数据库中,我使用PgAdmin运行。然后运行聚类分析,返回一些评分值,在数据库中创建一个包含结果的表,并使用另一个API调用更新CRM中的这些值。这个过程需要10到20个小时( API只允许每分钟400个请求)。
第二个笔记本读取数据库,检测上一次更新,从上次调用开始运行API调用更新数据库,运行kmeans分析对数据进行聚类,将结果与前面的调用进行比较,通过api更新新的调用和CRM。根据我的估计,第二个过程所花费的时间不到2个小时,我希望这个脚本每24小时运行一次。
经过测试,这是很好的工作。现在,我正在评估如何在AWS中将其投入生产。我理解我所需要的笔记本,从我所看到的并不是那么复杂,我在这里唯一的疑问是,我是否可以调用API而不实现转换代码或需要一些配置。我的第二个问题是数据库。我不明白RDS和Aurora或S3之间的区别,因为我认为我必须使用它。我的目标是尽可能少编写代码,但是已经尝试了一些关于RDS的教程,比如: 1:https://www.youtube.com/watch?v=6fDTre5gikg&t=10s,我知道这把我的本地帖子连接到了AWS,但是我在亚马逊页面中找不到数据,只创建了一个实例?以及如何连接到它来分析来自SageMaker的数据。我的最后一个目标是在云中运行笔记本,并连接到云中的postgres。如果能介绍一下如何使用这些工具,我将不胜感激。
发布于 2021-01-05 02:03:57
我不明白RDS和Aurora或S3之间的区别,我认为我必须使用它
RDS和Aurora是由AWS完全管理的关系数据库。“常规”RDS允许您启动现有的流行数据库,如MySQL、PostgreSQSL和其他您也可以在家中/工作中启动的数据库。
Aurora是内部的云本地实现数据库,与MySQL和PosrgreSQL兼容.它可以存储与RDS MySQL或PosrgreSQL相同的数据,但它提供了许多无法用于RDS的特性,如更多的读取副本、分布式存储、全局数据库等等。
S3不是一个数据库,而是一个对象存储,您可以在这里存储文件,比如图像、csv等,类似于将它们存储在计算机上。
我理解这将我的本地帖子连接到AWS,但是我在amazon页面中找不到数据,只创建一个实例?
如果您愿意的话,您可以将您的数据从本地帖子迁移到RDS或Aurora。但是RDS和Aurora不会连接到您现有的本地数据库,因为它们是数据库
我的最后一个目标是在云中运行笔记本,并连接到云中的postgres。
我看不出为什么你不能连接到数据库。您可以尝试使它工作,如果您遇到困难,您可以提出新的问题与RDS/Aurora设置的细节。
https://stackoverflow.com/questions/65569634
复制相似问题