我有十几个存储不同数据的数据库,每个数据库的大小都是100 in。所有数据都存储在AWS服务中,如RDS、Aurora和Dynamo。
很多时候,我发现自己需要跨数据库执行“联接”,例如,在多个数据库中显示一个学生ID,其中包含我想要收集的数据。连接通常是在数据从数据库中流出之后进行的,因为数据不在同一个数据库中,这有时只需要对数千条记录进行几个小时。
诸如或之类的服务是否允许您以某种方式从许多数据源“导入”数据,然后您可以执行SQL查询来加入它们?
Hadoop和Hive怎么样?我们将数据从数据库中释放出来,并将其作为文件放在Hadoop中,然后让Hive查询数据?
发布于 2018-01-11 09:41:08
诸如或之类的服务是否允许您以某种方式从许多数据源“导入”数据,然后您可以执行SQL查询来加入它们?
这取决于您的数据和您正在执行的连接类型。但是,是的,像Redshift这样的数据库在您的用例中肯定会表现得更好,因为它们是基于列的数据库。阅读这个职位和相关答案,以了解列数据存储如何处理数据。
Hadoop和Hive怎么样?
Hadoop + Hive主要是一个DIY托管/云版本,它是Redshift提供给您的云版本。
https://datascience.stackexchange.com/questions/26499
复制相似问题