对于我们继承的一个项目,我们有一大堆600 be的遗留数据,我们想要存档,但如果需要的话,仍然可以使用。
根据本教程,我们正在考虑使用亚马逊网络服务数据管道将数据从数据库移动到S3中。
https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html
但是,如果我们发现应用程序实际上正在使用特定的行,我们也希望能够检索数据的“行”。
显然,该教程将表中的所有数据放入一个巨大的CSV文件中。
是否可以将数据拆分为多个单独的文件,每个文件中有100行数据,并为每个文件指定一个可预测的文件名,例如:
foo_data_10200_to_10299.csv
因此,如果我们意识到需要检索第10239行,我们就可以知道要检索哪个文件,并下载该文件,而不是下载所有600 to的数据。
发布于 2018-03-17 05:03:15
如果您的数据以CSV格式存储在亚马逊S3中,有几种方法可以轻松检索所选数据:
亚马逊雅典娜是一种交互式查询服务,可以使用标准的Select (当前处于预览中)轻松地分析亚马逊S3中的数据。借助它,应用程序可以使用简单的表达式从对象中仅检索数据的子集。
它们也适用于压缩(gzip)文件,以节省存储空间。
请参见:
https://stackoverflow.com/questions/49319527
复制相似问题