我正在设计一个应用程序,它应该每15分钟从S3读取一个txt文件,解析由|分隔的数据,并将这些数据加载到3个不同的aws区域的aerospike集群中。文件大小范围为0-32 GB,最大记录数为500-1.3亿条。
我计划在每个亚马逊网络服务区域部署一个自定义的Java进程,它将从S3下载一个文件,并使用多个线程加载到aerospike中。
我刚刚遇到了aws glue。谁能告诉我,我是否可以使用aws glue将这大块数据加载到aerospike中?或任何其他建议,以建立一个高效和高性能的应用程序?
提前感谢!
发布于 2018-12-22 01:30:23
AWS Glue进行提取、转换,然后加载到RedShift、EMR或雅典娜中。相反,您应该看看AWS Data Pipeline,使用ShellCommandActivity通过提取和转换来运行您的s3数据,并将转换后的数据写入Aerospike。
https://stackoverflow.com/questions/53878008
复制相似问题