我有多个数据源,需要在AWS中构建和实现DWH。对于我的非结构化数据源(来自不同API的数据),我有一个挑战。我如何从这个来源摄取数据到亚马逊红移?我们能先把它拉到亚马逊的S3桶中,然后将S3与Amazon集成起来吗?什么是更好的方法?
发布于 2022-05-22 18:01:40
是的,S3先来。您可以将API写入S3或/如果您愿意的话,可以使用像Kinesis这样的服务(有或没有消防水管)来填充S3。从那以后,就是红班的工作了。
发布于 2022-05-26 03:13:52
在不了解更多的源的情况下,是的,S3可能是正确的方法--您是否需要在秒、分钟或小时内延迟将是一个重要的考虑因素。
如果延迟不是驱动问题,那么简单地:
如前所述,Kinesis中可能有价值,特别是如果您正在处理实时数据流(用于跳过S3并直接流到Redshift的服务S3)。
如果您不尝试分析实时流,S3可能是更简单的方法。
https://stackoverflow.com/questions/72323830
复制相似问题