我和我的团队有一个基于亚马逊Kinesis服务的流媒体系统,它使用Java独立消费者和KCL向其他团队提供跟踪信息。我们决定将这个系统迁移到Google Cloud Platform。
我们了解到,Google平台中Amazon Kinesis的自然替代品是Google Cloud Dataflow服务。是那么回事吗?
另一个问题是数据分区,因为我们在Kinesis中使用user-id作为分区键。在Google Dataflow上做同样的分区是可能的吗?
当然,以前有没有人做过类似的从AWS到Google平台的迁移?有什么建议吗?
发布于 2017-04-01 05:18:33
是的,Cloud Dataflow将是正确的替代方案,如果您想要使用主题和订阅,您可能还希望考虑将Cloud Pub/Sub作为您的消息传递中间件。
在Dataflow中,完全可以通过键对数据进行分区,但您不需要为整个管道决定单个分区键。相反,当您准备好执行聚合操作时,您只需定义一个GroupByKey转换,数据流将正确地将您的数据切分到存储桶中,并以分布式方式在多个工作进程中并行处理它们。每个worker将拥有你的键的一个子范围。
你可以在一个序列中有多个GroupByKeys,它们可以使用不同的键来进行分片和聚合。
最近一个前AWS用户迁移到GCP (具体地说,Dataflow)的例子是Brightcove。这是他们的GCP Next session https://www.youtube.com/watch?v=3BrcmUqWNm0&feature=youtu.be&t=29m30s的记录
https://stackoverflow.com/questions/43149283
复制相似问题