GCP管道服务之间的区别是什么:云数据流和云数据融合...对你来说是什么时候?
我做了一个高级定价,在数据融合中使用了10个基本实例。数据流中的10个实例集群(n1-standard-8)。
数据扩散的价格要高出一倍以上。
彼此之间的优缺点是什么?
发布于 2021-04-09 03:33:43
Cloud Dataflow是专门为高度并行的图形处理而构建的。并且可以用于批处理和基于流的处理。它还被构建为完全托管,混淆了管理和理解底层资源扩展概念的需要,例如如何优化shuffle性能或处理关键的不平衡问题。用户/开发人员负责通过代码构建图形;创建N个转换和/或操作以实现预期目标。例如:从存储器中读取文件,处理文件中的每一行,从行中提取数据,将数据转换为数字,以X为一组对数据求和,将输出写入数据湖。
云数据融合专注于支持数据集成场景,从源(通过可扩展的连接器集)读取和写入目标(例如BigQuery、存储等)。它确实具有并行化概念,但它们并不像云数据流那样被完全管理。CDF运行在Cloud Dataproc之上,Cloud Dataproc是基于Hadoop处理的托管版本。它的亮点是基于可视化的图形开发,它利用了一组可扩展的连接器和操作符。
你的问题是基于“成本”概念的。我的建议是退一步,定义你的处理/图形目标是什么样子。然后看看每种产品的价值。如果您希望完全控制处理语义,更多地关注分析,并希望以批处理方式运行,或者必须将重点放在数据流上。如果你想要点击式数据移动,对数据分析的关注度较低,并且不需要流媒体,那么可以考虑CDF。
https://stackoverflow.com/questions/67004525
复制相似问题