我计划开发我正在开发的下一代分析系统,并考虑使用MapReduce/Stream-Processing平台(如Flink、Spark Streaming等)实现它。
对于分析,映射程序必须具有DB访问权限。
因此,我最关心的是,当映射器被并行时,来自连接池的连接都将被使用,并且可能有一个映射器无法访问DB。
我该怎么处理呢?这是我需要关心的事情吗?
发布于 2017-02-15 11:35:48
正如您已经指出的,拉式策略将是低效和/或复杂的。
您从DB中摄取元数据的策略将取决于元数据的数量和元数据变化的频率。无论是哪种方式,在需要的时候从获取元数据,以及在元数据更改时接受更新,都可能是一种很好的方法。
一些想法:
这将取决于您能够为给定的用例所做的权衡。
如果DB交互性是不可避免的,我想知道map-还原样式框架是否是解决问题的最佳方法。但是,任何失败的任务都应该由框架重新尝试。
https://stackoverflow.com/questions/42245348
复制相似问题