首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从MapReduce中的Mapper访问数据库

从MapReduce中的Mapper访问数据库
EN

Stack Overflow用户
提问于 2017-02-15 09:26:55
回答 1查看 66关注 0票数 1

我计划开发我正在开发的下一代分析系统,并考虑使用MapReduce/Stream-Processing平台(如FlinkSpark Streaming等)实现它。

对于分析,映射程序必须具有DB访问权限。

因此,我最关心的是,当映射器被并行时,来自连接池的连接都将被使用,并且可能有一个映射器无法访问DB。

我该怎么处理呢?这是我需要关心的事情吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-02-15 11:35:48

正如您已经指出的,拉式策略将是低效和/或复杂的。

您从DB中摄取元数据的策略将取决于元数据的数量和元数据变化的频率。无论是哪种方式,在需要的时候从获取元数据,以及在元数据更改时接受更新,都可能是一种很好的方法。

一些想法:

  • 定期将元数据转储到平面文件/s到分布式文件系统中。
  • 在写入时对管道进行流式元数据更新,以保持内存中缓存的最新更新。
  • 使用单独的机制获取元数据,例如Akka Actor/s轮询更改。

这将取决于您能够为给定的用例所做的权衡。

如果DB交互性是不可避免的,我想知道map-还原样式框架是否是解决问题的最佳方法。但是,任何失败的任务都应该由框架重新尝试。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42245348

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档