第一,这不是一个问题,要求帮助部署下面的组件一步一步。我要问的是如何设计架构的建议。我计划使用现有数据开发一个报告平台。以下是我通过研究收集的数据。
我有一个现有的RDBMS,它有大量的记录。所以我用
我要知道的是部署了Hadoop 2集群,如下所示
我的问题是
请告诉我一种合适的建筑设计方法。请提供详细的答复。
请注意,如果您能够提供任何类似性质的技术指南或案例研究,这将是非常有帮助的。
发布于 2015-11-10 17:44:38
你已经搞清楚了!我所有的回答都只是一般的观点,并且可能会根据数据和要执行的操作的风格而发生剧烈的变化。另外,问题意味着这些行动的数据和结果是至关重要的,我认为是这样的。
蜂巢上的火花会加速一切
不一定正确。轶事证据,这一职位( cloudera),证明了完全相反。实际上,反之亦然,也就是火堆上的蜂巢。
我应该在哪个节点部署星火?A或B,考虑到我想支持故障转移.这就是为什么我在B上配置了一个单独的namenode。我应该在每个实例上部署Spark吗?工作节点应该是谁?
当然-无论如何,在大多数情况下。将A或B设为主节点,其余的都可以是工作节点。如果您不想在体系结构中使用SPOF,请参阅火花文档的高可用性部分,需要做一些额外的工作。
有比蜂巢更好的选择吗?
这是一个主观的和具体的任务。如果SQL查询感觉很自然,并且适合这项任务,那么Cloudera也会推广黑斑羚,它声称执行速度比Hive快一个数量级。但在Apache生态系统中却是个陌生人。使用scala,如果您能够很好地输入一些python或scala,那么您可以在享受这些语言提供的表现力的同时进行类似SQL的查询。
我应该如何连接JasperReports?到哪里去?去蜂巢还是火花?
不知道这件事。
https://stackoverflow.com/questions/33635234
复制相似问题