我对BigData体系结构非常陌生,所以请不要对我太苛刻。
我正试图找到最好的替代方案来构建能够处理大量数据的BI体系结构。在我看来,解决方案必须是集群/水平可伸缩的,以应对系统的增长。我希望能够使用sql与系统进行交互,因此HBase + Hive (甚至Pig )不是用于SQL,而是不需要手动编写MR任务。这样一种体系结构相对于EXAS卷积和它们的内存中MPP -柱状解决方案的优缺点是什么?
还有其他可能带来额外好处的选择吗?那么维护和配置呢?任何Microsoft解决方案(我可能会在这方面找到客户的特定需求)
很抱歉发布了这样一个公开的问题,但我希望看到一些讨论,以便我可以向您学习尽可能多。
发布于 2015-08-18 06:32:06
虽然作为一个EXASOL的家伙,我不会开始试图说服你,EXASOL是唯一的一个好的解决方案。这在很大程度上取决于您要实现的用例,以及您必须满足的需求。
Hadoop是一个非常灵活、可伸缩的系统,经常用于存储和处理海量数据。
相比之下,EXASOL是用于复杂分析查询处理的专用关系数据库管理系统。
我认为这两种选择并不是真正的直接竞争,而是相辅相成的。在许多情况下,公司需要一个可伸缩的数据湖来存储和预处理那里的数据,或者以更简单的方式查询数据。一旦你想通过复杂的分析进入实时业务,在那里,数十名、数百名甚至数千名分析师正在运行大量的查询,那么内存中的RDBMS是一个很好的选择。
金,糖果粉碎,把这两个世界的结合到一个强大的数据管理生态系统。他们在Hadoop中存储千兆字节的数据,并在上面使用EXASOL作为存储数百兆字节数据的内存层。您可以在这里阅读更多关于这个令人兴奋的用例的内容:http://bit.ly/1TR8APY
这两个世界的另一个重要区别是复杂性。虽然EXASOL是免费的,因为它是一个专门的系统(类似于设备),用于运行SQL查询或数据库中的R/Python/Java分析的用例,而Hadoop堆栈则要复杂得多。您将需要一定程度的知识,如何设置,维护和调整这个系统。这不需要成为两种选择中任何一种的理由。如前所述,这在很大程度上取决于你想要什么。
从价格的角度来看,是免费的,因此它应该比内存中的数据库(如EXASOL )便宜得多,对吗?等等,没那么容易。再一次,你必须考虑整个情况。你真正想要存储多少数据,有多少数据需要被查询以进行分析,你需要购买多少硬件,有多少人需要雇佣和培训你的操作或系统中部署的分析工具。
摘要
总结一下我的想法,世界太复杂了,无法直接比较这两种技术。根据用例和您的个人需求,其中一个或另一个可能是更好的选择。在我看来,市场的趋势是将这样的系统组合成一个数据mgmt生态系统,在这里你可以从这两个世界中得到最好的结果……实际上有三个世界,因为这里还应该提到NoSQL解决方案的操作数据处理世界。
我希望这能帮点忙。如果您需要更多的详细信息,特别是关于EXASOL的信息,请立即与我联系,或在LinkedIn: LinkedIn上与我联系
https://stackoverflow.com/questions/31960209
复制相似问题