我对数据科学相当陌生,现在刚刚开始开发一个系统,要求我分析大量数据(例如,每个DB中有500万到600万条记录)。
更大的情况是:我有多个DB,其中包含需要集成的各种数据。在集成数据之后,我还需要执行一些数据分析。最后,我需要将数据可视化给许多客户。
总的来说,我想知道当前处理大数据的技术/趋势是什么(即使用java框架)。
发布于 2016-11-29 11:18:58
答案是:取决于您的非功能性需求。在决定使用哪种技术时,用例将是至关重要的。让我分享我的一个经验,以便澄清我的意思:
在2012年,我需要每月处理200万条非结构化记录,并对每分钟600个请求执行熵(信息论)和相似度算法。我们的设想包括:
考虑到这些需求(以及许多其他需求),在使用Casandra、Hadoop、Voldmort、neo4j执行PoCs之后,以及对压力、弹性、可伸缩性和健壮性的测试之后,我们找到了最佳的解决方案(2012年):
所以,一切都取决于你的需求。没有银弹。每一种情况都需要一个架构分析。
我记得当时美国宇航局正在用Hadoop处理AWS中每小时1TB的~1 1TB,原因是火星计划与好奇号有关。
在您的情况下,我建议您在需求中注意,可能是Java框架--它不是您所需要的(或者不仅仅是您所需要的):
祝好运!(不好意思,Stack溢出还不允许我添加引用链接--但我在这里讨论的所有内容都可以很容易地被谷歌搜索)。
https://stackoverflow.com/questions/40863269
复制相似问题