我想知道人们用这个堆栈做什么来进行数据分析。我对Scala特别感兴趣,因为它似乎具有更新的特性,而且它对Spark来说更“自然”。
但是,我不确定在大数据被处理和减少之后,数据可视化和探索方面的最佳实践是什么。
例如,我在~2Bn记录上运行了一个星火作业,现在我有了一个由大约100 k条记录组成的星火数据表,其中包含了一些我想要在python或R中进行直方图、绘图和应用ML的结果。
实现这两个世界之间握手的最佳方式是什么?将结果保存到文件中?(如果是的话,最好的选择是什么,地板,avro,json,csv?)把它保存到数据库里?
基本上,我想知道其他人认为哪些人最适合使用类似的堆栈。
发布于 2016-03-04 13:24:00
一旦数据被转换或在星星之火中崩溃,您可以考虑下面的操作来可视化数据。
用于交互式数据分析的阿帕奇齐柏林。
另一种选择是在ElasticSearch中存储火花作业输出的结果,我们可以使用Kibana可视化。
https://stackoverflow.com/questions/35792956
复制相似问题