首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache (scala) + python/R用于数据分析的工作流程

Apache (scala) + python/R用于数据分析的工作流程
EN

Stack Overflow用户
提问于 2016-03-04 09:56:11
回答 1查看 268关注 0票数 1

我想知道人们用这个堆栈做什么来进行数据分析。我对Scala特别感兴趣,因为它似乎具有更新的特性,而且它对Spark来说更“自然”。

但是,我不确定在大数据被处理和减少之后,数据可视化和探索方面的最佳实践是什么。

例如,我在~2Bn记录上运行了一个星火作业,现在我有了一个由大约100 k条记录组成的星火数据表,其中包含了一些我想要在python或R中进行直方图、绘图和应用ML的结果。

实现这两个世界之间握手的最佳方式是什么?将结果保存到文件中?(如果是的话,最好的选择是什么,地板,avro,json,csv?)把它保存到数据库里?

基本上,我想知道其他人认为哪些人最适合使用类似的堆栈。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-04 13:24:00

一旦数据被转换或在星星之火中崩溃,您可以考虑下面的操作来可视化数据。

用于交互式数据分析的阿帕奇齐柏林

另一种选择是在ElasticSearch中存储火花作业输出的结果,我们可以使用Kibana可视化。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35792956

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档