文章/答案/技术大牛

发布

社区首页 >问答首页 >Apache (scala) + python/R用于数据分析的工作流程

问Apache (scala) + python/R用于数据分析的工作流程
EN

Stack Overflow用户

提问于 2016-03-04 09:56:11

回答 1查看 268关注 0票数 1

我想知道人们用这个堆栈做什么来进行数据分析。我对Scala特别感兴趣，因为它似乎具有更新的特性，而且它对Spark来说更“自然”。

但是，我不确定在大数据被处理和减少之后，数据可视化和探索方面的最佳实践是什么。

例如，我在~2Bn记录上运行了一个星火作业，现在我有了一个由大约100 k条记录组成的星火数据表，其中包含了一些我想要在python或R中进行直方图、绘图和应用ML的结果。

实现这两个世界之间握手的最佳方式是什么？将结果保存到文件中？(如果是的话，最好的选择是什么，地板，avro，json，csv?)把它保存到数据库里？

基本上，我想知道其他人认为哪些人最适合使用类似的堆栈。

bigdata

apache-spark

apache-spark-sql

data-analysis

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-04 13:24:00

一旦数据被转换或在星星之火中崩溃，您可以考虑下面的操作来可视化数据。

用于交互式数据分析的阿帕奇齐柏林。

另一种选择是在ElasticSearch中存储火花作业输出的结果，我们可以使用Kibana可视化。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35792956

复制

相似问题

问Apache (scala) + python/R用于数据分析的工作流程
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache (scala) + python/R用于数据分析的工作流程EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache (scala) + python/R用于数据分析的工作流程
EN