首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop数据可视化

Hadoop数据可视化
EN

Stack Overflow用户
提问于 2017-02-06 07:57:21
回答 3查看 2.9K关注 0票数 1

我是一个新的hadoop开发人员,我已经能够在一个单节点集群中安装和运行hadoop服务。问题出现在数据可视化过程中。当我需要使用像Tableau这样的数据可视化工具时,MapReduce jar文件会发挥什么作用。我有一个结构化的数据源,在其中我需要添加一层逻辑,以便数据在可视化过程中有意义。如果要使用其他工具可视化,是否需要编写MapReduce程序?请说明一下我如何处理这个问题。

EN

回答 3

Stack Overflow用户

发布于 2017-02-06 08:35:17

这可能取决于您正在使用的Hadoop发行版以及存在哪些工具。它还取决于实际的数据准备任务。

如果您不想自己编写map-还原或触发代码,您可以使用Hive (它转换为map-)或更快的Impala来尝试类似SQL的查询。使用SQL,您可以创建表格数据(单元表),这些数据可以很容易地使用。Tableau为它们提供了连接器,可以自动将tableau配置/请求转换为Hive/Impala。我建议与黑斑羚联系,因为它的速度。如果您需要做一些需要更多编程的工作,或者仅仅使用SQL是不够的,那么您可以尝试Pig。Pig是一种高级脚本语言,可以编译成映射-减少代码。您可以在它们各自的编辑器中使用Hue或CLI来尝试上述所有内容。

如果您觉得上面的所有内容仍然不适合您的用例,我建议编写映射--减少火花代码。Spark不需要仅用Java编写,并且具有通常速度更快的优点。

大多数工具都可以与单元表集成,这意味着您不需要重写代码。如果工具没有提供此功能,则可以从单元表中提取CSV,也可以将表保存为CSV/TSV。然后,可以在可视化工具中导入这些文件。

票数 2
EN

Stack Overflow用户

发布于 2017-02-06 09:27:10

现有的答案已经涉及到这一点,但有点宽泛,所以我决定集中讨论关键部分:

数据可视化的典型步骤

  1. 使用您喜欢的hadoop工具进行复杂的计算。
  2. 在(单元)表中提供输出
  3. 将数据放入可视化工具(例如Tableau)的内存中,例如使用JDBC

如果数据太大,无法将其拖入内存中,则可以将其拖到普通SQL数据库中,并直接通过可视化工具进行处理。(如果您直接使用hive,您会疯狂的,因为最简单的查询需要30+秒。)

如果由于某种原因无法/希望连接可视化工具,解决方法是转储输出文件,例如CSV,然后将这些文件加载到可视化工具中。

票数 0
EN

Stack Overflow用户

发布于 2019-05-31 09:25:25

查看一些数据可视化的端到端解决方案。

例如,像Metatron发现号一样,它使用德鲁伊作为它们的OLAP引擎。因此,您只需将hadoop链接到Druid,然后就可以相应地管理和可视化hadoop数据。这是一个开源,所以您也可以看到其中的代码。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42062838

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档