我是一个新的hadoop开发人员,我已经能够在一个单节点集群中安装和运行hadoop服务。问题出现在数据可视化过程中。当我需要使用像Tableau这样的数据可视化工具时,MapReduce jar文件会发挥什么作用。我有一个结构化的数据源,在其中我需要添加一层逻辑,以便数据在可视化过程中有意义。如果要使用其他工具可视化,是否需要编写MapReduce程序?请说明一下我如何处理这个问题。
发布于 2017-02-06 08:35:17
这可能取决于您正在使用的Hadoop发行版以及存在哪些工具。它还取决于实际的数据准备任务。
如果您不想自己编写map-还原或触发代码,您可以使用Hive (它转换为map-)或更快的Impala来尝试类似SQL的查询。使用SQL,您可以创建表格数据(单元表),这些数据可以很容易地使用。Tableau为它们提供了连接器,可以自动将tableau配置/请求转换为Hive/Impala。我建议与黑斑羚联系,因为它的速度。如果您需要做一些需要更多编程的工作,或者仅仅使用SQL是不够的,那么您可以尝试Pig。Pig是一种高级脚本语言,可以编译成映射-减少代码。您可以在它们各自的编辑器中使用Hue或CLI来尝试上述所有内容。
如果您觉得上面的所有内容仍然不适合您的用例,我建议编写映射--减少或火花代码。Spark不需要仅用Java编写,并且具有通常速度更快的优点。
大多数工具都可以与单元表集成,这意味着您不需要重写代码。如果工具没有提供此功能,则可以从单元表中提取CSV,也可以将表保存为CSV/TSV。然后,可以在可视化工具中导入这些文件。
发布于 2017-02-06 09:27:10
现有的答案已经涉及到这一点,但有点宽泛,所以我决定集中讨论关键部分:
数据可视化的典型步骤
如果数据太大,无法将其拖入内存中,则可以将其拖到普通SQL数据库中,并直接通过可视化工具进行处理。(如果您直接使用hive,您会疯狂的,因为最简单的查询需要30+秒。)
如果由于某种原因无法/希望连接可视化工具,解决方法是转储输出文件,例如CSV,然后将这些文件加载到可视化工具中。
发布于 2019-05-31 09:25:25
查看一些数据可视化的端到端解决方案。
例如,像Metatron发现号一样,它使用德鲁伊作为它们的OLAP引擎。因此,您只需将hadoop链接到Druid,然后就可以相应地管理和可视化hadoop数据。这是一个开源,所以您也可以看到其中的代码。
https://stackoverflow.com/questions/42062838
复制相似问题