我正在开发一个使用Python-Django框架的ELT工具。
在该工具中,我们可以调度作业并将其发布到Apache Oozie中。
我需要为每个作业实现数据沿袭报告。总的来说,我在wiki中探索过“什么是数据谱系”。
我需要帮助--我应该如何实现这种数据谱系?无需使用任何外部工具和Apache Falcon。
发布于 2015-05-20 23:24:22
由于您使用的是Python-Django框架,并且使用Oozie执行大部分作业调度,因此建议使用Falcon进行谱系跟踪。它易于在hadoop生态系统中使用和跟踪谱系。
但是,如果您不希望使用Apache Falcon,您可以始终实现任何图形数据库(Neo4J或TitanDB),并使用D3.js绘制图形。为此,您需要以特定模式将谱系(图)变量存储在GraphDB中。一旦在GraphDB中设置了所有内容,就可以很容易地编写D3 java脚本来检索它们并绘制图形。
你可以在这里阅读更多关于D3的内容:
http://chimera.labs.oreilly.com/books/1230000000345/index.html
https://stackoverflow.com/questions/29800317
复制相似问题