首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何构建数据分析流水线过程

如何构建数据分析流水线过程
EN

Data Science用户
提问于 2018-05-08 17:12:35
回答 1查看 57关注 0票数 3

我有一系列的剧本。有些在R中,有些在Python中,还有一些在SAS中。我构建它们的方式是,一个代码输出下一个代码获得的.csv文件,然后该代码输出一个.csv文件,等等……

我希望创建一个脚本,该脚本将按照顺序自动运行每个脚本,以便能够自动生成最终输出。

什么方法是最好的,谁能指点我的任何程序的例子?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-05-08 17:54:41

总之,我只是尝试编写bash脚本(或windows中的powershell ),然后将命令串在一起。然而,这种方法是相当脆弱的,因为在事情被覆盖,如果它是一个端到端的过程,有很长的批。

当将依赖的任务串在一起时,我倾向于使用像luigi或气流这样的工作流包。Luigi的想法是,你可以把每个动作分解成一个任务。每个任务都有三个所需的功能。

  1. 需求-在此任务运行之前需要存在什么?
  2. 输出-输出到哪里?
  3. 跑-任务是什么?

因此,从本质上说,您只需链接一堆任务,并定义您的run函数,以便使用类似于子流程的方法调用您以前构建的脚本。在需求中,您将引用最后一步,对于输出,您将指向写入文件的位置。

这样做的好处是,如果您的流程在任务50中中断了100个任务,您不必重新运行所有50个任务,luigi将沿着依赖树向下运行,直到它发现一个需求没有得到满足为止。

从Pytho呼叫R 罗吉

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/31399

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档