我有一系列的剧本。有些在R中,有些在Python中,还有一些在SAS中。我构建它们的方式是,一个代码输出下一个代码获得的.csv文件,然后该代码输出一个.csv文件,等等……
我希望创建一个脚本,该脚本将按照顺序自动运行每个脚本,以便能够自动生成最终输出。
什么方法是最好的,谁能指点我的任何程序的例子?
发布于 2018-05-08 17:54:41
总之,我只是尝试编写bash脚本(或windows中的powershell ),然后将命令串在一起。然而,这种方法是相当脆弱的,因为在事情被覆盖,如果它是一个端到端的过程,有很长的批。
当将依赖的任务串在一起时,我倾向于使用像luigi或气流这样的工作流包。Luigi的想法是,你可以把每个动作分解成一个任务。每个任务都有三个所需的功能。
因此,从本质上说,您只需链接一堆任务,并定义您的run函数,以便使用类似于子流程的方法调用您以前构建的脚本。在需求中,您将引用最后一步,对于输出,您将指向写入文件的位置。
这样做的好处是,如果您的流程在任务50中中断了100个任务,您不必重新运行所有50个任务,luigi将沿着依赖树向下运行,直到它发现一个需求没有得到满足为止。
https://datascience.stackexchange.com/questions/31399
复制相似问题