问如何构建数据分析流水线过程
EN

Data Science用户

提问于 2018-05-08 17:12:35

回答 1查看 57关注 0票数 3

我有一系列的剧本。有些在R中，有些在Python中，还有一些在SAS中。我构建它们的方式是，一个代码输出下一个代码获得的.csv文件，然后该代码输出一个.csv文件，等等……

我希望创建一个脚本，该脚本将按照顺序自动运行每个脚本，以便能够自动生成最终输出。

什么方法是最好的，谁能指点我的任何程序的例子？

回答已采纳

发布于 2018-05-08 17:54:41

总之，我只是尝试编写bash脚本(或windows中的powershell )，然后将命令串在一起。然而，这种方法是相当脆弱的，因为在事情被覆盖，如果它是一个端到端的过程，有很长的批。

当将依赖的任务串在一起时，我倾向于使用像luigi或气流这样的工作流包。Luigi的想法是，你可以把每个动作分解成一个任务。每个任务都有三个所需的功能。

因此，从本质上说，您只需链接一堆任务，并定义您的run函数，以便使用类似于子流程的方法调用您以前构建的脚本。在需求中，您将引用最后一步，对于输出，您将指向写入文件的位置。

这样做的好处是，如果您的流程在任务50中中断了100个任务，您不必重新运行所有50个任务，luigi将沿着依赖树向下运行，直到它发现一个需求没有得到满足为止。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/31399

复制

相似问题

问如何构建数据分析流水线过程EN