有没有办法在流水线中缓存实体的输出,如果我运行相同的流水线,但配置略有不同(想一想超参数调整),流水线中不受配置更改影响的某些初始步骤将不会多次执行?
Raw data -> CPU expensive preprocessing (A) -> model fitting (B) -> model
我希望能够运行A一次,但是B有多个变体。
在Dagster中有没有一种优雅的方法来实现这一点?
发布于 2019-12-12 04:36:15
我不知道这个功能已经存在了。
当存储被设置为文件系统时,Dagster可以重新运行实体,但还没有看到任何像你所描述的那样的缓存。我可以提交一个issue to Dagster,如果这里没有太多的牵引力,然后返回报告
几种可能的解决方法
https://stackoverflow.com/questions/59265886
复制相似问题