首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >添加依赖管道输出的文件

添加依赖管道输出的文件
EN

Stack Overflow用户
提问于 2022-06-16 20:34:25
回答 1查看 47关注 0票数 1

在我的工作流程中,我执行以下操作:

  1. 获取原始数据(例如包含人的视频)
  2. 变换它(例如,自动提取所有有脸的作物)
  3. 手动标记它们(例如,识别每种作物中的人)。标签和农作物一起存储在json文件中。
  4. 根据这些数据建立一个模型。

如何使用DVC?跟踪这条管道?

我所关切的是:

  1. 如果第二阶段发生变化(例如,提取不同大小的作物),则手动数据应失效(最终模型也应如此)。
  2. 第三步是手工操作,因此不能精确复制。但我确实需要它的投入才能重现。
  3. 第四阶段有一个随机性元素,所以它也不能精确地再现。
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-06-18 03:39:31

第三阶段是手动的,所以您不能真正地将其编码或自动化,也不能保证它的可重现性(由于可能的人为错误)。但有个办法能让你尽可能接近:

您可以用一个助手脚本替换它,该脚本只检查所有标签是否都有注释。如果是这样,输出一个内容为“绿色”、否则为“红色”的文本文件(例如)并输出错误。

第四阶段应依赖于第二阶段和第三阶段的输入,因此只有当两种表面作物都发生了变化,并且对它们进行了彻底注释时,它才会运行。在内部,它首先检查信号量文件(从3)并在红色上死亡。在绿色方面,它训练模型:)

达格看起来如下所示:

代码语言:javascript
复制
          +-----------+       
          | 1-acquire |       
          +-----------+       
                *          
                *          
                *          
          +---------+       
          | 2-xform |       
          +---------+       
 you      **        **     
   -->  **            **   
       *                ** 
+---------+               *
| 3-check |             ** 
+---------+           **   
          **        **     
            **    **       
              *  *         
          +---------+      
          | 4-train |      
          +---------+      

重新随机性:虽然不理想,但非确定性,技术上只有管道的影响中间阶段,因为它导致之后的一切总是运行。在这种情况下,由于它是在最后阶段,它不会影响DVC的工作。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72651603

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档