我们希望在代码存储库中构建一个单独的管道,用于清理、协调数据并将其转换为感兴趣的功能。我们希望将单个管道代码应用于不同的输入,然后测试输出的效果。
例如,我们想在合成数据上测试管道,“真实”数据的版本1只包括回顾数据,而“真实”数据的版本2包括回顾数据和前瞻性数据。输出的比较可以是版本1与版本2相比,糖尿病患者的百分比。
我看到你可以在foundry中模版代码库。这是一个可行的选择吗?您是否可以将您的代码存储库作为模板,并应用于我提供的三个场景?有没有更好的选择?
发布于 2021-09-28 20:29:35
如果您的数据规模相当小,我建议您在这里沿着测试驱动的开发路径进行开发,而不是尝试比较和对比各种数据集的结果。你会发现迭代时间和精确比较结果的难度可能相当高。
为此,您应该遵循我布局here的方法,并为您期望在代码库中作为.csv文件的每个输入创建具有代表性的数据集,然后您可以将这些模式作为唯一输入合并到您的核心代码中,并轻松地检查输出。
这将使您更容易、更快地“收紧”您的代码,之后您可以在真实的完整数据上运行此逻辑,并根据您的意愿生成输出。
模板化代码是可能的,但应该非常小心地合并。如果您真正要解决的是比较和对比代码在任意模式上的执行情况,那么您应该使用测试驱动的in-repo开发。如果您想要的是在代码工作后跨各种输出运行一组核心逻辑,那么生成的转换将非常有效。如果你真正想要的是在不同许可的项目之间展开一个大型的转换代码库,其中每个项目都需要完全独立/单独配置,那么也许你应该考虑模板。我会坚持测试驱动的开发和生成的转换,直到你证明不是这样。
https://stackoverflow.com/questions/69354295
复制相似问题