我正在努力寻找数据科学团队扩展的最佳实践,即找到一个有效的工作流程/方法,在软件工程师和研究人员之间进行分工。
我将解释: SE和研究人员都需要其他人产生的输出,但他们不一定有相同的约束。
当我们在同一个Git存储库上工作时,我们如何协调这两者之间的关系,使两个涉众都满意,并使工作尽可能高效?
例如,研究人员可能对将实验脚本重构为将代码分解为较小代码的软件包感到不快,或者不得不确保他们的代码不破坏现有的CI测试,这可能会让他们感到沮丧。
你能想到有趣的模式(或者指向有趣的资源、书籍、博客等等)吗?当两个涉众都在同一个团队/产品中工作时,这有助于使流程更加顺畅?非常感谢。
发布于 2022-12-04 10:32:33
协调数据科学团队中软件工程师和研究人员的不同需求的一个潜在解决方案是使用Git存储库中的一个单独的分支进行实验。这样,研究人员就可以在单独的分支中进行实验和模型开发,而不会影响软件工程师用于代码可维护性、测试和部署的主要分支。
为了确保研究人员的工作以不影响代码质量和可维护性的方式集成到主要分支中,可以实现代码评审过程。在这个过程中,研究人员可以提交他们的实验代码供软件工程师审查,软件工程师可以在代码合并到主要分支之前提供反馈和改进建议。
另一个潜在的解决方案是使用基于包的开发方法,其中用于实验和模型开发的代码被组织成模块化的包。这可以帮助提高代码的可维护性,并使软件工程师和研究人员在不干扰彼此工作的情况下更容易地处理代码库。
总的来说,数据科学小组必须建立明确的沟通和协作过程,以确保软件工程师和研究人员的不同需求得到满足,并有效地开展工作。
https://datascience.stackexchange.com/questions/54049
复制相似问题