首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >扩展数据科学/工程团队的最佳实践

扩展数据科学/工程团队的最佳实践
EN

Data Science用户
提问于 2019-06-18 21:07:05
回答 1查看 41关注 0票数 4

我正在努力寻找数据科学团队扩展的最佳实践,即找到一个有效的工作流程/方法,在软件工程师和研究人员之间进行分工。

我将解释: SE和研究人员都需要其他人产生的输出,但他们不一定有相同的约束。

  • 对于SE来说,最重要的是:代码可维护性、测试、CI/CD、为提高开发速度重构代码基、L在存储库中尽可能少的分支

  • 对于研究人员来说,重要的是:实验的速度,实验的管理,实验的日志记录,模型管理和版本控制,用于实验的多个Git分支

当我们在同一个Git存储库上工作时,我们如何协调这两者之间的关系,使两个涉众都满意,并使工作尽可能高效?

例如,研究人员可能对将实验脚本重构为将代码分解为较小代码的软件包感到不快,或者不得不确保他们的代码不破坏现有的CI测试,这可能会让他们感到沮丧。

你能想到有趣的模式(或者指向有趣的资源、书籍、博客等等)吗?当两个涉众都在同一个团队/产品中工作时,这有助于使流程更加顺畅?非常感谢。

EN

回答 1

Data Science用户

发布于 2022-12-04 10:32:33

协调数据科学团队中软件工程师和研究人员的不同需求的一个潜在解决方案是使用Git存储库中的一个单独的分支进行实验。这样,研究人员就可以在单独的分支中进行实验和模型开发,而不会影响软件工程师用于代码可维护性、测试和部署的主要分支。

为了确保研究人员的工作以不影响代码质量和可维护性的方式集成到主要分支中,可以实现代码评审过程。在这个过程中,研究人员可以提交他们的实验代码供软件工程师审查,软件工程师可以在代码合并到主要分支之前提供反馈和改进建议。

另一个潜在的解决方案是使用基于包的开发方法,其中用于实验和模型开发的代码被组织成模块化的包。这可以帮助提高代码的可维护性,并使软件工程师和研究人员在不干扰彼此工作的情况下更容易地处理代码库。

总的来说,数据科学小组必须建立明确的沟通和协作过程,以确保软件工程师和研究人员的不同需求得到满足,并有效地开展工作。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/54049

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档