首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据科学项目中的数据融合方法

数据科学项目中的数据融合方法
EN

Data Science用户
提问于 2023-01-20 17:04:27
回答 2查看 55关注 0票数 4

这更像是一个关于数据科学的基础设施问题。如何管理GitHub存储库中的数据合并?

作为一个例子,作为一个数据科学家,我可能在我的分支和开发代码,分析ecc.ecc。将代码合并回主程序并不是一个问题,是标准的软件工程工作。

但是,您将如何管理数据?您将如何管理我所建立的分析/模型的输出?您将如何解决冲突,以及如何保证代码和生成的数据对齐?

我想出了一个简单的解决方案,就是有一个CI管道,一旦有人合并到主程序中并重新运行所有代码,就会触发这个管道。作为一个例子,运行数据提取流水线,对模型进行训练,将模型存储在S3 ecc上。

这样您就可以将您的数据输出复制到主服务器上,您可以保证代码和数据对齐,并且它是自动的。然而,对于长管道来说,这意味着(例如)等待10小时才能收集到数据并安装模型。

我一直在寻找资源或可能的解决方案在网上没有成功,这似乎是一个非常重要,但没有太多讨论的问题。

EN

回答 2

Data Science用户

发布于 2023-02-08 16:48:45

@Mattia,您可以使用DVC对您的数据、管道、工件和实验进行版本化。DVC将绝对调整您的代码与您的数据,并防止去重复。

关于长管道和再培训,在情况不变的情况下(例如加载数据),DVC将跳过这一步骤,如果它没有改变。因此,如果您将脚本分解成几个阶段,您就可以让您的模型只在您进行更改/实验的地方运行(例如,更改超参数),从而节省大量时间。

下面是对您有用的持久化实验的链接:https://dvc.org/doc/user-guide/experiment-management/persisting-experiments#persisting-experiments

这里还有一篇关于端到端场景的博客文章,它可能会为您的问题提供一些帮助,特别是如果这是计算机视觉场景:https://iterative.ai/blog/end-to-end-computer-vision-api-part-1-data-versioning-and-ml-pipelines/

希望这能帮上忙!坦白地说,我是迭代公司的社区管理人员( DVC.org、CML.dev和MLEM.ai (开源)的维护者,以及Iterative (SaaS)的维护者)。并随时加入我们的服务器,以获得任何问题的帮助!https://discord.com/invite/dvwXA2N

票数 3
EN

Data Science用户

发布于 2023-01-22 21:46:14

您可以使用实体解析/匹配和去重叠技术来解决问题。根据定义,给定数据集和这类数据集的两个实体/行( e_1e_2 ),实体解析将推断e_1是否与e_2匹配。也可以为重复提供类似的定义。

我设想了一个场景,您已经有了一些数据,并且希望将新数据添加到旧的数据中。然后,您希望避免重复,因为这就像在代码上下文中复制代码一样。

在Python中,有一些开源项目,如德杜普

您还应该查看DVCGX中其他与数据质量相关的问题。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/117923

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档