文章/答案/技术大牛

发布

社区首页 >问答首页 >数据科学项目中的数据融合方法

问数据科学项目中的数据融合方法
EN

Data Science用户

提问于 2023-01-20 17:04:27

回答 2查看 55关注 0票数 4

这更像是一个关于数据科学的基础设施问题。如何管理GitHub存储库中的数据合并？

作为一个例子，作为一个数据科学家，我可能在我的分支和开发代码，分析ecc.ecc。将代码合并回主程序并不是一个问题，是标准的软件工程工作。

但是，您将如何管理数据？您将如何管理我所建立的分析/模型的输出？您将如何解决冲突，以及如何保证代码和生成的数据对齐？

我想出了一个简单的解决方案，就是有一个CI管道，一旦有人合并到主程序中并重新运行所有代码，就会触发这个管道。作为一个例子，运行数据提取流水线，对模型进行训练，将模型存储在S3 ecc上。

这样您就可以将您的数据输出复制到主服务器上，您可以保证代码和数据对齐，并且它是自动的。然而，对于长管道来说，这意味着(例如)等待10小时才能收集到数据并安装模型。

我一直在寻找资源或可能的解决方案在网上没有成功，这似乎是一个非常重要，但没有太多讨论的问题。

dataset

version-control

management

git

回答 2

Data Science用户

发布于 2023-02-08 16:48:45

@Mattia，您可以使用DVC对您的数据、管道、工件和实验进行版本化。DVC将绝对调整您的代码与您的数据，并防止去重复。

关于长管道和再培训，在情况不变的情况下(例如加载数据)，DVC将跳过这一步骤，如果它没有改变。因此，如果您将脚本分解成几个阶段，您就可以让您的模型只在您进行更改/实验的地方运行(例如，更改超参数)，从而节省大量时间。

下面是对您有用的持久化实验的链接：https://dvc.org/doc/user-guide/experiment-management/persisting-experiments#persisting-experiments

这里还有一篇关于端到端场景的博客文章，它可能会为您的问题提供一些帮助，特别是如果这是计算机视觉场景：https://iterative.ai/blog/end-to-end-computer-vision-api-part-1-data-versioning-and-ml-pipelines/

希望这能帮上忙！坦白地说，我是迭代公司的社区管理人员( DVC.org、CML.dev和MLEM.ai (开源)的维护者，以及Iterative (SaaS)的维护者)。并随时加入我们的服务器，以获得任何问题的帮助！https://discord.com/invite/dvwXA2N！

票数 3

Data Science用户

发布于 2023-01-22 21:46:14

您可以使用实体解析/匹配和去重叠技术来解决问题。根据定义，给定数据集和这类数据集的两个实体/行( e_1和e_2 )，实体解析将推断e_1是否与e_2匹配。也可以为重复提供类似的定义。

我设想了一个场景，您已经有了一些数据，并且希望将新数据添加到旧的数据中。然后，您希望避免重复，因为这就像在代码上下文中复制代码一样。

在Python中，有一些开源项目，如德杜普。

您还应该查看DVC或GX中其他与数据质量相关的问题。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/117923

复制

相似问题

问数据科学项目中的数据融合方法
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据科学项目中的数据融合方法EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据科学项目中的数据融合方法
EN