首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >合并多个数据集时分割数据

合并多个数据集时分割数据
EN

Data Science用户
提问于 2023-04-03 18:46:40
回答 1查看 19关注 0票数 0

我有来自12个不同国家的13个小数据集。所有数据集都有相同的结果和特征,但观测的数量不同(从50到800不等)。我想将这些数据集合并到一个ML模型中。

基于对这个问题(合并两个数据集是明智的吗?)的回答,我可以简单地包括一个识别数据来源的特性,以控制潜在的偏差。

假设这是真的,并在这个问题上加以扩展,那么将数据分成培训/测试集的适当方法是什么(即,我是否应该对每个数据集进行抽样,使每个数据集具有相同的代表性比例)?对于13个数据集,是否应该将2-3个数据集完全排除在模型开发之外,以便进行外部验证,如果是这样,那么决策过程将是什么呢?

EN

回答 1

Data Science用户

发布于 2023-04-04 13:34:53

首先,在进行探索性数据分析时,我会比较每个数据集中每个特性的分布情况,以了解它们在不同位置之间的差异。盒子和酒壶对此很有帮助。

当组合所有数据集时,您可以分成训练和测试,这样不仅在火车和测试数据集中目标所占的比例是相等的,而且在您的列车和测试数据集中的每个数据集位置的比例是相等的(例如,10%的数据集是国家1,10%的数据集是测试的国家1)。

将2-3个数据集排除在外的决策应该取决于数据集的大小和您想要回答的问题。如果做一个11-2 (训练-测试)分裂,10-3分裂或12-1分裂回答你的问题,那么就去做吧。您可以尝试每个组合,并查看哪个数据集组合可能具有更多的泛化性或更少的通用性。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120679

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档