首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何利用2+数据集改进机器学习模型

如何利用2+数据集改进机器学习模型
EN

Data Science用户
提问于 2021-04-13 07:56:28
回答 1查看 464关注 0票数 0

我正在建立一个有监督的机器学习模型,该模型(例如)预测心力衰竭(是/否)。我有两个来自两个不同实验室的数据集,A和B都有很好的分布,也不是说A比B有更多的年轻人,但不知怎么的,A的心力衰竭率要低得多。

为每个模型创建了一个单独的模型,每个模型的准确率都达到了90%或更高,但我的目标是建立一个模型,该模型可以使用包含来自A和B的信息的级联数据集。目前,这种组合模型对于来自B的样本的准确率为75%,对于A的准确率为90%。

我试过的是:

  • 不同方式的示例/创建“偶数”数据集
  • 添加指示哪个实验室的功能
  • 正规化数值特征
  • 为数值特征创建类别

我知道总体结果当然不会像单个模型那样好,但是我如何使这些平台至少获得更多相似的结果呢?我很感激我能尝试的任何解决这类问题的建议/方法!!

EN

回答 1

Data Science用户

发布于 2021-05-15 20:07:45

您可能希望使用一种名为集成方法的方法组合这两个模型。

但是,在您的例子中,如果您说功能的分布是相似的,那么在单个模型中使用合并的数据会更糟糕,我对此感到惊讶。

因此,有两个潜在的结果:

  1. 如果数据的分布是相同的,它可能是个别的模型被过度拟合,并给出较大的数据集,这是公开的。
  2. 如果发行版不同,那么每个模型都会根据特定的特性进行调优,因此很难实现单一的通用模型。

为了更好地了解所期望的内容,我建议为每个特性做一些分发图,看看它们是否像您所说的一样。

另一个简单的测试是采用模型A并使用它来预测数据集B中的一切,反之亦然。如果实际准确度在70%左右,那么一切都如预期的那样工作。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/92996

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档