文章/答案/技术大牛

发布

社区首页 >问答首页 >如何利用2+数据集改进机器学习模型

问如何利用2+数据集改进机器学习模型
EN

Data Science用户

提问于 2021-04-13 07:56:28

回答 1查看 464关注 0票数 0

我正在建立一个有监督的机器学习模型，该模型(例如)预测心力衰竭(是/否)。我有两个来自两个不同实验室的数据集，A和B都有很好的分布，也不是说A比B有更多的年轻人，但不知怎么的，A的心力衰竭率要低得多。

为每个模型创建了一个单独的模型，每个模型的准确率都达到了90%或更高，但我的目标是建立一个模型，该模型可以使用包含来自A和B的信息的级联数据集。目前，这种组合模型对于来自B的样本的准确率为75%，对于A的准确率为90%。

我试过的是：

不同方式的示例/创建“偶数”数据集
添加指示哪个实验室的功能
正规化数值特征
为数值特征创建类别

我知道总体结果当然不会像单个模型那样好，但是我如何使这些平台至少获得更多相似的结果呢？我很感激我能尝试的任何解决这类问题的建议/方法！！

machine-learning

python

machine-learning-model

回答 1

Data Science用户

发布于 2021-05-15 20:07:45

您可能希望使用一种名为集成方法的方法组合这两个模型。

但是，在您的例子中，如果您说功能的分布是相似的，那么在单个模型中使用合并的数据会更糟糕，我对此感到惊讶。

因此，有两个潜在的结果：

如果数据的分布是相同的，它可能是个别的模型被过度拟合，并给出较大的数据集，这是公开的。
如果发行版不同，那么每个模型都会根据特定的特性进行调优，因此很难实现单一的通用模型。

为了更好地了解所期望的内容，我建议为每个特性做一些分发图，看看它们是否像您所说的一样。

另一个简单的测试是采用模型A并使用它来预测数据集B中的一切，反之亦然。如果实际准确度在70%左右，那么一切都如预期的那样工作。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/92996

复制

相似问题

问如何利用2+数据集改进机器学习模型
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何利用2+数据集改进机器学习模型EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何利用2+数据集改进机器学习模型
EN