文章/答案/技术大牛

发布

社区首页 >问答首页 >人口水平分类的替代方法

问人口水平分类的替代方法
EN

Data Science用户

提问于 2019-07-08 15:27:14

回答 1查看 20关注 0票数 1

在最近的一项研究中，我正在产生一系列的logistic回归和随机森林模型来预测一些二元结果。为了了解情况，假设这一结果是当地一家医院的1,000名病人患糖尿病。我知道糖尿病在这个人群中的发生，因此可以用这个人群来产生许多关于这个结果的分类模型。

假设我想使用这些预测模型在第二个人群中预测糖尿病的概率，在那里我不观察糖尿病分类(例如，N= 10,000)。我可以使用我上面生成的模型来预测在第二个人群中的人对人的糖尿病。

对于这个特别的研究，我最感兴趣的是预测第二个人群的糖尿病水平。例如，我可能想知道第二个人群中有多少可能患有糖尿病。

在文献中，似乎大多数研究都使用某种阈值(例如，50%)，并以大于阈值的预测概率对观测结果进行总结。然而，我发现其他的研究只是简单地总结了在第二个人群中产生#糖尿病患者的可能性。

我不太熟悉机器学习文献，但这两种方法都有意义吗？这两种方法都是有意义的，而且很可能在数据均衡的情况下得出类似的估计。然而，不平衡的数据可能导致选择重要的分布(见附件)。有什么想法？

machine-learning

classification

回答 1

Data Science用户

发布于 2019-07-08 16:07:29

我认为第二种方法比第一种方法要好得多，主要有两个原因。

原因1:第一种方法迫使您在某种程度上任意设置参数(阈值)。在报告你的结果时，我认为你需要证明你选择的门槛是合理的。当然，50%看上去是合理的，但是如果你的模型碰巧低估了糖尿病的概率呢？那么，较低的阈值可能是合适的。

如果你在做学术工作的话，这是特别令人担心的，因为它允许你通过在一个方向或另一个方向上推参数来“伪造”结果。最好尽可能避免任意参数。

原因2:您已经注意到，对于某些发行版，方法的选择将产生不同的估计值。第二种方法将给出目标统计量更稳健的估计。

为了说明，假设您有一个非常精确的模型。假设您的“第二人口”有五个成员，您的模型为每个成员输出以下糖尿病的概率：

[0.49, 0.49, 0.49, 0.49, 0.49]

如果您使用第一种方法来估计糖尿病患者的百分比(阈值为50%)，那么您的估计值将为0%。这显然是不现实的--没有一个糖尿病患者的概率是0.51^5 = .0345 = 3.45\%。

如果使用第二种方法，那么您将按以下方式计算糖尿病病例的预期数量：

0.49*1 + 0.49*1 + 0.49*1 + 0.49*1 + 0.49*1 = 2.45病例

如果你用人口的百分比来表示这个估计，那么你的估计将(很明显)是49%。

我想你也可以认为这个估计是有缺陷的，因为实际上是不可能观察到的。对于大量人群来说，这将不是什么大问题(比如n=10,000的例子)，但是如果它困扰着你，那么你可以将糖尿病病例的预期数算到最近的整数。在上面设计的例子中，这将得到40%的估计。这仍然是一个比第一种方法得到的更好的估计。

希望这能帮上忙！

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/55291

复制

相似问题

问人口水平分类的替代方法
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问人口水平分类的替代方法EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问人口水平分类的替代方法
EN