首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不使用PSI的地方

不使用PSI的地方
EN

Data Science用户
提问于 2022-04-13 11:30:48
回答 1查看 98关注 0票数 0

据我所知,PSI用于连续数据。通常,创建等大小的回收箱是为了比较两个数据集,而桶的数量通常是10个。这是出于某种原因吗,为什么是10个桶?另外,我想知道PSI是否也可以使用小于10值的分类数据?在绝对变量的情况下,怎样才能最好地估计人口的变化呢?

EN

回答 1

Data Science用户

发布于 2022-04-14 13:01:06

在我的经验中,10或20经常被使用,因为它们对应于十分之一或二十。人们往往对十分之一或二十岁有直觉的理解。这种理解往往是错误的,但我们认为我们知道这一点。所以使用10或20是很舒服的。

使用太多的桶,会引入太多的噪音,数据中的变化很小,会导致PSI发生较大的变化。但是太少的桶隐藏了信号。10或20是最佳选择吗?也许不是从统计的角度对所有的变量,但它是一致和舒适的。还有其他的方法,但要确保观众知道,或者你是在教观众这些方法。

有了分类,你就不需要敲诈了。如果你愿意的话,每个类别都是它自己的“桶”。对于许多类别,您可能想要组合,但这取决于您谁知道数据。

PSI公式需要离散的概率分布。如果所有类别或n块都被计算,并且数量被标准化,那么你就有了一个离散的概率分布。我在我的PSI函数中检查了这个案例。我看到水桶出了问题,尤其是在边缘。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/109970

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档