我有一个数据集,其中包含109个类别的130万条记录。显然,存在类别不平衡,数据中最高类别为18%,最低类别不到1%
现在,我的任务是设计一个通用的公式/技术/代码来从这些记录中采样,这样:我们需要选择的最小记录数是多少,以便它包含来自K个类别的记录(其中K可以从1到109变化),并且代表这些类别的原始数据。显然不是一个精确的解决方案,所以我们可以处理“高置信度”的解决方案。
发布于 2020-06-05 18:17:23
看起来你有一个简单的组合学问题。假设你在一个盒子里有M个红色弹珠和N个绿色弹珠。你随机拉出K个弹珠。你的样品中红色和绿色的比率的期望值是多少?此外,方差是什么?让我们将“代表性”定义为比率(预期为-2*std,expected+2*std)的95%置信区间内的极值相对于比率的期望值的宽度不超过10%.将其表示为K的函数同样简单(实际上,您可以用铅笔和纸对两个类进行表示)。对于三个类别,您可以说任意两个类别之间的比率的最大方差不应超过10%。
https://stackoverflow.com/questions/62212049
复制相似问题