首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从包含N个类的巨大数据集中选择至少K个类的SubSampling数据

从包含N个类的巨大数据集中选择至少K个类的SubSampling数据
EN

Stack Overflow用户
提问于 2020-06-05 17:21:46
回答 1查看 33关注 0票数 0

我有一个数据集,其中包含109个类别的130万条记录。显然,存在类别不平衡,数据中最高类别为18%,最低类别不到1%

现在,我的任务是设计一个通用的公式/技术/代码来从这些记录中采样,这样:我们需要选择的最小记录数是多少,以便它包含来自K个类别的记录(其中K可以从1到109变化),并且代表这些类别的原始数据。显然不是一个精确的解决方案,所以我们可以处理“高置信度”的解决方案。

EN

回答 1

Stack Overflow用户

发布于 2020-06-05 18:17:23

看起来你有一个简单的组合学问题。假设你在一个盒子里有M个红色弹珠和N个绿色弹珠。你随机拉出K个弹珠。你的样品中红色和绿色的比率的期望值是多少?此外,方差是什么?让我们将“代表性”定义为比率(预期为-2*std,expected+2*std)的95%置信区间内的极值相对于比率的期望值的宽度不超过10%.将其表示为K的函数同样简单(实际上,您可以用铅笔和纸对两个类进行表示)。对于三个类别,您可以说任意两个类别之间的比率的最大方差不应超过10%。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62212049

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档