首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何生成符合每个类内正态分布的数据?

如何生成符合每个类内正态分布的数据?
EN

Stack Overflow用户
提问于 2014-06-28 17:37:28
回答 1查看 354关注 0票数 1

使用numpy,我需要为机器学习问题生成培训和测试数据。该模型能够预测三个不同的类别(X,Y,Z)。这些类别代表了在多个临床试验中的病人类型,该模型应该能够根据收集到的关于病人的数据(如血液分析和血压、既往病史等)预测病人的类型。

从先前的一项研究中,我们知道,按照每项试验病人总数的百分比计算,这些课程的分布情况如下:

代码语言:javascript
复制
X - u=7.2, s=5.3 
Y - u=83.7, s=15.2 
Z - u=9.1, s=2.3

u/s描述了每一类的N(u,s)的分布(因此,对于所有研究的试验,X类的均值为7.2,方差为5.3)。不幸的是,该研究的数据集无法获得。

如何在所有类和每个类中重新创建遵循相同分布的数据集,但每个记录受X+Y+Z=100约束。

很容易生成跟随整个分布(u值)的数据集,但是如何获得每个类具有相同分布的数据集?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-28 17:52:13

你说过的问题是从混合分布中取样。混合分布只是一些分量分布,每个分量都有一个权重,所以权重是非负的,和为1。你的混合物有3个分量。每一个都是一个高斯分布,有你给出的平均值和sd。合理地假定混合权重是每个阶层在人口中的比例。要从混合物中取样,首先使用权重作为离散分布的概率来选择一个分量。然后从组件中抽取样本。我想你们知道如何从高斯分布中取样。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24469358

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档