使用numpy,我需要为机器学习问题生成培训和测试数据。该模型能够预测三个不同的类别(X,Y,Z)。这些类别代表了在多个临床试验中的病人类型,该模型应该能够根据收集到的关于病人的数据(如血液分析和血压、既往病史等)预测病人的类型。
从先前的一项研究中,我们知道,按照每项试验病人总数的百分比计算,这些课程的分布情况如下:
X - u=7.2, s=5.3
Y - u=83.7, s=15.2
Z - u=9.1, s=2.3u/s描述了每一类的N(u,s)的分布(因此,对于所有研究的试验,X类的均值为7.2,方差为5.3)。不幸的是,该研究的数据集无法获得。
如何在所有类和每个类中重新创建遵循相同分布的数据集,但每个记录受X+Y+Z=100约束。
很容易生成跟随整个分布(u值)的数据集,但是如何获得每个类具有相同分布的数据集?
发布于 2014-06-28 17:52:13
你说过的问题是从混合分布中取样。混合分布只是一些分量分布,每个分量都有一个权重,所以权重是非负的,和为1。你的混合物有3个分量。每一个都是一个高斯分布,有你给出的平均值和sd。合理地假定混合权重是每个阶层在人口中的比例。要从混合物中取样,首先使用权重作为离散分布的概率来选择一个分量。然后从组件中抽取样本。我想你们知道如何从高斯分布中取样。
https://stackoverflow.com/questions/24469358
复制相似问题