文章/答案/技术大牛

发布

社区首页 >问答首页 >如何生成符合每个类内正态分布的数据？

问如何生成符合每个类内正态分布的数据？
EN

Stack Overflow用户

提问于 2014-06-28 17:37:28

回答 1查看 354关注 0票数 1

使用numpy，我需要为机器学习问题生成培训和测试数据。该模型能够预测三个不同的类别(X，Y，Z)。这些类别代表了在多个临床试验中的病人类型，该模型应该能够根据收集到的关于病人的数据(如血液分析和血压、既往病史等)预测病人的类型。

从先前的一项研究中，我们知道，按照每项试验病人总数的百分比计算，这些课程的分布情况如下：

X - u=7.2, s=5.3 
Y - u=83.7, s=15.2 
Z - u=9.1, s=2.3

u/s描述了每一类的N(u，s)的分布(因此，对于所有研究的试验，X类的均值为7.2，方差为5.3)。不幸的是，该研究的数据集无法获得。

如何在所有类和每个类中重新创建遵循相同分布的数据集，但每个记录受X+Y+Z=100约束。

很容易生成跟随整个分布(u值)的数据集，但是如何获得每个类具有相同分布的数据集？

numpy

machine-learning

statistics

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-28 17:52:13

你说过的问题是从混合分布中取样。混合分布只是一些分量分布，每个分量都有一个权重，所以权重是非负的，和为1。你的混合物有3个分量。每一个都是一个高斯分布，有你给出的平均值和sd。合理地假定混合权重是每个阶层在人口中的比例。要从混合物中取样，首先使用权重作为离散分布的概率来选择一个分量。然后从组件中抽取样本。我想你们知道如何从高斯分布中取样。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24469358

复制

相似问题

问如何生成符合每个类内正态分布的数据？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何生成符合每个类内正态分布的数据？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何生成符合每个类内正态分布的数据？
EN