文章/答案/技术大牛

发布

社区首页 >问答首页 >sklearn.mixture.DPGMM:意外结果

问sklearn.mixture.DPGMM:意外结果
EN

Stack Overflow用户

提问于 2012-10-19 01:41:14

回答 1查看 1.5K关注 0票数 6

我从DPGMM得到的结果并不是我所期望的。例如：

>>> import sklearn.mixture
>>> sklearn.__version__
'0.12-git'
>>> data = [[1.1],[0.9],[1.0],[1.2],[1.0], [6.0],[6.1],[6.1]]
>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1)
>>> m.fit(data)
DPGMM(alpha=1, covariance_type='diag', init_params='wmc', min_covar=None,
   n_components=5, n_iter=1000, params='wmc',
   random_state=<mtrand.RandomState object at 0x108a3f168>, thresh=0.01,
   verbose=False)
>>> m.converged_
True
>>> m.weights_
array([ 0.2,  0.2,  0.2,  0.2,  0.2])
>>> m.means_
array([[ 0.62019109],
       [ 1.16867356],
       [ 0.55713292],
       [ 0.36860511],
       [ 0.17886128]])

我希望结果更类似于普通的GMM；即，两个高斯(值1和6左右)，权重不均匀(如0.625，0.375)。我预计“未使用的”高斯分布的权重接近于零。

我是不是错误地使用了模型？

我也尝试过更改alpha，但没有任何成功。

cluster-analysis

scikit-learn

python

machine-learning

回答 1

Stack Overflow用户

发布于 2013-12-10 23:03:15

与sklearn的0.14.1版本没有太大区别。我将使用以下代码来打印DPGMM模型：

def pprint(model, data):
    idx = np.unique(model.predict(data))
    m_w_cov = [model.means_, model.weights_, model._get_covars()]
    flattened  = map(lambda x: np.array(x).flatten(), m_w_cov)
    filtered = map(lambda x: x[idx], flattened)
    print np.array(filtered)

此函数过滤掉冗余和(空)组件，即在预测和打印方法、权重和协变中未使用的组件。

如果对OP问题中的数据进行多次尝试，可以发现两种不同的结果：

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data)
>>> m.predict(data)
array([0, 0, 0, 0, 0, 1, 1, 1])
>>> pprint(m, data)
[[  0.62019109   1.16867356]
 [  0.10658447   0.19810279]
 [  1.08287064  12.43049771]]

和

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data)
>>> m.predict(data)
array([1, 1, 1, 0, 1, 0, 0, 0])
>>> pprint(m, data)
[[  1.24122696   0.64252404]
 [  0.17157736   0.17416976]
 [ 11.51813929   1.07829109]]

那么人们可以猜测意外的结果原因在于一些中间结果(在我们的例子中是1.2)在类之间迁移，并且方法无法推断出正确的模型参数。一个原因是聚类参数α对于我们的集群来说太大了，每个集群只包含3个元素，我们可以通过减少这个参数来更好地尝试，0.1会给出更稳定的结果：

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=.1).fit(data)
>>> m.predict(data)
array([1, 1, 1, 1, 1, 0, 0, 0])

但根本原因在于DPGMM方法的随机性，在小聚类的情况下，该方法不能推断模型结构。如果我们将观察扩展4次，事情会变得更好，方法的行为也更符合预期：

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data*4)
>>> pprint(m, data)
[[ 0.90400296  5.46990901]
 [ 0.11166431  0.24956023]
 [ 1.02250372  1.31278926]]

总之，要小心使用适合参数的方法，并意识到一些ML方法在小数据集或倾斜数据集的情况下不能很好地工作。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12960516

复制

相似问题

问sklearn.mixture.DPGMM:意外结果
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问sklearn.mixture.DPGMM:意外结果EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问sklearn.mixture.DPGMM:意外结果
EN