首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大型数据集上的Sklearn GMM

大型数据集上的Sklearn GMM
EN

Stack Overflow用户
提问于 2015-03-17 09:42:42
回答 4查看 3.6K关注 0票数 3

我有一个很大的数据集(我不能把整个数据放在内存中)。我想在这个数据集上加入一个GMM。

我可以在小批数据上重复使用GMM.fit() (sklearn.mixture.GMM)吗??

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2015-03-17 10:08:08

没有理由重复使用它。只要随机抽样尽可能多的数据点,你认为你的机器可以在一个合理的时间内计算。如果变化不是很大,随机样本的分布将与整个数据集大致相同。

代码语言:javascript
复制
randomly_sampled = np.random.choice(full_dataset, size=10000, replace=False)
#If data does not fit in memory you can find a way to randomly sample when you read it

GMM.fit(randomly_sampled)

以及使用

代码语言:javascript
复制
GMM.predict(full_dataset)
# Again you can fit one by one or batch by batch if you cannot read it in memory

对其他人进行分类。

票数 6
EN

Stack Overflow用户

发布于 2015-03-17 21:08:54

fit将永远忘记以前的数据,在科学知识-学习。对于增量拟合,有partial_fit函数。不幸的是,GMM还没有partial_fit,所以您不能这样做。

票数 2
EN

Stack Overflow用户

发布于 2016-04-07 22:41:43

我认为在创建init_para对象时,可以将GMM设置为空字符串'',然后可以训练整个数据集。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29095769

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档