from time import perf_counter as pc
import numpy as np
import scipy.sparse as sps
from sklearn.decomposition import NMF

""" Create sparse data """
nnz_i, nnz_j, nnz_val = np.random.choice(531000, size=45000), \
                        np.random.choice(315000, size=45000), \
                        np.random.random(size=45000)
X =  sps.csr_matrix((nnz_val, (nnz_i, nnz_j)), shape=(531000, 315000))
print('X-shape: ', X.shape, ' X nnzs: ', X.nnz)
print('type(X): ', type(X))
# <class 'scipy.sparse.csr.csr_matrix'> #                          !!!!!!!!!!

""" NMF """
model = NMF(n_components=50, init='random', random_state=0, verbose=True)

start_time = pc()
W = model.fit_transform(X)
end_time = pc()

print('Used (secs): ', end_time - start_time)
print(model.reconstruction_err_)
print(model.n_iter_)

输出：

X-shape:  (531000, 315000)  X nnzs:  45000
type(X):  <class 'scipy.sparse.csr.csr_matrix'>
violation: 1.0
violation: 0.2318929397542804
violation: 0.11045394409727402
violation: 0.08104138988253409
...
violation: 9.659665625799714e-05
Converged at iteration 71
Used (secs):  247.94092973091756
122.27109041
70

备注：

确保使用稀疏矩阵作为输入，否则就不能利用稀疏性。
我使用的是0.19.1版本，所以使用乘法更新求解器(>= 0.19)
- 但是老的CD解决者也应该处理这个问题！

上面使用的是< 800 MB的内存

附加约束

正如注释中提到的，OP希望添加额外的约束，但仍然没有正式指定这些约束。

这将需要一个全新的实现一些优化过程，包括一些理论-步法(取决于约束)。

作为另一种选择，这可以通过通用的凸规划求解器来解决.例如，由cvxpy制定，并由SCS解决。当然，交替最小化过程也需要去做(因为联合问题是非凸的)，它的规模将比这个专门的学习-实现更糟糕。但它可能适用于行动计划的数据。

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47535872

复制

相似问题

问非常大且非常稀疏的非负矩阵分解
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问非常大且非常稀疏的非负矩阵分解EN