我有一个很大也很稀疏的矩阵(531Kx315K),细胞总数约为1670亿个。非零值仅为1s。非零值的总数约为45K。是否有一个有效的NMF方案来解决我的问题?我知道这方面有几个软件包,它们只适用于小规模的数据矩阵。任何想法都有帮助。提前谢谢。
发布于 2017-11-28 16:41:11
科学知识-学习将轻松地处理这个,!
代码:
from time import perf_counter as pc
import numpy as np
import scipy.sparse as sps
from sklearn.decomposition import NMF
""" Create sparse data """
nnz_i, nnz_j, nnz_val = np.random.choice(531000, size=45000), \
np.random.choice(315000, size=45000), \
np.random.random(size=45000)
X = sps.csr_matrix((nnz_val, (nnz_i, nnz_j)), shape=(531000, 315000))
print('X-shape: ', X.shape, ' X nnzs: ', X.nnz)
print('type(X): ', type(X))
# <class 'scipy.sparse.csr.csr_matrix'> # !!!!!!!!!!
""" NMF """
model = NMF(n_components=50, init='random', random_state=0, verbose=True)
start_time = pc()
W = model.fit_transform(X)
end_time = pc()
print('Used (secs): ', end_time - start_time)
print(model.reconstruction_err_)
print(model.n_iter_)输出:
X-shape: (531000, 315000) X nnzs: 45000
type(X): <class 'scipy.sparse.csr.csr_matrix'>
violation: 1.0
violation: 0.2318929397542804
violation: 0.11045394409727402
violation: 0.08104138988253409
...
violation: 9.659665625799714e-05
Converged at iteration 71
Used (secs): 247.94092973091756
122.27109041
70备注:
附加约束
正如注释中提到的,OP希望添加额外的约束,但仍然没有正式指定这些约束。
这将需要一个全新的实现一些优化过程,包括一些理论-步法(取决于约束)。
作为另一种选择,这可以通过通用的凸规划求解器来解决.例如,由cvxpy制定,并由SCS解决。当然,交替最小化过程也需要去做(因为联合问题是非凸的),它的规模将比这个专门的学习-实现更糟糕。但它可能适用于行动计划的数据。
https://stackoverflow.com/questions/47535872
复制相似问题