我正在开发一个推荐引擎,我现在面临的一个问题是项目的相似度矩阵太大了。
我计算了20,000个项目的相似度矩阵,并将它们存储在一个二进制文件中,该文件调整后接近1 GB。我觉得它太大了。
如果你有这么多项目,处理相似度矩阵的最好方法是什么?
任何建议!
发布于 2017-05-10 00:25:09
实际上,相似度矩阵是关于对象与另一个对象的相似度。每一行由对象的邻居组成(行id),但是你不需要存储所有的邻居,例如只存储20个邻居。使用lil_matrix:from scipy.sparse import lil_matrix
https://stackoverflow.com/questions/42545775
复制相似问题