我有一个1830*6800矩阵,如下所示:

第1830行为不同的创业公司ID,列为6800个不同的投资者。现在我想找出那些成功筹集到足够资金的公司和那些没有那么幸运获得足够资金的公司之间的相似之处。
我正在考虑使用k均值聚类和谱聚类,将聚类数设为2,使其有两个不同的组(即成功和失败)。但是k-的意思是给我几乎所有的0,这意味着所有的行都在同一簇中。
有谁能给我一些思考,如何为这种情况选择更合适的算法?它不一定是聚类。
发布于 2016-05-05 09:12:08
随机投影在这里可能弊大于利。相反,移除所有在一家公司投资的投资者,所有没有投资者的公司,重复。
但总的来说,我想说你在这里有一项毫无希望的任务。
集群无助于。你不可能获得成功或失败的集群。你更有可能得到东海岸或西海岸的集群;或不同的领域。集群是一个错误的工具,如果您有一个目标,比如成功/失败,。
此外,您的数据充满了异常,k-表示无法很好地处理它们。这可能就是为什么几乎所有东西都在同一个集群中的原因。
您可以尝试的最佳方法是频繁项目集,它将(取决于您如何应用)确定在同一家公司投资的投资者群,以及倾向于拥有相同投资者的公司群。
发布于 2016-05-04 14:42:42
我认为你使用的数据不正确。如果有1.4亿投资者,你就会有一个极其稀疏的矩阵。每一列都有数据吗?如果没有,就把它移开。你说你的数据是:
"1's或0's是指从其中一个投资者那里成功地获得资金,0表示失败。“
那么,你的手机中绝大部分应该是空的,因为我无法想象一家初创公司会试图从6800名投资者那里获得资金--确保你的数据仅为那些主动申请融资的公司的0。
另外,你是如何定义成功的?是一些投资者吗?一笔钱?我认为,作为结构,你的数据不会给你的答案,你正在寻找。
https://stackoverflow.com/questions/37030581
复制相似问题