文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习样本的聚类算法

问机器学习样本的聚类算法
EN

Stack Overflow用户

提问于 2016-05-04 14:22:55

回答 2查看 69关注 0票数 0

我有一个1830*6800矩阵，如下所示：

第1830行为不同的创业公司ID，列为6800个不同的投资者。现在我想找出那些成功筹集到足够资金的公司和那些没有那么幸运获得足够资金的公司之间的相似之处。

我正在考虑使用k均值聚类和谱聚类，将聚类数设为2，使其有两个不同的组(即成功和失败)。但是k-的意思是给我几乎所有的0，这意味着所有的行都在同一簇中。

有谁能给我一些思考，如何为这种情况选择更合适的算法？它不一定是聚类。

algorithm

machine-learning

cluster-analysis

gaussian

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-05-05 09:12:08

随机投影在这里可能弊大于利。相反，移除所有在一家公司投资的投资者，所有没有投资者的公司，重复。

但总的来说，我想说你在这里有一项毫无希望的任务。

集群无助于。你不可能获得成功或失败的集群。你更有可能得到东海岸或西海岸的集群；或不同的领域。集群是一个错误的工具，如果您有一个目标，比如成功/失败，。

此外，您的数据充满了异常，k-表示无法很好地处理它们。这可能就是为什么几乎所有东西都在同一个集群中的原因。

您可以尝试的最佳方法是频繁项目集，它将(取决于您如何应用)确定在同一家公司投资的投资者群，以及倾向于拥有相同投资者的公司群。

票数 1

Stack Overflow用户

发布于 2016-05-04 14:42:42

我认为你使用的数据不正确。如果有1.4亿投资者，你就会有一个极其稀疏的矩阵。每一列都有数据吗？如果没有，就把它移开。你说你的数据是：

"1's或0's是指从其中一个投资者那里成功地获得资金，0表示失败。“

那么，你的手机中绝大部分应该是空的，因为我无法想象一家初创公司会试图从6800名投资者那里获得资金--确保你的数据仅为那些主动申请融资的公司的0。

另外，你是如何定义成功的？是一些投资者吗？一笔钱？我认为，作为结构，你的数据不会给你的答案，你正在寻找。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37030581

复制

相似问题

问机器学习样本的聚类算法
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习样本的聚类算法EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习样本的聚类算法
EN