首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对多维数据进行聚类的好方法是什么?

对多维数据进行聚类的好方法是什么?
EN

Stack Overflow用户
提问于 2019-10-25 02:37:55
回答 1查看 57关注 0票数 0

我创建了一个k-means聚类,用于基于1个多维特征(即许多客户的24小时电力使用)对数据进行聚类,但我想找出一个好方法来获取假设来自玩家在游戏中进行的比赛的数据,并尝试预测获胜概率。

它应该是这样的:

代码语言:javascript
复制
Player A
Match 1
Match 2
.
.
.
Match N

并且每一场比赛将具有该玩家的不同维度的统计数据,例如玩家在给定时间的X/Y坐标、玩家得分的时间等等。例如,X/Y将具有基于匹配长度的数据点,而得分可以是0到X之间的任何值,而其他值可能只有一个维度,例如匹配的技能排名差异。

我想要获取球员的所有比赛,并根据特征对它们进行聚类。

我的想法是对匹配的每个多维特征进行聚类,将它们总结为一个聚类,然后用一个聚类编号表示匹配的整个特征。

我将对所有多维特征重复此过程,直到每个匹配的行是标量值的向量,然后在此汇总视图上运行最后一个聚类,以尝试查看输赢是否以不同的聚类结束,并基于当前使用聚类的匹配数据玩的游戏的相似性,计算与其他聚类的相似性,并分配可能成为胜负的概率。

这似乎是一种不错的方法,但有一些问题使我想看看是否有更好的方法

我看到的一个关键问题是,构建模型似乎非常慢-我想运行PCA并计算每个玩家的每个功能使用的最佳组件数量,同时还运行一个单独的计算,以确定当我对这些单独的功能进行聚类时,分配给每个功能/玩家的最佳集群数量。我认为假设将其扩展到数千到数百万名玩家,并使用数万亿场比赛进行计算,以及使用新数据、特征和/或玩家更新模型,将需要极长的时间。

所以我向你们所有ML工程师/数据科学家提出的问题是,我是如何解决这个问题的?

你会使用同样的方法,只分配大量的硬件来快速构建模型,还是有一些我错过的更好/更有效的方法来聚集这种类型的数据?

EN

回答 1

Stack Overflow用户

发布于 2019-10-25 07:24:12

这是一种完全随机的方法。

仅仅因为你使用过一次,而且它们听起来很酷,就调用一堆函数,这从来都不是一个好主意。

相反,你应该首先正式化你的问题。你想做什么?

你似乎想要预测胜负。这是classification,而不是集群。其次,k-means最小化平方和。这真的有意义吗?最小化对你的数据的影响吗?我对此表示怀疑。最后,你开始担心将某些东西扩展到巨大的数据,这甚至还不起作用……

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58547374

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档