我想在数据库里找到犯罪记录中的模式。我认为聚类是一种方法。
这是我的(煮熟的)数据集:
age,nationality,country_of_birth,place_of_birth,no_of_checkedinbaggage,noofcabinbaggage,no_of_co_passengers,watchlist
34,GBR,GBR,London,2,1,0,Drug Trafficker
32,IND,IND,Delhi,2,1,0,Human Trafficker
31,USA,USA,Tampa,2,1,0,Arms Dealer
.....基本上,我想要识别观察列表的集群,看看它们是否有一个模式。基于集群,我也希望预测未来的数据。
聚类(K-均值)是正确的选择吗?而且,所有的变量都必须是数值的吗?如果是这样的话,我不知道如何将它们编码成数字。有什么想法?
发布于 2018-01-19 09:18:08
欢迎来到现场!
如您所知,KMeans是一种无监督的学习,它帮助您了解数据中是否存在任何模式。是的,你所遵循的在数据中找到一些共性/模式的过程。但这通常不用于预测。如果你也可以用K-指来预测,最近我遇到了这个问题,但我不知道它是否会产生预期的结果。
如果数据是绝对的,您需要应用单热编码,它将分类数据转换为数字,您可以通过链接来更好地理解。如果不是这样,您就不能应用K-均值算法。
如果不能将分类数据转换为数字数据,那么可以使用这个包ClustMixType,这是R中的包,您可以在Python中使用KMODES。
如果您已经准备好目标变量,因为您还没有提到数据目标变量,如果目标变量是数字变量,则可以使用
如果目标变量是二进制变量(他是罪犯是/否)
请阅读此链接,以更好地理解混合数据类型聚类
如果你需要帮助,请告诉我。
发布于 2018-01-19 09:04:29
是的,对于聚类K-均值算法是很好的选择.唯一的问题是,您应该选择您想要的集群数量作为结果。实例:K=4
正如我所看到的,您的数据中有分类变量,您可以使用“单热编码”将它们转换为数字特性。我建议你在那之后也把你的数据按比例标出。
关键词:“编码分类特征”,“一个热编码器”,“特征缩放”。我建议你多读些关于这些的书。
https://datascience.stackexchange.com/questions/26818
复制相似问题