首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >犯罪模式KMeans

犯罪模式KMeans
EN

Data Science用户
提问于 2018-01-19 08:57:34
回答 2查看 216关注 0票数 1

我想在数据库里找到犯罪记录中的模式。我认为聚类是一种方法。

这是我的(煮熟的)数据集:

代码语言:javascript
复制
age,nationality,country_of_birth,place_of_birth,no_of_checkedinbaggage,noofcabinbaggage,no_of_co_passengers,watchlist
34,GBR,GBR,London,2,1,0,Drug Trafficker
32,IND,IND,Delhi,2,1,0,Human Trafficker
31,USA,USA,Tampa,2,1,0,Arms Dealer
.....

基本上,我想要识别观察列表的集群,看看它们是否有一个模式。基于集群,我也希望预测未来的数据。

聚类(K-均值)是正确的选择吗?而且,所有的变量都必须是数值的吗?如果是这样的话,我不知道如何将它们编码成数字。有什么想法?

EN

回答 2

Data Science用户

发布于 2018-01-19 09:18:08

欢迎来到现场!

如您所知,KMeans是一种无监督的学习,它帮助您了解数据中是否存在任何模式。是的,你所遵循的在数据中找到一些共性/模式的过程。但这通常不用于预测。如果你也可以用K-指来预测,最近我遇到了这个问题,但我不知道它是否会产生预期的结果。

如果数据是绝对的,您需要应用单热编码,它将分类数据转换为数字,您可以通过链接来更好地理解。如果不是这样,您就不能应用K-均值算法。

如果不能将分类数据转换为数字数据,那么可以使用这个包ClustMixType,这是R中的包,您可以在Python中使用KMODES。

如果您已经准备好目标变量,因为您还没有提到数据目标变量,如果目标变量是数字变量,则可以使用

  1. 神经网络
  2. 回归
  3. 支持向量机
  4. 随机森林和更多

如果目标变量是二进制变量(他是罪犯是/否)

  1. 神经网络
  2. 支持向量机
  3. Logistic回归
  4. 随机林
  5. 朴素贝叶斯分类器
  6. KNN和更多的。

请阅读此链接,以更好地理解混合数据类型聚类

如果你需要帮助,请告诉我。

票数 1
EN

Data Science用户

发布于 2018-01-19 09:04:29

是的,对于聚类K-均值算法是很好的选择.唯一的问题是,您应该选择您想要的集群数量作为结果。实例:K=4

正如我所看到的,您的数据中有分类变量,您可以使用“单热编码”将它们转换为数字特性。我建议你在那之后也把你的数据按比例标出。

关键词:“编码分类特征”,“一个热编码器”,“特征缩放”。我建议你多读些关于这些的书。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26818

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档