文章/答案/技术大牛

发布

社区首页 >问答首页 >犯罪模式KMeans

问犯罪模式KMeans
EN

Data Science用户

提问于 2018-01-19 08:57:34

回答 2查看 216关注 0票数 1

我想在数据库里找到犯罪记录中的模式。我认为聚类是一种方法。

这是我的(煮熟的)数据集：

age,nationality,country_of_birth,place_of_birth,no_of_checkedinbaggage,noofcabinbaggage,no_of_co_passengers,watchlist
34,GBR,GBR,London,2,1,0,Drug Trafficker
32,IND,IND,Delhi,2,1,0,Human Trafficker
31,USA,USA,Tampa,2,1,0,Arms Dealer
.....

基本上，我想要识别观察列表的集群，看看它们是否有一个模式。基于集群，我也希望预测未来的数据。

聚类(K-均值)是正确的选择吗？而且，所有的变量都必须是数值的吗？如果是这样的话，我不知道如何将它们编码成数字。有什么想法？

machine-learning

data-mining

apache-spark

k-means

pyspark

回答 2

Data Science用户

发布于 2018-01-19 09:18:08

欢迎来到现场！

如您所知，KMeans是一种无监督的学习，它帮助您了解数据中是否存在任何模式。是的，你所遵循的在数据中找到一些共性/模式的过程。但这通常不用于预测。如果你也可以用K-指来预测，最近我遇到了这个问题，但我不知道它是否会产生预期的结果。

如果数据是绝对的，您需要应用单热编码，它将分类数据转换为数字，您可以通过链接来更好地理解。如果不是这样，您就不能应用K-均值算法。

如果不能将分类数据转换为数字数据，那么可以使用这个包ClustMixType，这是R中的包，您可以在Python中使用KMODES。

如果您已经准备好目标变量，因为您还没有提到数据目标变量，如果目标变量是数字变量，则可以使用

神经网络
回归
支持向量机
随机森林和更多

如果目标变量是二进制变量(他是罪犯是/否)

神经网络
支持向量机
Logistic回归
随机林
朴素贝叶斯分类器
KNN和更多的。

请阅读此链接，以更好地理解混合数据类型聚类

如果你需要帮助，请告诉我。

票数 1

Data Science用户

发布于 2018-01-19 09:04:29

是的，对于聚类K-均值算法是很好的选择.唯一的问题是，您应该选择您想要的集群数量作为结果。实例:K=4

正如我所看到的，您的数据中有分类变量，您可以使用“单热编码”将它们转换为数字特性。我建议你在那之后也把你的数据按比例标出。

关键词：“编码分类特征”，“一个热编码器”，“特征缩放”。我建议你多读些关于这些的书。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/26818

复制

相似问题

问犯罪模式KMeans
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问犯罪模式KMeansEN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问犯罪模式KMeans
EN