首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >聚类具有{纬度、经度、犯罪类型}元组的犯罪数据

聚类具有{纬度、经度、犯罪类型}元组的犯罪数据
EN

Data Science用户
提问于 2016-03-07 10:05:09
回答 3查看 977关注 0票数 2

我有一个数据集,它有数千行{纬度、经度、犯罪类型}元组。

样本数据:

代码语言:javascript
复制
41.757366519   -87.642992854   THEFT
41.910469677   -87.585822373   ROBBERY
41.751270452   -87.690708662   BURGLARY
41.757366519   -87.642992854   THEFT
41.757366519   -87.642992854   THEFT
..             ..              ..
..             ..              ..

我试图根据犯罪类型对这些案件进行分类。

例如,在任何区域,盗窃案发生的频率都很高,根据数据集,它应该显示为一个集群。我尝试过只使用长时间的数据进行聚类,这对这个犯罪数据集似乎没有任何意义。

我对数据挖掘相当陌生,并且逐渐找到了自己的出路。

如何使用基于纬度和经度值的数据进行聚类,使这些数据通过犯罪类型相互关联?是否有可用的工具可以使用长时间的数据并根据犯罪类型对其进行聚类?否则,我甚至可以写一个脚本,一旦我知道如何做到这一点。

另外,有没有人有过犯罪数据挖掘方面的经验?我还能从犯罪数据集中找到有趣的模式吗?

非常感谢!

EN

回答 3

Data Science用户

发布于 2016-03-07 20:13:01

没有任何有意义的方法将“类型”和距离(以米为单位)结合起来。

我的建议是你:

  1. 按类型拆分数据集。
  2. 用DBSCAN、haversine距离和每种犯罪类型的相同的minpt/eps值对每种类型进行聚类
  3. 比较产生的聚类的相似性和差异
票数 1
EN

Data Science用户

发布于 2016-03-07 20:56:56

我不太清楚这样做的最终目的是什么。

没有,我有一些想法。您可以散列或切分犯罪类型(为每个类指定一个数字),然后进行聚类。

或者给几个拉特河,你可以使用一个算法(如KNN)来预测哪种犯罪类型是“最有可能的”。

票数 0
EN

Data Science用户

发布于 2016-03-07 14:04:56

根据犯罪类型和形式块的每一种可能值将训练数据分开,然后将K均值聚类应用于每个独立块上的经度和纬度。

如果可能的话,犯罪类型是“谋杀”和“入室盗窃”。

然后将“谋杀”为犯罪类型,“入室盗窃”为犯罪类型的数据分开。

现在你有两块数据。所以在每个块上应用K均值聚类。

票数 -1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/10572

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档