我有一个数据集,它有数千行{纬度、经度、犯罪类型}元组。
样本数据:
41.757366519 -87.642992854 THEFT
41.910469677 -87.585822373 ROBBERY
41.751270452 -87.690708662 BURGLARY
41.757366519 -87.642992854 THEFT
41.757366519 -87.642992854 THEFT
.. .. ..
.. .. ..我试图根据犯罪类型对这些案件进行分类。
例如,在任何区域,盗窃案发生的频率都很高,根据数据集,它应该显示为一个集群。我尝试过只使用长时间的数据进行聚类,这对这个犯罪数据集似乎没有任何意义。
我对数据挖掘相当陌生,并且逐渐找到了自己的出路。
如何使用基于纬度和经度值的数据进行聚类,使这些数据通过犯罪类型相互关联?是否有可用的工具可以使用长时间的数据并根据犯罪类型对其进行聚类?否则,我甚至可以写一个脚本,一旦我知道如何做到这一点。
另外,有没有人有过犯罪数据挖掘方面的经验?我还能从犯罪数据集中找到有趣的模式吗?
非常感谢!
发布于 2016-03-07 20:13:01
没有任何有意义的方法将“类型”和距离(以米为单位)结合起来。
我的建议是你:
发布于 2016-03-07 20:56:56
我不太清楚这样做的最终目的是什么。
没有,我有一些想法。您可以散列或切分犯罪类型(为每个类指定一个数字),然后进行聚类。
或者给几个拉特河,你可以使用一个算法(如KNN)来预测哪种犯罪类型是“最有可能的”。
发布于 2016-03-07 14:04:56
根据犯罪类型和形式块的每一种可能值将训练数据分开,然后将K均值聚类应用于每个独立块上的经度和纬度。
如果可能的话,犯罪类型是“谋杀”和“入室盗窃”。
然后将“谋杀”为犯罪类型,“入室盗窃”为犯罪类型的数据分开。
现在你有两块数据。所以在每个块上应用K均值聚类。
https://datascience.stackexchange.com/questions/10572
复制相似问题