首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在芝加哥犯罪率数据集中处理NA值

在芝加哥犯罪率数据集中处理NA值
EN

Data Science用户
提问于 2018-12-12 20:04:48
回答 2查看 111关注 0票数 2

我正在对芝加哥犯罪率数据集做一个小项目,我注意到有超过60万个NA值,主要在location字段中。

我觉得,尽管有大约600万行(2001年至今的数据),但仍有很多数据需要删除(尤其是因为行包含所有其他数据,如犯罪类型、病房、日期、地点描述等)。

以下是每一列中的列和NA的数目:

代码语言:javascript
复制
COMMUNITY_AREA ID CASE_NUMBER DATE BLOCK IUCR PRIMARY_TYPE DESCRIPTION
        616029  0           0    0     0    0            0           0
LOCATION_DESCRIPTION ARREST DOMESTIC BEAT DISTRICT   WARD FBI_CODE X_COORDINATE
                   0      0        0    0       47 614854        0        60921
Y_COORDINATE YEAR UPDATED_ON LATITUDE LONGITUDE LOCATION CRIME_TYPE COMMUNITY_NAME
       60921    0          0    60921     60921        0          0         616120

当我为这个项目查找RPubs时,很多人要么放弃了NA的所有行,要么甚至不去谈论丢失的数据,在我看来,这两种解决方案都不是很好的解决方案。

我不想删除所有这些行的部分原因是因为每一行都是有效的罪行,当我删除它们时,我现在缺少了犯罪,这有助于我的计数和类别。由于数据确实说明了所犯的罪行类型,所以我可以把它包括在这些罪状中。

以前有人用过这些数据吗?你对处理丢失的数据有什么建议吗?或者我可以把它留在那里,有什么问题吗?

我打算对犯罪率进行时间序列分析,但在犯罪领域并没有缺少数据,所以我不认为它会影响犯罪率。

EN

回答 2

Data Science用户

发布于 2018-12-12 20:15:56

假设Im正确读取您表的格式,则NA只用于地理位置属性。“分区”是最完整的字段,只有47个缺失值。某些罪行的地点是否因资料私隐理由而受到审查?

在你的数据集中的6项罪行中:

  • 10 %或600,000人丢失或审查了病房、社区区域或名称
  • 1%或60,000%的空间坐标缺失。

您可以通过分析GIS中的坐标对来确定大部分丢失的Ward和Community。

你如何处理丢失的数据将在很大程度上取决于你打算做的假设和分析。你提到的时间序列,应该是可以包括所有犯罪的直接时间序列在芝加哥的水平。对于更高的空间分辨率,您可以做区域(删除47个缺失点),等等。您花费了多少精力来处理丢失的数据,例如使用上面概述的步骤,这将取决于该数据对您的分析可能有多大的帮助。我怀疑大多数使用这些数据的人在绘制不同地区的犯罪率时,倾向于降低NA值。

票数 0
EN

Data Science用户

发布于 2020-01-15 04:31:08

响应BenP,我想知道你是否能得到比你想象的更多的位置信息。我看到“节拍”变量没有NAs。除非我搞错了,在芝加哥,“殴打”是警察的巡逻/责任区。所以就像拍1可能是循环之类的。您可能可以使用该信息或其他包含的信息来减轻您的NAs。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/42519

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档