我正在对芝加哥犯罪率数据集做一个小项目,我注意到有超过60万个NA值,主要在location字段中。
我觉得,尽管有大约600万行(2001年至今的数据),但仍有很多数据需要删除(尤其是因为行包含所有其他数据,如犯罪类型、病房、日期、地点描述等)。
以下是每一列中的列和NA的数目:
COMMUNITY_AREA ID CASE_NUMBER DATE BLOCK IUCR PRIMARY_TYPE DESCRIPTION
616029 0 0 0 0 0 0 0
LOCATION_DESCRIPTION ARREST DOMESTIC BEAT DISTRICT WARD FBI_CODE X_COORDINATE
0 0 0 0 47 614854 0 60921
Y_COORDINATE YEAR UPDATED_ON LATITUDE LONGITUDE LOCATION CRIME_TYPE COMMUNITY_NAME
60921 0 0 60921 60921 0 0 616120当我为这个项目查找RPubs时,很多人要么放弃了NA的所有行,要么甚至不去谈论丢失的数据,在我看来,这两种解决方案都不是很好的解决方案。
我不想删除所有这些行的部分原因是因为每一行都是有效的罪行,当我删除它们时,我现在缺少了犯罪,这有助于我的计数和类别。由于数据确实说明了所犯的罪行类型,所以我可以把它包括在这些罪状中。
以前有人用过这些数据吗?你对处理丢失的数据有什么建议吗?或者我可以把它留在那里,有什么问题吗?
我打算对犯罪率进行时间序列分析,但在犯罪领域并没有缺少数据,所以我不认为它会影响犯罪率。
发布于 2018-12-12 20:15:56
假设Im正确读取您表的格式,则NA只用于地理位置属性。“分区”是最完整的字段,只有47个缺失值。某些罪行的地点是否因资料私隐理由而受到审查?
在你的数据集中的6项罪行中:
您可以通过分析GIS中的坐标对来确定大部分丢失的Ward和Community。
你如何处理丢失的数据将在很大程度上取决于你打算做的假设和分析。你提到的时间序列,应该是可以包括所有犯罪的直接时间序列在芝加哥的水平。对于更高的空间分辨率,您可以做区域(删除47个缺失点),等等。您花费了多少精力来处理丢失的数据,例如使用上面概述的步骤,这将取决于该数据对您的分析可能有多大的帮助。我怀疑大多数使用这些数据的人在绘制不同地区的犯罪率时,倾向于降低NA值。
发布于 2020-01-15 04:31:08
响应BenP,我想知道你是否能得到比你想象的更多的位置信息。我看到“节拍”变量没有NAs。除非我搞错了,在芝加哥,“殴打”是警察的巡逻/责任区。所以就像拍1可能是循环之类的。您可能可以使用该信息或其他包含的信息来减轻您的NAs。
https://datascience.stackexchange.com/questions/42519
复制相似问题