以1990年至2017年的数据为例,其中包含拉丁美洲一些城市每10万人的犯罪率。
我想根据这些数据和其他指标来衡量哪个城市比较复杂。我使用的是萨蒂提出的层次分析法。
考虑一下这个例子:
city_code r1990 r1991 r1992 r1993 r1994 r1994
12345 120 80 91 110 105 99
23456 10 15 16 12 7 11
34567 90 91 85 75 77 65根据我的问题,我想在每年的每一个速率sum,然后得到每年的每个速率的mean根据总数。
根据上面的例子:
city_code total
12345 605
23456 71
34567 483
city_code mean1990 mean1991 mean1992 mean1993 mean1994 mean1994
12345 0.20 0.13 0.15 0.18 0.17 0.16
23456 0.14 0.21 0.23 0.17 0.10 0.15
34567 0.19 0.19 0.18 0.16 0.16 0.13那么,这是一个好的做法吗?我找不到遵循这种方法的例子吗?任何关于这一主题的指导都将不胜感激。
发布于 2018-02-21 09:02:37
如果你处理几年的话,这是相当不错的。
一般来说,这不是一个很好的做法,因为渐变会导致你在所有考虑的年份里几乎都会有相同的犯罪率。但是,除非你有过去10000年的数据,否则你可以简单地忽略渐进行为,这是你正在做的事情的延续。
否则,您可以将数据规范化为引用值,例如该系列中的最大犯罪数量。这更有力。
https://datascience.stackexchange.com/questions/28071
复制相似问题