我有一个由一组邮政编码索引的数据集合。我想根据邻近的另一组地理特征,比方说,到附近湖泊的距离来汇总这些数据。
它很简单,比方说,在一个数据中遍历每个湖,并应用一个haversine函数返回50英里内的所有邮政编码。反之亦然;我可以轻松地遍历所有的邮政编码,并在所述邮政编码的50英里范围内为每个湖返回一个列表。
但我想做得更有效率一点。如果每个zip只对应于一个湖,比如说最近的一个湖,那么简单的方法就是创建一个新的"lake"列,然后应用groupby("lake")来接收被绑定的数据以进行处理。
我想要的是一种自动复制组之前的行的技术。假设我有以下数据:
lake
zip
10001 Huron
10002 Huron, Erie
10003 Erie, Superior我想调用groupby返回以下内容:
group 'Huron'
zip
10001
10002
group 'Erie'
zip
10002
10003
group 'Superior'
zip
10003基本上,有什么很好的方法来做到这一点,或者你实际上是被脏循环通过索引方法困住了吗?
发布于 2017-10-23 22:11:22
选项1
str.split和expand=True,然后是stack + groupby。这将返回组。
g = df.lake.str.split(',\s*', expand=True).stack()\
.to_frame(name='lake').reset_index(level=1, drop=1).groupby('lake')
for i, k in g:
print(k, '\n')
lake
zip
10002 Erie
10003 Erie
lake
zip
10001 Huron
10002 Huron
lake
zip
10003 Superior 选项2
str.get_dummies,我最喜欢的方法。这不会在组中返回结果,但是get_dummies隐式地创建OHEs,您可以将其转换为分组。
g = df.lake.str.get_dummies(sep=r', ')
for c in g.columns:
print('{}: {}'.format(c, g[c][g[c] > 0].index.tolist()))
Erie: [10002, 10003]
Huron: [10001, 10002]
Superior: [10003]https://stackoverflow.com/questions/46899145
复制相似问题