首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从熊猫应用构建DataFrame

从熊猫应用构建DataFrame
EN

Stack Overflow用户
提问于 2019-02-27 23:17:33
回答 1查看 1.8K关注 0票数 4

我有一个返回纬度和经度信息的函数。我希望在数据框架中为这4个变量创建列。

这是我的代码:

代码语言:javascript
复制
import geocoder
import pandas as pd
import geolib
from geolib import geohash

df = pd.read_csv('New_DP2.csv')

key = [redacted]


fields = ['NWLat', 'NWLong', 'SELat', 'SELong']
def getData(address, key):
    g = geocoder.mapquest(address, key=key)
    lat = g.lat
    lng = g.lng
    h = geolib.geohash.encode(lat, lng, 7)
    hashes = geolib.geohash.neighbours(h)
    NW = geohash.decode(hashes.nw)
    SE = geohash.decode(hashes.ne)
    nwlat = NW.lat
    nwlon = NW.lon
    selat = SE.lat
    selon = SE.lon

我想在一个数据框架中创建四个列,这些列将为'nwlat‘、'nwlon’、'selat‘、'selon’创建列。

通常,我只返回nwlat,然后创建一个lambda。

代码语言:javascript
复制
df['NWLong'] = df.apply(lambda row: getData(row['a'], key), axis = 1)

然后,我将对我想返回的其他3个变量的每一种情况都这样做。但是,我总共运行了4次,而不是仅仅运行一次。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-14 20:32:20

你当时很亲密。您所需要做的就是找出如何适当地返回结果。您的函数需要如下所示:

代码语言:javascript
复制
def getData(address, key):
    ...
    NW = geohash.decode(hashes.nw)
    SE = geohash.decode(hashes.ne)

    return pd.Series(dict(zip(fields, [NW.lat, NW.lon,  SE.lat, SE.lon]))) 

然后您可以使用Series.apply

代码语言:javascript
复制
df = pd.DataFrame({'address': ['Los Angeles, CA']})  # for example
df['address'].apply(getData, key=key)

                 NWLat                 NWLong                SELat                 SELong
0  34.0541839599609375  -118.2451629638671875  34.0541839599609375  -118.2424163818359375

这是通过让getData返回一个Series对象(以fields作为索引)来实现的。然后,apply将自动构造一个DataFrame并返回结果。

附带注意:要将这些列连接到现有的df,请调用pd.concat

代码语言:javascript
复制
res = pd.concat([df, df['address'].apply(getData, key=key)], axis=1)

另一种选择是使用列表理解,如果您的DataFrame中没有NaNs。这是一个性能(和内存)微优化。

代码语言:javascript
复制
def getData2(address, key):
    ...
    NW = geohash.decode(hashes.nw)
    SE = geohash.decode(hashes.ne)

    return [NW.lat, NW.lon,  SE.lat, SE.lon]

pd.DataFrame([getData2(a, key) for a in df['address']], columns=fields)

                 NWLat                 NWLong                SELat                 SELong
0  34.0541839599609375  -118.2451629638671875  34.0541839599609375  -118.2424163818359375

关于列表理解及其好处的更多信息已在我的文章中详细介绍:For loops with pandas - When should I care?

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54916019

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档