首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何遍历pandas数据帧集合?

如何遍历pandas数据帧集合?
EN

Stack Overflow用户
提问于 2019-07-21 09:35:00
回答 2查看 195关注 0票数 2

我有几十个SAS数据集,我想导出到pandas dataframe。saspy模块有一个用于此目的的sd2fd方法。我遇到的问题是由SO post描述的,它有一些链接,解释了为什么在执行代码时字符串不能被替换并用作变量名。

我定义了mk_df函数来调用sd2fd方法,然后使用字典来传递键/值对。

代码语言:javascript
复制
import os
import glob
from pathlib import Path
import saspy
import pandas as pd

p = Path('/home/trb/sasdata/export_2_df')
sas_datasets = []
df_names     = []
pya_tables   = []
sep = '.'

for i in p.rglob('*.sas7bdat'):
    sas_datasets.append(i.name.split(sep,1)[0])
    df_names.append('df_' + i.name.split(sep,1)[0])

sd_2_df_dict = dict(zip(sas_datasets,df_names))

sas = saspy.SASsession(results='HTML')

正在返回:

代码语言:javascript
复制
Using SAS Config named: default
SAS Connection established. Subprocess id is 27752

代码继续...

代码语言:javascript
复制
# tell sas where to find the dataset
sas_code='''
   libname out_df "~/sasdata/export_2_df/";
'''
libref = sas.submit(sas_code)

# define the mk_df function
def mk_df(sas_name, df_name):
    df_name = sas.sd2df(table = sas_name, libref = 'out_df', method='CSV')
    return df_name

# call the mk_df function
for key, value in sd_2_df_dict.items():
    print(key, value)
    mk_df(key, value)

返回:

代码语言:javascript
复制
cars df_cars
failure df_failure
airline df_airline
prdsale df_prdsale
retail df_retail
stocks df_stocks

但是,没有创建任何数据帧。

代码语言:javascript
复制
print(df_cars)

NameError                                 Traceback (most recent call last)
<ipython-input-18-aa21e263bad6> in <module>()
----> 1 print(df_cars)

NameError: name 'df_cars' is not defined

我验证了mk_df函数是否正常工作:

代码语言:javascript
复制
mk_df('stocks', 'df_stocks')

    Stock   Date    Open    High    Low     Close   Volume  AdjClose
0   IBM     2005-12-01  89.15   89.92   81.56   82.20   5976252.0   81.37
1   IBM     2005-11-01  81.85   89.94   80.64   88.90   5556471.0   88.01
2   IBM     2005-10-03  80.22   84.60   78.70   81.88   7019666.0   80.86
3   IBM     2005-09-01  80.16   82.11   76.93   80.22   5772280.0   79.22
4   IBM     2005-08-01  83.00   84.20   79.87   80.62   4801386.0   79.62

打印keyvalue返回字符串:

代码语言:javascript
复制
print(key, value)
   stocks df_stocks

如何迭代对mk_df函数的调用?或者我应该考虑一种不同的方法?

@Python R SAS,这是一个有用的观察结果。因此,我更改了mk_df函数以包含更多信息,并尝试显式地将输出命名为DataFrame。

代码语言:javascript
复制
def mk_df(sas_name, out_df):
    out_df = sas.sd2df(table = sas_name, libref = 'out_df', method='CSV')
    out_df.df_name = out_df
    name =[x for x in globals() if globals()[x] is out_df]
    print("Dataframe Name is: ",  name, "Type: ", type(out_df))
    return out_df

对该函数的调用现在是:

代码语言:javascript
复制
j = 0

for key, value in sd_2_df_dict.items():
     mk_df(key, value).name=df_names[j]
     j += 1

返回:

代码语言:javascript
复制
/opt/anaconda3/lib/python3.7/site-packages/ipykernel_launcher.py:3: UserWarning: Pandas doesn't allow columns to be created via a new attribute name - see https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access
  This is separate from the ipykernel package so we can avoid doing imports until

Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
EN

回答 2

Stack Overflow用户

发布于 2019-07-21 12:50:45

我没有运行这段代码,所以我的响应可能不正确。我看到的是您的mk_df函数返回从SAS数据集创建的数据帧。但是,当您调用该函数时,您没有将其分配给任何东西。因此,在mk_df函数之外,df_name不可用。

会根据您的编辑内容进行更改

关于这段代码- name =[x for x in globals() if globals()[x] is out_df]:您没有在任何地方创建任何名为df_cars、df_failure等的变量。因此,globals()字典中没有任何内容可以让您获得匹配结果,因此x始终为空-这在您的输出中显示出来。

我认为您正在尝试做的是在迭代中通过变量'value‘中包含的名称创建一个数据帧。因此,如果value为df_cars,您将尝试创建一个名为df_cars的数据帧。

问题是,当您在方法中执行类似df_name =的操作时,它会重新绑定原始引用,因此引用会丢失。有关详细信息,请参阅这篇精彩的讨论。How do I pass a variable by reference?

另外,我认为你混淆了df_name和out_df,或者我没有完全理解你想要做的事情。

一种方法是使用exec语句,由于各种原因,通常不建议使用exec语句:

代码语言:javascript
复制
def mk_df(sas_name):
    this_df = sas.sd2df(table = sas_name, libref = 'out_df', method='CSV')
    this_df.name = "df_" + sas_name
    return this_df

for key, value in sd_2_df_dict.items():
     exec(value + "= mk_df(" + key + ")")

但我认为您最好只通过字典来维护不同的数据帧。即

代码语言:javascript
复制
dfs = dict()
for key, value in sd_2_df_dict.items():
     dfs[key] = mk_df(key)
票数 2
EN

Stack Overflow用户

发布于 2019-07-25 01:27:18

是的,发布的答案似乎是正确的,因为在sd2df中创建的数据框对象从未使用过,所以一旦超出mh_df例程的作用域,它就会丢失。我看到您声明了另一个列表,但您并没有使用它: pya_tables

我认为你所需要做的就是使用它,因为我猜你最初想的是什么。将返回的数据帧分配到该列表中,然后就有了可以引用的数据帧列表。尽管我认为您可能希望它是一本字典,但无论哪种方式都能解决您的问题。问题只在于你想如何在面孔之后引用它们;通过索引号或名称。

将调用中的最后一行更改为mk_df例程(在我的例子中,我的库中有6个数据集):

代码语言:javascript
复制
>>> for key, value in sd_2_df_dict.items():
...     print(key, value)
...     pya_tables.append(mk_df(key, value))
...
xpxout df_xpxout
scoredata df_scoredata
x2 df_x2
a df_a
tktg df_tktg
boo3f df_boo3f
>>> len(pya_tables)
6
>>> pya_tables[1]
   DURATION PROTOCOL SERVICE FLAG  SRC_BYTE  DST_BYTE LAND  WR_FRAG  URGENT  HOT  ...  I_ATTACK U_ATTACK  P_ATTACKu2r  P_ATTACKr2l  P_ATTACKprobe  P_ATTACKnormal  P_ATTACKdos  EM_EVENTPROBABILITY  EM_PROBABILITY  EM_CLASSIFICATION
0       0.0      tcp    http   SF     256.0    1169.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
1       0.0      tcp    http   SF     248.0    2129.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
2       0.0      tcp    http   SF     214.0   14959.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
3       0.0      tcp    http   SF     235.0    6627.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
4       0.0      tcp    http   SF     313.0     293.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
5       0.0      tcp    http   SF     309.0   17798.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
6       0.0      tcp    http   SF     231.0    2281.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
7       0.0      tcp    http   SF     227.0    1247.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
8       0.0      tcp    http   SF     233.0    3609.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL
9       0.0      tcp    http   SF     224.0    3609.0    0      0.0     0.0  0.0  ...    NORMAL   normal     0.000983     0.028647       0.027498        0.942848     0.000024             0.000983        0.942848             NORMAL

我只使用了您的代码和我的路径,并且只更改了最后一行,将返回的df赋值给列表,因此它是可访问的。

汤姆

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57129757

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档