首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >value_counts()和apply(pd.value_counts)之间的区别

value_counts()和apply(pd.value_counts)之间的区别
EN

Stack Overflow用户
提问于 2017-01-23 16:55:08
回答 2查看 2.2K关注 0票数 1

以下字段包含三个值: incremental、full和differential以及value_counts()apply(pd.value_counts)

为什么会有这样的差异?

EN

回答 2

Stack Overflow用户

发布于 2017-01-23 16:56:35

有问题,你需要将函数Series.value_counts应用到DataFrame的一个列中,所以请使用apply

它与以下内容相同:

代码语言:javascript
复制
df.apply(lambda s: s.value_counts())
#same as
df.apply(pd.value_counts)  
票数 3
EN

Stack Overflow用户

发布于 2017-01-23 17:50:04

这是一种未记录的方法:

代码语言:javascript
复制
Signature: pd.value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)
Docstring:
Compute a histogram of the counts of non-null values.

Parameters
----------
values : ndarray (1-d)
sort : boolean, default True
    Sort by values
ascending : boolean, default False
    Sort in ascending order
normalize: boolean, default False
    If True then compute a relative histogram
bins : integer, optional
    Rather than count values, group them into half-open bins,
    convenience for pd.cut, only works with numeric data
dropna : boolean, default True
    Don't include counts of NaN

Returns
-------
value_counts : Series

如果将列作为arg传递,则输出与pd.Series.value_counts相同

代码语言:javascript
复制
In [8]:
Offline_BackupSchemaIncrementType
df = pd.DataFrame({'Offline_BackupSchemaIncrementType': [0,1,1,2,np.NaN], 'val':np.arange(5)})
df

Out[8]:
   Offline_BackupSchemaIncrementType  val
0                                0.0    0
1                                1.0    1
2                                1.0    2
3                                2.0    3
4                                NaN    4

In [9]:
pd.value_counts(df['Offline_BackupSchemaIncrementType'])

Out[9]:
1.0    2
2.0    1
0.0    1
Name: Offline_BackupSchemaIncrementType, dtype: int64

In [10]:    
df['Offline_BackupSchemaIncrementType'].value_counts()

Out[10]:
1.0    2
2.0    1
0.0    1
Name: Offline_BackupSchemaIncrementType, dtype: int64

然而,当您对方法执行apply时,您将对每个元素执行此操作,因此返回的系列将尝试将其与原始df对齐,实际上您将获得一个二维数组:

代码语言:javascript
复制
In [7]:
df['Offline_BackupSchemaIncrementType'].apply(pd.value_counts)

Out[7]:
   0.0  1.0  2.0
0  1.0  NaN  NaN
1  NaN  1.0  NaN
2  NaN  1.0  NaN
3  NaN  NaN  1.0
4  NaN  NaN  NaN

这里的值是列,索引与原始df相同

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41802320

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档