首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用熊猫在dataframe python中编码多个列(但不是所有列)

如何使用熊猫在dataframe python中编码多个列(但不是所有列)
EN

Stack Overflow用户
提问于 2021-04-26 07:01:34
回答 2查看 215关注 0票数 1

我想用两个数据(测试数据,训练数据)构建一个朴素的bayes模型。

dataframe包含13列,但我只想在5-6列中将数据从str编码为int值。如何使用一段代码来实现这一目的,从而可以直接对6列进行编码,我遵循以下答案:

https://stackoverflow.com/a/37159615/12977554

代码语言:javascript
复制
import pandas as pd
from sklearn.preprocessing import LabelEncoder

    df = pd.DataFrame({
    'colors':  ["R" ,"G", "B" ,"B" ,"G" ,"R" ,"B" ,"G" ,"G" ,"R" ,"G" ],
    'skills':  ["Java" , "C++", "SQL", "Java", "Python", "Python", "SQL","C++", "Java", "SQL", "Java"]
    })
    
    def encode_df(dataframe):
        le = LabelEncoder()
        for column in dataframe.columns:
            dataframe[column] = le.fit_transform(dataframe[column])
        return dataframe
    
    #encode the dataframe
    encode_df(df)

但是它只是编码了1列,而不是我想要的是6列和1段代码。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-04-26 07:06:59

可以循环遍历列和fit_transform。

代码语言:javascript
复制
cols = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6']

for col in cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col].astype('str'))
    
df

理想情况下,您希望对训练数据集和测试数据集使用相同的转换器。

为此,你需要使用

代码语言:javascript
复制
for col in cols:
    le = LabelEncoder()
    le.fit(df_train[col].astype('str'))
    df_train[col] = le.transform(df_train[col].astype('str'))
    df_test[col] = le.transform(df_test[col].astype('str'))
        
df
票数 1
EN

Stack Overflow用户

发布于 2021-04-26 07:08:47

你试过申请了吗?

代码语言:javascript
复制
 le = LabelEncoder()
 df['colors'] = df['colors'].apply(lambda x: le.fit_transform(x))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67262143

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档