我正试图建立一个分类模型。其中一个名为“专长”的变量有200个值。基于之前的一篇文章I 锯子,我决定包括平均值最高的值。我的想法大于0.5。我如何过滤专业,使平均值仅大于0.5?我正在尝试为机器学习准备我的最后数据集。如有任何建议,敬请见谅。

发布于 2022-04-14 09:38:04
所以,如果我正确地理解你,你想要“一个热编码”或者虚拟编码你的变量“专业”,这样它就从一个间隔缩放变量变成一个二进制变量,其中1 == >.5和0 == <=.5正确吗?
因此,在python中,下面的代码将创建一个新变量,以满足您的需要:
import pandas as pd
import numpy as np
df2['specialty_binned'] = np.digitize(df2['specialty'],bins=[0.5], right = True)这将在您的数据框架中创建一个名为“specialty_binned”的新变量,该变量仅为1s和0,旧变量中的1值大于0.5。
https://datascience.stackexchange.com/questions/109981
复制相似问题