我想在python中计算我的所有特性(所有浮点类型)和类标签(二进制,0或1)之间的相关性。此外,我还想绘制这些数据,以便按类可视化它们的分布。
这是必要的,这样我就可以找到与单个标签相结合的特性,并找出它们的真正重要性。注意,我不想要成对的特征相关性,并且我的分类器是二进制的。
我已经尝试了以下(从类似的帖子在堆栈溢出),但这不是我想要的。
df.drop("Target", axis=1).apply(lambda x: x.corr(df.Target)) 请在附图中看到发行版的外观,其中一个是特性(来自Weka)。
一个特性的类分布()

任何反馈都是非常感谢的。
发布于 2019-03-12 05:52:45
关联不应该用于分类变量。有关更多解释,请参见这里
您可以通过以下方法理解自变量和目标变量之间的关系。
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer(return_X_y=False)
import pandas as pd
df=pd.DataFrame(data.data[:,:5])
df.columns = data.feature_names[:5]
df['target'] = data.target.astype(str)
import seaborn as sns;
import matplotlib.pyplot as plt
g= sns.pairplot(df,hue = 'target', diag_kind= 'hist',
vars=df.columns[:-1],
plot_kws=dict(alpha=0.5),
diag_kws=dict(alpha=0.5))
plt.show()

https://stackoverflow.com/questions/55113349
复制相似问题