我有一个大型的多维无标签汽车数据集(价格,里程,马力,.)我想找出离群点。我决定使用sklearn来构建决策边界,并且我的方法有两个主要问题:
发布于 2016-01-15 11:19:26
第一个问题。您可以使用sklearn.preprocessing.imputer按平均值或中值计算缺失的值:
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html
您可以添加一些布尔功能,如果其他一些功能具有NaNs,则可以重新编码。因此,如果您有功能X_1,X_2,则添加布尔功能
X_1_was_NaN和X_2_was_NaN
如果是X_1==NaN或X_2==NaN,则为1。如果X是您的原始pd.DataFrame,您可以通过
X = pd.DataFrame()
# Create your features here
# Get the locations of the NaNs
X_2 = 1.0 * X.isnull()
# Rename columns
X_2.rename(columns=lambda x: str(x)+"_has_NaN", inplace=True)
# Paste them together
X = pd.concat([X, X_2], axis=1)https://stackoverflow.com/questions/29304705
复制相似问题