我在Python中有一个DataFrame,需要对数据进行预处理。对数据进行预处理的最佳方法是哪一种,知道一些变量具有很大的规模,而另一些则没有,数据也没有很大的偏差。我尝试了preprocessing.Scale函数,它可以工作,但我一点也不确定是否是进行机器学习算法的最佳方法。
发布于 2016-04-12 14:12:18
数据预处理有多种技术,您可以参考sklearn.preprocessing中的思想作为可能遵循的指导方针。
http://scikit-learn.org/stable/modules/preprocessing.html
预处理与您正在研究的数据相结合,但通常您可以探索:
在熊猫中,你可以很容易地计算出以下分数:
data_file = "your_input_data_file.csv"
data = pd.read_csv(data_file, delimiter="|")
variance = data.var()
variance = variance.to_frame("variance")
variance["feature_names"] = variance.index
variance.reset_index(inplace=True)
#reordering columns
variance = variance[["feature_names","variance"]]
logging.debug("exporting variance to csv file")
variance.to_csv(data_file+"_variance.csv", sep="|", index=False)
missing_values_percentage = data.isnull().sum()/data.shape[0]
missing_values_percentage = missing_values_percentage.to_frame("missing_values_percentage")
missing_values_percentage["feature_names"] = missing_values_percentage.index
missing_values_percentage.reset_index(inplace=True)
missing_values_percentage = missing_values_percentage[["feature_names","missing_values_percentage"]]
logging.debug("exporting missing values to csv file")
missing_values_percentage.to_csv(data_file+"_mssing_values.csv", sep="|", index=False)
correlation = data.corr()
correlation.to_csv(data_file+"_correlation.csv", sep="|") 以上将生成三个文件分别保存,方差,缺失值百分比和相关结果。
关于教程,请参阅这博客文章。
发布于 2021-12-25 13:04:14
https://stackoverflow.com/questions/36575776
复制相似问题