我正在模拟一个化学加工产品的质量参数。在整个过程中,我有一个大约400个过程参数的列表。其中大多数应该不会对建模的属性产生有意义的影响。我正在寻找一个直观的解释,这些不相关的参数可能会对预测的精度产生影响。我是否应该尝试在技术上绘制相关的地图,并将其他的排除在模型之外?
提前感谢
发布于 2022-12-14 18:49:32
看看PCA。PCA用于减少特征空间的维数。您可以使用PCA将您的大变量集转换为一个较小的变量集,该变量集中仍然包含大部分信息。这有助于减少过度拟合和简化计算。
一旦您选择了这些特性,您就可以使用您的领域知识来解释为什么某些特性可能会对您的模型性能产生影响。您还可以尝试不同的特性子集,以确定哪一种特性产生最佳模型。
下面是来自sci-kit学习的PCA的一些简单的起始代码:
import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca = PCA(n_components=2)
pca.fit(X)
PCA(n_components=2)
print(pca.explained_variance_ratio_)
>>> [0.9924... 0.0075...]
print(pca.singular_values_)
>>> [6.30061... 0.54980...]https://datascience.stackexchange.com/questions/117046
复制相似问题