我正在使用scikit--学习做一项全基因组的关联研究,其特征向量约为100 SNPs。我的目标是告诉生物学家哪种SNP是“有趣的”。
RandomizedPCA确实改进了我的模型,但是我很难理解结果。科学工具包能告诉我在每个组件中使用了哪些特性吗?
发布于 2016-03-08 02:34:58
是的,通过components_属性:
import numpy, seaborn, pandas, sklearn.decomposition
data = numpy.random.randn(1000, 3) @ numpy.random.randn(3,3)
seaborn.pairplot(pandas.DataFrame(data, columns=['x', 'y', 'z']));
sklearn.decomposition.RandomizedPCA().fit(data).components_
> array([[ 0.43929754, 0.81097276, 0.38644644],
[-0.54977152, 0.58291122, -0.59830243],
[ 0.71047094, -0.05037554, -0.70192119]])
sklearn.decomposition.RandomizedPCA(2).fit(data).components_
> array([[ 0.43929754, 0.81097276, 0.38644644],
[-0.54977152, 0.58291122, -0.59830243]])我们看到截断分解就是完全分解的截断。每一行都包含相应的主组件的系数。
https://datascience.stackexchange.com/questions/10540
复制相似问题