Discriminant Analysis,线性判别分析) 特征选择:从特征集合中挑选一组最具统计意义的特征子集,把无关的特征删掉,从而达到降维的效果 常用的方法: filter(刷选器)方法:Pearson相关系数,Gini-index
特征提取 Gini-index: 一个特征的Gini-index越大,特征区分度越高。
如Pearson相关系数,Gini-index(基尼指数),IG(信息增益)等,下面举Pearson指数为例,它的计算方式如下: r2xy=(con(x,y)var(x)var(y)−−−−−−−−−−
图22.文献[45]训练数据获取流程图 特征提取 Gini-index: 一个特征的Gini-index越大,特征区分度越高。
如Pearson相关系数,Gini-index(基尼指数),IG(信息增益)等,下面举Pearson指数为例,它的计算方式如下: 其中,x属于X,X表一个特征的多个观测值,y表示这个特征观测值对应的类别列表
图22.文献[45]训练数据获取流程图 特征提取 Gini-index: 一个特征的Gini-index越大,特征区分度越高。
但Sargent 需要计算细胞间的gini-index后,将按gene-set-by-cell assignment score matrix转换为distribution of indexes。