是否有一种策略可以在一组中跨条件对共享属性进行聚类,同时知道该条件会激发两个组之间的差异?
一个具体的例子:假设A组有4个人,B组有4个人,A组被介绍给StackOverflow,其他人只剩下他们的钢铁意志。对每个个体进行了30000个基因检测。与B组相比,我们期望A组个体相对没有压力,因此,我们寻找在B组中高表达但在A组中低表达的基因簇,确定这组基因是有用的,因为这些基因可以解释对压力的生物学反应。
但事实证明,这两组并不是线性分离的-- PCA在A组和B组中表现出很大的差异。A组中的一些个体与B组有一些基因被上调,但A组中的一两个个体也有这种上调。是否有一种策略来发现A组中的所有个人都具有相同属性,并且与B组中的所有个人都不同,同时知道这两个组应该是不同的。
发布于 2016-01-17 10:58:24
这不是聚类分析。
你有两类:治疗和控制。
你想找出那些有助于区分这两类人的特征(基因)。
寻找有监督的特征选择方法,如信息获取;并研究可解释的分类器,如决策树和随机森林,这将帮助您识别最有区别的基因。
https://stackoverflow.com/questions/34835037
复制相似问题