我是一名生物系的学生,在我们的实验室里,我们正在用老鼠来测试某种药物。在正常状态下,我们有许多组生物复制的基因表达数据:gene replicate 1 replicate2 gene1 -0.842138 -0.701153 gene2 -0.796896 -0.725085 gene3 -0.835920 -0.707572 gene5 -0.702721 -0.724579 gene6 -0.815476 -0.737112 .... gene 20000 each dot represent a gene
在给它们喂药之后,我们有了一个新的基因表达数据:after medicine treatment
我的问题是,我如何将那些真正受影响的基因与那些仅仅是生物变异(复制之间的差异)的基因区分开来?
我是机器学习的新手,我相信监督学习应该是我的选择,对吧?训练数据是我的复制数据,然后我可以测试药物治疗后的每个基因是否可以落入复制定义的“耐受区”。但是我不确定我应该使用哪种方法。任何指导都是提前感谢的。
发布于 2017-05-15 20:55:05
首先,欢迎来到Stack Overflow!其次,我真的认为这个问题应该移到这里:DataScience还是Artificial Intelligence。尽管如此,我还是会尽力给你一个答案。
我有几个问题,当你回答的时候,你应该是在正确的方式上实际解决这个问题:
你是如何将你的数据分割成训练数据的(你用来训练purposes)?
后发生了怎样的变化
我个人会计算这些基因的均值和标准差,并在药物推出后进行同样的计算。这应该有助于您深入了解边界是如何更改的,以及扩散最有可能发生在哪里。另外,如果你有选择的话,一定要使用EDA (我知道我在这方面很有说服力,但它很有帮助)。我认为这应该会帮助你更好地了解你的问题。我希望我能帮上忙。
有用的算法链接:Machine Learning Algorithms
https://stackoverflow.com/questions/43979825
复制相似问题