由于CNN已经广泛应用于DNA序列数据中,我想知道为什么CNN不经常用于预测SNP数据的表型,因为SNP本质上是DNA序列的一部分,并且保留了排序的性质。
例如,本文中的https://arxiv.org/abs/1611.09340指出,“.这些技术中的大多数都是基于适合卷积或递归网络的序列数据。当无法获得完整的DNA序列时,例如通过基因分型获取数据时,需要使用其他方法……”
请解释算法,而不是生物学方面(例如,SNP只解释一小部分遗传变异,等等)
嘿,伙计们,我只想提醒大家,我正在讨论SNP的使用(或者你也可以包括其他类型的变种),...not全序列数据。在全DNA序列上使用CNN来预测变异位点是非常普遍的。这是很容易理解的,因为它是自然使用CNN的顺序数据。
但我不明白的是,为什么不使用CNN (1)对SNP(因为SNP保留了DNA序列的主要空间结构) (2)预测表型?
发布于 2018-07-19 05:16:14
CNN在基因组学中已经被多次使用,你所描述的并不新鲜。Google上的5s快速搜索给了我这篇文章:
应用深卷积神经网络( https://www.biorxiv.org/content/biorxiv/early/2017/12/31/241414.full.pdf )对不同基因型的...predict表型进行了分析。
“基因型”是一个比"SNP“更好的术语,因为短项也很重要。你的想法肯定不是新的,而且实际上还不足以作为一个研究课题。
仅从基因型预测表型是很老的,也是相当严重的。任何好的日记都不会再有这样的话题了。无论您的模型有多好;无论您有多少层(例如,1000000万亿层),您有多少个GPU (例如,世界上的每个GPU),有多少个工程师(例如世界上每一个ML工程师)。CNN永远不会完美地解决问题,因为它忽略了来自蛋白质的重要信息。无论你从一篇论文中看到什么,在应用中都是有限的(例如,强有力的假设)。基因型数据不能告诉你你的基因是如何被转录的。
相反,目前的研究趋势是应用深度学习网络整合多种数据源(蛋白质、转录本、基因、基因型等),形成一个单一的统一模型。这就是为什么我们有人工智能的精确医学。
https://datascience.stackexchange.com/questions/35697
复制相似问题