开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >CNN在基因组学中的应用

问CNN在基因组学中的应用
EN

Data Science用户

提问于 2018-07-19 01:13:11

回答 1查看 359关注 0票数 0

由于CNN已经广泛应用于DNA序列数据中，我想知道为什么CNN不经常用于预测SNP数据的表型，因为SNP本质上是DNA序列的一部分，并且保留了排序的性质。

例如，本文中的https://arxiv.org/abs/1611.09340指出，“.这些技术中的大多数都是基于适合卷积或递归网络的序列数据。当无法获得完整的DNA序列时，例如通过基因分型获取数据时，需要使用其他方法……”

请解释算法，而不是生物学方面(例如，SNP只解释一小部分遗传变异，等等)

嘿，伙计们，我只想提醒大家，我正在讨论SNP的使用(或者你也可以包括其他类型的变种)，...not全序列数据。在全DNA序列上使用CNN来预测变异位点是非常普遍的。这是很容易理解的，因为它是自然使用CNN的顺序数据。

但我不明白的是，为什么不使用CNN (1)对SNP(因为SNP保留了DNA序列的主要空间结构) (2)预测表型？

convolutional-neural-network

machine-learning

EN

回答 1

Data Science用户

发布于 2018-07-19 05:16:14

CNN在基因组学中已经被多次使用，你所描述的并不新鲜。Google上的5s快速搜索给了我这篇文章：

应用深卷积神经网络( https://www.biorxiv.org/content/biorxiv/early/2017/12/31/241414.full.pdf )对不同基因型的...predict表型进行了分析。

“基因型”是一个比"SNP“更好的术语，因为短项也很重要。你的想法肯定不是新的，而且实际上还不足以作为一个研究课题。

仅从基因型预测表型是很老的，也是相当严重的。任何好的日记都不会再有这样的话题了。无论您的模型有多好；无论您有多少层(例如，1000000万亿层)，您有多少个GPU (例如，世界上的每个GPU)，有多少个工程师(例如世界上每一个ML工程师)。CNN永远不会完美地解决问题，因为它忽略了来自蛋白质的重要信息。无论你从一篇论文中看到什么，在应用中都是有限的(例如，强有力的假设)。基因型数据不能告诉你你的基因是如何被转录的。

相反，目前的研究趋势是应用深度学习网络整合多种数据源(蛋白质、转录本、基因、基因型等)，形成一个单一的统一模型。这就是为什么我们有人工智能的精确医学。

票数 1

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/35697

复制

相似问题