文章/答案/技术大牛

发布

社区首页 >问答首页 >利用随机读取查找基因组覆盖范围

问利用随机读取查找基因组覆盖范围
EN

Stack Overflow用户

提问于 2011-12-08 00:58:53

回答 2查看 373关注 0票数 2

谢谢你看我的问题。我正试着解决这个家庭作业问题。

考虑了随机读取的基因组测序问题。如果G是整个序列的长度，L是读的长度，n是读的次数，那么覆盖被定义为nL/G。现在，如果我们想要50%的原始长序列被至少一个片段覆盖，我们需要多少覆盖率？

我阅读了登陆者-沃特曼http://www.genetics.wustl.edu/bio5488/lecture_notes_2005/Lander.htm模型来理解这个概念.但不太明白如何解决这个问题。我认为给定的50%为概率，y为1( Poisson分布)，并计算lambda (即覆盖范围)。但我觉得我没有走上正轨。我认为y是1，因为这个问题说，50%的原始长序列至少要被一个片段覆盖，这意味着这些碱基至少要被测序一次。

我可能错了。

专家们，你能指点我吗？

谢谢。

algorithm

bioinformatics

genome

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-12-08 10:29:25

我想你还没离开。正如我所读到的，y=1的意思是“准确地读一次”，而不是“至少读一次”。对于P(y=1) + P(y=2) +.这等于..。

票数 1

Stack Overflow用户

发布于 2011-12-08 02:07:23

如果你把它看作是一个连续的问题(如，n是大的，L比G小得多)，并且假设每个读的位置是完全随机的，那么每一个额外的读被浪费的可能性是与现有覆盖成正比的。这导致了以下数学问题：

d(coverage)/d(n) = (L/G) * (1 - coverage)

由于这是家庭作业，我将把解决方案留给读者作为练习。(不过，我想指出，这是一个实际使用微积分解决CS问题8^的罕见情况。)

从coverage=0 at n=0开始，求解上面的方程，得到如下结果：

   ln(1 - coverage) = - (L/G) * n
-> coverage = 1 - exp(- (L/G) * n)

作为一个现实的检验，请注意，这是你应该看到的:如果你的取样是真正随机的，G的未发现部分应该像放射性元素那样呈指数衰减。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8424854

复制

相似问题

问利用随机读取查找基因组覆盖范围
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用随机读取查找基因组覆盖范围EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用随机读取查找基因组覆盖范围
EN