首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >利用随机读取查找基因组覆盖范围

利用随机读取查找基因组覆盖范围
EN

Stack Overflow用户
提问于 2011-12-08 00:58:53
回答 2查看 373关注 0票数 2

谢谢你看我的问题。我正试着解决这个家庭作业问题。

考虑了随机读取的基因组测序问题。如果G是整个序列的长度,L是读的长度,n是读的次数,那么覆盖被定义为nL/G。现在,如果我们想要50%的原始长序列被至少一个片段覆盖,我们需要多少覆盖率?

我阅读了登陆者-沃特曼http://www.genetics.wustl.edu/bio5488/lecture_notes_2005/Lander.htm模型来理解这个概念.但不太明白如何解决这个问题。我认为给定的50%为概率,y为1( Poisson分布),并计算lambda (即覆盖范围)。但我觉得我没有走上正轨。我认为y是1,因为这个问题说,50%的原始长序列至少要被一个片段覆盖,这意味着这些碱基至少要被测序一次。

我可能错了。

专家们,你能指点我吗?

谢谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-12-08 10:29:25

我想你还没离开。正如我所读到的,y=1的意思是“准确地读一次”,而不是“至少读一次”。对于P(y=1) + P(y=2) +.这等于..。

票数 1
EN

Stack Overflow用户

发布于 2011-12-08 02:07:23

如果你把它看作是一个连续的问题(如,n是大的,L比G小得多),并且假设每个读的位置是完全随机的,那么每一个额外的读被浪费的可能性是与现有覆盖成正比的。这导致了以下数学问题:

代码语言:javascript
复制
d(coverage)/d(n) = (L/G) * (1 - coverage)

由于这是家庭作业,我将把解决方案留给读者作为练习。(不过,我想指出,这是一个实际使用微积分解决CS问题8^的罕见情况。)

从coverage=0 at n=0开始,求解上面的方程,得到如下结果:

代码语言:javascript
复制
   ln(1 - coverage) = - (L/G) * n
-> coverage = 1 - exp(- (L/G) * n)

作为一个现实的检验,请注意,这是你应该看到的:如果你的取样是真正随机的,G的未发现部分应该像放射性元素那样呈指数衰减。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8424854

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档