谢谢你看我的问题。我正试着解决这个家庭作业问题。
考虑了随机读取的基因组测序问题。如果G是整个序列的长度,L是读的长度,n是读的次数,那么覆盖被定义为nL/G。现在,如果我们想要50%的原始长序列被至少一个片段覆盖,我们需要多少覆盖率?
我阅读了登陆者-沃特曼http://www.genetics.wustl.edu/bio5488/lecture_notes_2005/Lander.htm模型来理解这个概念.但不太明白如何解决这个问题。我认为给定的50%为概率,y为1( Poisson分布),并计算lambda (即覆盖范围)。但我觉得我没有走上正轨。我认为y是1,因为这个问题说,50%的原始长序列至少要被一个片段覆盖,这意味着这些碱基至少要被测序一次。
我可能错了。
专家们,你能指点我吗?
谢谢。
发布于 2011-12-08 10:29:25
我想你还没离开。正如我所读到的,y=1的意思是“准确地读一次”,而不是“至少读一次”。对于P(y=1) + P(y=2) +.这等于..。
发布于 2011-12-08 02:07:23
如果你把它看作是一个连续的问题(如,n是大的,L比G小得多),并且假设每个读的位置是完全随机的,那么每一个额外的读被浪费的可能性是与现有覆盖成正比的。这导致了以下数学问题:
d(coverage)/d(n) = (L/G) * (1 - coverage)由于这是家庭作业,我将把解决方案留给读者作为练习。(不过,我想指出,这是一个实际使用微积分解决CS问题8^的罕见情况。)
从coverage=0 at n=0开始,求解上面的方程,得到如下结果:
ln(1 - coverage) = - (L/G) * n
-> coverage = 1 - exp(- (L/G) * n)作为一个现实的检验,请注意,这是你应该看到的:如果你的取样是真正随机的,G的未发现部分应该像放射性元素那样呈指数衰减。
https://stackoverflow.com/questions/8424854
复制相似问题