我使用了很多直方图。特别是,这些直方图是沿着人类基因组片段的基本呼叫。
X轴上的每个点都是组成DNA的四个含氮碱基(A,C,T,G)之一,y轴代表碱基能够被“调用”(或被测序仪识别,以便对基因组进行排序,这只是确定基因组中每个碱基的同一性)的次数。
其中许多直方图显示了大致线性的衰减(当机器无法获得足够的读取深度时),从平台型区域下降到0或(几乎为-0)。当分数降到零时,这意味着定序器无法确定碱基的身份。如果你以前见过双螺旋,这意味着测序仪不能识别出螺旋的一半。基因组的某些区域比其他区域更难描述。在>=100级别上,具有大量基本呼叫的基本(或x个数据点)能够被确定地识别。例如,如果一个base总共有250个呼叫,我们有248个T呼叫,1个G呼叫和1个A呼叫,我们会称其为T。具有0个基本呼叫的区域值得关注,因为这样我们就必须从相邻区域推断低读数区域的身份。有没有一种简单的算法来给这些图分配一个反映这种趋势的分数?参见box.net/shared/nbygq2x03u以获取histo示例。
发布于 2011-03-12 00:32:36
你可以只使用读取深度为0的基数的计数...这条线的斜率也可能是一个有用的指标(陡峭的负斜率=从平台下降)。
https://stackoverflow.com/questions/5275542
复制相似问题