问可变性分析的算法
EN

Stack Overflow用户

提问于 2011-03-12 00:28:08

回答 1查看 68关注 0票数 2

我使用了很多直方图。特别是，这些直方图是沿着人类基因组片段的基本呼叫。

X轴上的每个点都是组成DNA的四个含氮碱基(A，C，T，G)之一，y轴代表碱基能够被“调用”(或被测序仪识别，以便对基因组进行排序，这只是确定基因组中每个碱基的同一性)的次数。

其中许多直方图显示了大致线性的衰减(当机器无法获得足够的读取深度时)，从平台型区域下降到0或(几乎为-0)。当分数降到零时，这意味着定序器无法确定碱基的身份。如果你以前见过双螺旋，这意味着测序仪不能识别出螺旋的一半。基因组的某些区域比其他区域更难描述。在>=100级别上，具有大量基本呼叫的基本(或x个数据点)能够被确定地识别。例如，如果一个base总共有250个呼叫，我们有248个T呼叫，1个G呼叫和1个A呼叫，我们会称其为T。具有0个基本呼叫的区域值得关注，因为这样我们就必须从相邻区域推断低读数区域的身份。有没有一种简单的算法来给这些图分配一个反映这种趋势的分数？参见box.net/shared/nbygq2x03u以获取histo示例。

histogram

bioinformatics

data-analysis

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-03-12 00:32:36

你可以只使用读取深度为0的基数的计数...这条线的斜率也可能是一个有用的指标(陡峭的负斜率=从平台下降)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5275542

复制

相似问题

问可变性分析的算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问可变性分析的算法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问可变性分析的算法
EN