首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >可变性分析的算法

可变性分析的算法
EN

Stack Overflow用户
提问于 2011-03-12 00:28:08
回答 1查看 68关注 0票数 2

我使用了很多直方图。特别是,这些直方图是沿着人类基因组片段的基本呼叫。

X轴上的每个点都是组成DNA的四个含氮碱基(A,C,T,G)之一,y轴代表碱基能够被“调用”(或被测序仪识别,以便对基因组进行排序,这只是确定基因组中每个碱基的同一性)的次数。

其中许多直方图显示了大致线性的衰减(当机器无法获得足够的读取深度时),从平台型区域下降到0或(几乎为-0)。当分数降到零时,这意味着定序器无法确定碱基的身份。如果你以前见过双螺旋,这意味着测序仪不能识别出螺旋的一半。基因组的某些区域比其他区域更难描述。在>=100级别上,具有大量基本呼叫的基本(或x个数据点)能够被确定地识别。例如,如果一个base总共有250个呼叫,我们有248个T呼叫,1个G呼叫和1个A呼叫,我们会称其为T。具有0个基本呼叫的区域值得关注,因为这样我们就必须从相邻区域推断低读数区域的身份。有没有一种简单的算法来给这些图分配一个反映这种趋势的分数?参见box.net/shared/nbygq2x03u以获取histo示例。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-03-12 00:32:36

你可以只使用读取深度为0的基数的计数...这条线的斜率也可能是一个有用的指标(陡峭的负斜率=从平台下降)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5275542

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档