首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信技能树

    去rRNA可以解决GC含量双峰的右峰

    前些天我在生信技能树提出来了一个转录组数据分析的疑难杂症:RNA-seq的fastq文件里面为什么有gc含量的双峰,就是fastq测序数据质量控制的时候发现了GC含量的双峰,然后我简单分析了那些高重复的 可以看到,少了8百万条reads。 ? ? 可以看到,GC含量最后一个峰是由rRNA导致,因为8百万条reads被去除后,该峰就消失了。 最后剩下的问题,就是GC含量的另外一个峰。我们后续再谈它!

    1.9K40发布于 2020-06-11
  • 来自专栏小汪Waud

    测序数据GC含量异常该如何处理?

    我们在对测序数据进行fastqc质控时,会比较关注样本的GC含量,较好的数据如下图所示 Normal data 事实上,我们的测序结果会受到建库方式、样本质量等很多因素的影响,其GC含量也会千差万别 下图是真实测序结果的fastqc报告,很明显其GC含量有多个峰值,相当的“红”。我们在进行后续分析之前,首先要对其进行一定处理,去掉杂峰的影响。 rawdata_qc 下图是双端测序结果的fastqc质控报告中的GC含量部分,我们可以看到有几个异常峰值。 read id do echo prefetch ${id} -O ./ done 参考资料: RNA-seq数据分析完全指北-03:去除奇怪的RNA RNA-seq的fastq文件里面为什么有gc 含量的双峰

    4.2K20编辑于 2023-02-16
  • 来自专栏生信技能树

    生信基础50问-GC含量是否应该成正态分布呢

    对NGS测序得到的成千上万条reads的GC含量进行统计,并且与正态分布形式对比已经是常规操作了,一般用fastqc软件即可分析,如下: ? 但现实情况往往不是这样。 Statistics Per base sequence quality Per sequence quality scores Per base sequence content Per base GC content Per sequence GC content Per base N content Sequence Length Distribution Sequence Duplication Levels Overrepresented sequences Kmer Content 那么问题来了,不同物种的ngs组学的GC含量理想范围是什么?

    2K20发布于 2018-09-21
  • 来自专栏生信技能树

    RNA-seq的fastq文件里面为什么有gc含量的双峰

    fastq测序数据质控的时候 首先fastq测序数据质量控制表格就发现质量差的可怜,而且居然有GC含量的双峰,如下: ? 遇到这样的情况,就必须单独看具体的每个样本,上面的GC含量图表是项目里面全部的样本的multiqc汇总图表。 我随机抽一个样本的fastqc报告看了看,如下: ? 这个59%到67%的GC含量reads有点多啊,就是第一个GC峰值。 然后80%附近GC含量reads也有点多,就是第二个GC含量峰值。 这两个GC含量峰值就是需要解决的问题,正常的RNA-seq数据不会出现这样的情况。 (下面的思维导图来自于:https://mp.weixin.qq.com/s/vpe8W0QMKngeQ2UuBPd-Gg ) ?

    2K50发布于 2020-06-09
  • 来自专栏生信技能树

    【直播】我的基因组47:测序深度和GC含量的关系

    含量片段偏好性。 以下为分析过程: 首先,把全基因组的bam文件用 mpileup模式输出,根据 1000bp 的窗口滑动来统计每个窗口的测到的碱基数,GC碱基数,测序总深度! if $F[2]=~/[GC]/;$counts_sum{$key}+=$F[3];$number{$key}++;}END{print "$_\t$number{$_}\t$GC{$_}\t$counts_sum 我觉得我这次画的图还不错,很明显能看到这个趋势,GC含量比较高的窗口,有着相应比较高的测序深度! ? 至此,完美的证明了文章开头的结论! /tmp.txt') a$GC = a[,4]/a[,3] a$depth = a[,5]/a[,3] a = a[a$depth<100,] plot(a$GC,a$depth) library(ggplot2

    1.8K110发布于 2018-03-08
  • 来自专栏生信技能树

    【直播】我的基因组47:测序深度和GC含量的关系

    含量片段偏好性。 以下为分析过程: 首先,把全基因组的bam文件用 mpileup模式输出,根据 1000bp 的窗口滑动来统计每个窗口的测到的碱基数,GC碱基数,测序总深度! if $F[2]=~/[GC]/;$counts_sum{$key}+=$F[3];$number{$key}++;}END{print "$_\t$number{$_}\t$GC{$_}\t$counts_sum 我觉得我这次画的图还不错,很明显能看到这个趋势,GC含量比较高的窗口,有着相应比较高的测序深度! ? 至此,完美的证明了文章开头的结论! /tmp.txt')a$GC = a[,4]/a[,3]a$depth = a[,5]/a[,3]a = a[a$depth<100,]plot(a$GC,a$depth)library(ggplot2

    3.3K90发布于 2018-03-08
  • 来自专栏前端小学生

    V8 GC垃圾回收

    分代回收(Generational GC)V8 引擎采用了 分代回收 的策略,将堆内存分为 新生代 和 老生代。新生代存储生命周期较短的对象,老生代存储生命周期较长的对象。 为了减少这种停顿,V8 引擎还使用了 增量标记(Incremental Marking)和 并行回收(Parallel GC)来分担回收任务,逐步清理老生代对象,而不是在一个长时间的回收周期内进行完整清理 增量标记是 V8 引擎的一项优化技术,它的目的是减少垃圾回收期间的停顿时间。 3.2 并行垃圾回收(Parallel GC)并行垃圾回收是 V8 引擎的一项重要优化,它允许垃圾回收过程的多个阶段在多核 CPU 上并行执行,从而大大减少垃圾回收的总停顿时间。 例如,对于响应式的 web 应用,V8 会减少垃圾回收的频率,而对于内存密集型的应用,可能会增加回收的频率。此外,V8 还会根据堆的大小、对象的存活情况等动态调整回收策略。

    37010编辑于 2025-02-08
  • 来自专栏原创分享

    V8 GC 的实现

    前言:GC 是一个古老、复杂并且很 Cool 的技术,本文大概介绍一下早期 V8 中关于 GC 实现的部分,代码版本 0.1.5,早期版本利于快速理解整体的逻辑,因为现代版本已经非常复杂。 Local<v8::Object> v8::Object::New() { i::Handle<i::JSObject> obj = i::Factory::NewJSObject(i::Top:: 在 V8 初始化时会初始化新生代堆内存的数据结构。 ::CollectGarbage(); MarkCompactEpilogue(); gc_state_ = NOT_IN_GC;} 老生代 GC 比较复杂。 static HandleScopeData* CurrentHandleScope() { return &v8::HandleScope::current_;} v8::HandleScope:

    53310编辑于 2022-12-06
  • 来自专栏生信技能树

    对参考基因组按照200k分区间统计测序深度及GC含量

    以前是自己写脚本: 【直播】我的基因组47:测序深度和GC含量的关系 可能是太复杂,大多数读者表示看不懂,所以我重新使用已有的轮子来做这件事。 下载hg38参考基因组 直接谷歌搜索即可: ? 50818468 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 chr8 含量 因为使用的是bedtools这样成熟的轮子, 所以就是一行代码而已: bedtools nuc -fi hg38.fa -bed 200k.bed | cut -f 1-3,5 > 200k_gc.bed # 4_pct_at 5_pct_gc 6_num_A 7_num_C 8_num_G 9_num_T 10_num_N 文件如下: $head 200k_gc.bed #1_usercol 2_usercol 3_usercol 5_pct_gc chr1 0 200000 0.420110 chr1 200000 400000 0.220065 chr1

    4.4K20发布于 2019-06-19
  • 来自专栏做不甩锅的后端

    java8 各种GC的总结

    这样GC不能回收这两个对象。 回收的模式分为:Young GC,Mixed GC和FullGC。 4.7.2.1 Young GC 回收的CSet就是所有年轻代里面的Region。 G1的GC过程会在Young GC和Mixed GC之间不断地切换运行,同时定期地做全局并发标记,在实在赶不上对象创建速度的情况下使用Full GC。 5.总结 本文对JVM中的各种GC回收器进行了总结,在配置GC回收策略的时候,我们需要结合我们的业务场景来进行: 并行GC是jdk1.8默认的GC回收策略,默认采用 ParNew收集器 + Parallel 串行GC仅仅适用于-client,其吞吐量和GC卡顿时间都比较差。大多数情况下不建议使用。 CMS GC可以有效的解决GC的STW时间不可控的问题,但是带来了吞吐量的降低。

    1.2K40发布于 2021-08-13
  • 来自专栏原创分享

    V8 global.gc() 的实现

    前言:在 Node.js 中我们有时候会使用 global.gc() 主动触发 gc 来测试一些代码,因为我们知道 V8 gc 的执行时机是不定的。 但是可能很少同学知道 global.gc() 的实现,本文介绍一些在 V8 中关于这部分的实现。 了解 global.gc() 实现之前,首先看一下 V8 的 Extension 机制。 FLAG_expose_gc || InstallExtension(isolate, "v8/gc", &extension_states)) } 当启动 V8 的时候设置了 expose_gc 标记 : v8::Extension("v8/gc", BuildSource(buffer_, sizeof(buffer_), fun_name)) {} v8::Local<v8::FunctionTemplate 函数是可以带参数的,参数可以控制 gc 是同步还是异步,还可以控制 gc 的类型,我们知道 V8 里针对不同的 space 有不同的 gc 策略。

    66910编辑于 2022-07-01
  • 来自专栏简说基因

    生物信息学算法之Python实现|Rosalind刷题笔记:005 GC含量计算

    DNA 序列的 GC 含量是指序列中'G'和'C'所占的百分比。 一条 DNA 序列很容易表示,但是如果有多条 DNA 序列放在一起,则每条序列必须被标记,通常的做法是保存为 FASTA 格式文件。 需得:GC 含量最高的序列名称及其 GC 含量(各占一行行输出)。 ) def test(): item = max_gc_content('rosalind_gc_test.txt') return item[0] == 'Rosalind_0808 ("cout_gc_content:Failed") sys.exit(1) item = max_gc_content('rosalind_gc.txt') print ,特别是为其构造一个 key 函数并传入,这是解本题的关键,GC 含量本身是很容易理解的。

    1.5K20发布于 2020-12-14
  • 测试没技术含量

    哈哈,这个话题带点江湖气息:开发有时觉得“自己写代码是造房子”,而测试“就是来找茬的”,于是容易说出“测试没技术含量”这种欠扁的话。 面对“测试没技术含量”这类轻视言论,不需要情绪化“怼”,而是用理性、专业、有深度的回应让对方闭嘴甚至肃然起敬。 他们没技术含量?那你去应聘试试?”“微软的测试工程师要会写编译器插件做静态分析,Amazon的QA要会建分布式压测平台 —— 你觉得这是‘点点点’?” ✍️ 总结:你可以这样优雅回击“测试当然有技术含量 —— 它是在不确定性中寻找确定性,在混沌中建立秩序,在沉默的系统中听见即将爆炸的声音。undefined我们不生产代码,我们生产信心。 谁敢说显微镜没技术含量,那是眼界问题。

    15410编辑于 2025-09-18
  • 来自专栏Nodejs技术栈

    解读 V8 GC Log(二): 堆内外内存的划分与 GC 算法

    原作者 | 洗影 链接 | yq.aliyun.com/articles/592880 上一篇文章介绍了理解 V8 GC Log 的意义在哪,简单介绍了一下 V8 GC 的整体特征。 在这篇文章里,我们介绍 V8 中堆内存的划分与新老生代的 GC 算法。 这些基础知识是理解 V8 GC Log 的关键,不过这篇文章的介绍点到为止,能够读懂 V8 GC Log 即可,以免把大家在细节中带迷路。 V8 的用户还可以自行维护堆外内存,并将这些内存的数据上报给 V8,帮助 V8 调整 GC 的策略和时机。 外部内存也会影响 V8GC,比如当外部内存占用过大时,V8 可能会选择 Full GC(包含老生代)而不是仅仅回收新生代,尝试触发用户的 GC 回调以空出更多的内存来使用。

    2.3K20发布于 2020-03-02
  • 来自专栏生物信息学

    R语言计算GCAT含量

    这个包主要是处理基因组的一些序列信息,包括:序列翻译、DNA/RNA互转、统计各个碱基的含量、三连字母的含量.....这些都是一行命令可以解决的。今天就先来教大家怎样计算GC/AT含量。 ? 安装完毕,只需敲几行代码,就可以实现GC/AT含量可视化。 /dell/Desktop/sequence.fasta"#读取文件(FASTA格式)x<-readDNAStringSet(filepath)chrom<-x[[1]]#每100个碱基为窗口计算AT含量

    2K10发布于 2020-04-13
  • 来自专栏小明的数据分析笔记本

    使用Django框架开发的第一个简易web程序:计算fasta序列长度和GC含量

    序列名称 序列长度 GC 含量
    {% for line in seqLength 'fasta'): d = {"SeqName":rec.id,"SeqLength":str(len(rec.seq)),\ "GCcontent":str(GC

    83010发布于 2020-03-02
  • 来自专栏小明的数据分析笔记本

    杂记:ggpairs更改配色;ggplot2极坐标添加直线;seqkit计算fasta序列的长度和gc含量

    计算gc含量 seqkit.exe fx2tab --name --only-id --gc output.fasta -o gc.txt ?

    2.1K30发布于 2021-07-12
  • 来自专栏终码一生

    从 JDK 8 到 JDK 17,GC 性能大幅提升!!

    最近,我发表过一个演讲,重点介绍了自 JDK 8 以来 G1 中的新特性,本文将在此基础之上进一步扩展,以涵盖 Parallel GC 和 ZGC取得的进步。 下面,快速介绍一下不同优化的含义: 吞吐量:降低 GC 对可在指定时间内完成的事务总数的影响。 延迟:降低 GC 对单个事务的影响。 资源占用情况:降低GC 使用的额外资源。 2 自 JDK 8 以来的进步 自 JDK 8 以来取得的进步,我们能够看到所有收集器在各个方面都有或多或少的改进。为了更好地展示 GC 的进步,下面的比较将使用标准化分数来比较各个收集器。 如果你正仍在使用 JDK 8 并计划升级,那么现在就可以重新评估打算使用的 GC。在 JDK 8 中,Parallel是默认设置,但在 JDK 9 中改为了 G1。 参考链接:kstefanj.github.io/2021/11/24/gc-progress-8-17.html

    5.5K40编辑于 2022-04-15
  • 来自专栏老男孩成长之路

    Minor GC、Major GC、Full GC的区别

    今天主要谈谈JVM GC的类型和策略,特别是大家经常混淆的Minor GC、Major GC、Full GC,年轻代GC、老年代GC,之间有什么区别和联系。 Major GC 老年代的垃圾收集叫做Major GC,Major GC通常是跟full GC是等价的,收集整个GC堆。 Minor GC和Major GC其实就是年轻代GC和年老年GC的俗称。 而在Hotspot VM具体实现的收集器:Serial GC, Parallel GC, CMS, G1 GC中,大致可以对应到某个Young GC和Old GC算法组合。 分代GC并不收集整个GC堆的模式,而是只专注分代收集 Young GC:只收集年轻代的GC Old GC:只收集年老代的GC(只有CMS的concurrent collection是这个模式) Mixed GC:收集整个young gen以及部分old gen的GC(只有G1有这个模式) Full GC Full GC定义是相对明确的,就是针对整个新生代、老生代、元空间(metaspace,java8以上版本取代

    8.1K73发布于 2021-07-21
  • 来自专栏生信开发者

    胚胎DNA含量低的原因

    Low fetal fraction has been linked to very early gestations, high maternal BMI, maternal medications, smoking and factors which lead to a smaller placenta, such as trisomies 13 and 18 (Kuhlmann-Capek et al. 2019)

    69310发布于 2021-01-05
领券