搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏生信技能树
去rRNA可以解决GC含量双峰的右峰
前些天我在生信技能树提出来了一个转录组数据分析的疑难杂症：RNA-seq的fastq文件里面为什么有gc含量的双峰，就是fastq测序数据质量控制的时候发现了GC含量的双峰，然后我简单分析了那些高重复的 bowtie2建立rRNA索引 bowtie2-build hg38_rRNA.fasta hg38_rRNA 这个时候的比对工具的选择，并不一定要bowtie2软件哈。使用bowtie2去除rRNA，重点--un-conc-gz参数。查阅hisat2的帮助文档，发现有同样的参数，所以可以用hisat2完成同样的操作。 bowtie2运行耗时20min左右，如果是hisat2，可能会更快，大家可以自行测试和比较一下。可以看到，GC含量最后一个峰是由rRNA导致，因为8百万条reads被去除后，该峰就消失了。最后剩下的问题，就是GC含量的另外一个峰。我们后续再谈它！
1.9K40发布于 2020-06-11
来自专栏小汪Waud
测序数据GC含量异常该如何处理？
我们在对测序数据进行fastqc质控时，会比较关注样本的GC含量，较好的数据如下图所示 Normal data 事实上，我们的测序结果会受到建库方式、样本质量等很多因素的影响，其GC含量也会千差万别下图是真实测序结果的fastqc报告，很明显其GC含量有多个峰值，相当的“红”。我们在进行后续分析之前，首先要对其进行一定处理，去掉杂峰的影响。 rawdata_qc 下图是双端测序结果的fastqc质控报告中的GC含量部分，我们可以看到有几个异常峰值。 /SRR11178348_1.fastq.gz -2 /home/xiaowang/GSE145894/2.raw_fq/SRR11178348_2.fastq.gz --un-conc-gz . 含量的双峰
4.2K20编辑于 2023-02-16
来自专栏生信技能树
生信基础50问-GC含量是否应该成正态分布呢
对NGS测序得到的成千上万条reads的GC含量进行统计，并且与正态分布形式对比已经是常规操作了，一般用fastqc软件即可分析，如下： ? 但现实情况往往不是这样。 Statistics Per base sequence quality Per sequence quality scores Per base sequence content Per base GC content Per sequence GC content Per base N content Sequence Length Distribution Sequence Duplication Levels Overrepresented sequences Kmer Content 那么问题来了，不同物种的ngs组学的GC含量理想范围是什么？
2K20发布于 2018-09-21
来自专栏生信技能树
RNA-seq的fastq文件里面为什么有gc含量的双峰
fastq测序数据质控的时候首先fastq测序数据质量控制表格就发现质量差的可怜，而且居然有GC含量的双峰，如下： ? 遇到这样的情况，就必须单独看具体的每个样本，上面的GC含量图表是项目里面全部的样本的multiqc汇总图表。我随机抽一个样本的fastqc报告看了看，如下： ? 这个59%到67%的GC含量reads有点多啊，就是第一个GC峰值。然后80%附近GC含量reads也有点多，就是第二个GC含量峰值。这两个GC含量峰值就是需要解决的问题，正常的RNA-seq数据不会出现这样的情况。 (下面的思维导图来自于：https://mp.weixin.qq.com/s/vpe8W0QMKngeQ2UuBPd-Gg ) ?
2K50发布于 2020-06-09
来自专栏生信技能树
【直播】我的基因组47:测序深度和GC含量的关系
含量片段偏好性。 if $F[2]=~/[GC]/;$counts_sum{$key}+=$F[3];$number{$key}++;}END{print "$_\t$number{$_}\t$GC{$_}\t$counts_sum 我觉得我这次画的图还不错，很明显能看到这个趋势，GC含量比较高的窗口，有着相应比较高的测序深度！ ? 至此，完美的证明了文章开头的结论！ /tmp.txt') a$GC = a[,4]/a[,3] a$depth = a[,5]/a[,3] a = a[a$depth<100,] plot(a$GC,a$depth) library(ggplot2 "="~r2, list(a = format(coef(m)[1], digits = 2), b = format(coef(m)[2], digits = 2), r2 = format(summary
1.8K110发布于 2018-03-08
来自专栏生信技能树
【直播】我的基因组47:测序深度和GC含量的关系
含量片段偏好性。 if $F[2]=~/[GC]/;$counts_sum{$key}+=$F[3];$number{$key}++;}END{print "$_\t$number{$_}\t$GC{$_}\t$counts_sum 我觉得我这次画的图还不错，很明显能看到这个趋势，GC含量比较高的窗口，有着相应比较高的测序深度！ ? 至此，完美的证明了文章开头的结论！ /tmp.txt')a$GC = a[,4]/a[,3]a$depth = a[,5]/a[,3]a = a[a$depth<100,]plot(a$GC,a$depth)library(ggplot2 "="~r2,list(a = format(coef(m)[1], digits = 2),b = format(coef(m)[2], digits = 2),r2 = format(summary
3.3K90发布于 2018-03-08
来自专栏小明的数据分析笔记本
杂记：ggpairs更改配色；ggplot2极坐标添加直线；seqkit计算fasta序列的长度和gc含量
计算gc含量 seqkit.exe fx2tab --name --only-id --gc output.fasta -o gc.txt ? image.png 计算序列长度 seqkit.exe fx2tab --name --only-id -l output.fasta -o seqlen.txt ? image.png ggplot2 作图极坐标情况下添加直线自己没有想法如何实现，搜索引擎搜索关键词 ggplot2 polar and then add straight lines找到参考链接 r 代码暂时还看不明白，他是自己重新定义了一个函数，代码我先复制过来，后面有时间来研究 library(tidyverse) library(ggplot2) df <- tibble(x = rep( "z", yend = 3 ), arrow = arrow(length = unit(0.2, "cm")), col = "red", size = 2
2.1K30发布于 2021-07-12
来自专栏生信技能树
对参考基因组按照200k分区间统计测序深度及GC含量
以前是自己写脚本：【直播】我的基因组47:测序深度和GC含量的关系可能是太复杂，大多数读者表示看不懂，所以我重新使用已有的轮子来做这件事。下载hg38参考基因组直接谷歌搜索即可： ? 107043718 chr15 101991189 chr16 90338345 chr17 83257441 chr18 80373285 chr19 58617616 chr2 含量因为使用的是bedtools这样成熟的轮子，所以就是一行代码而已： bedtools nuc -fi hg38.fa -bed 200k.bed | cut -f 1-3,5 > 200k_gc.bed # 4_pct_at 5_pct_gc 6_num_A 7_num_C 8_num_G 9_num_T 10_num_N 文件如下： $head 200k_gc.bed #1_usercol 2_usercol 3_usercol 5_pct_gc chr1 0 200000 0.420110 chr1 200000 400000 0.220065 chr1
4.4K20发布于 2019-06-19
来自专栏盛开在夏天的太阳
JVM调优--GC2
, 0x2b12bcc0, 0x2b12be00, 0x2b3d0000) rw space 12288K, 46% used [0x2b3d0000, 0x2b972060, 0x2b972200, , 0x2b12bcc0, 0x2b12be00, 0x2b3d0000) rw space 12288K, 46% used [0x2b3d0000, 0x2b972060, 0x2b972200, -Xms和-Xmx设为相同值.为了优化GC,最好让-Xmn值约等于-Xmx的1/3[2]. 2．一个GUI程序最好是每10到20秒间运行一次GC,每次在半秒之内完成[2]. 注意: 1．增加Heap的大小虽然会降低GC的频率,但也增加了每次GC的时间.并且GC运行时,所有的用户线程将暂停,也就是GC期间,Java应用程序不做任何工作. 2．Heap大小并不决定进程的内存使用量如果你的程序需要频繁创建很多transient对象,会导致JVM频繁GC.这种情况你可以增加机器的内存,来减少Swap空间的使用[2]. 4．4种GC 第一种为单线程GC,也是默认的GC.
51520编辑于 2022-05-06
来自专栏简说基因
生物信息学算法之Python实现|Rosalind刷题笔记：005 GC含量计算
DNA 序列的 GC 含量是指序列中'G'和'C'所占的百分比。一条 DNA 序列很容易表示，但是如果有多条 DNA 序列放在一起，则每条序列必须被标记，通常的做法是保存为 FASTA 格式文件。需得：GC 含量最高的序列名称及其 GC 含量（各占一行行输出）。 ) def test(): item = max_gc_content('rosalind_gc_test.txt') return item[0] == 'Rosalind_0808 ("cout_gc_content:Failed") sys.exit(1) item = max_gc_content('rosalind_gc.txt') print ，特别是为其构造一个 key 函数并传入，这是解本题的关键，GC 含量本身是很容易理解的。
1.5K20发布于 2020-12-14
测试没技术含量？
哈哈，这个话题带点江湖气息：开发有时觉得“自己写代码是造房子”，而测试“就是来找茬的”，于是容易说出“测试没技术含量”这种欠扁的话。面对“测试没技术含量”这类轻视言论，不需要情绪化“怼”，而是用理性、专业、有深度的回应让对方闭嘴甚至肃然起敬。他们没技术含量？那你去应聘试试？”“微软的测试工程师要会写编译器插件做静态分析，Amazon的QA要会建分布式压测平台 —— 你觉得这是‘点点点’？” ✍️ 总结：你可以这样优雅回击“测试当然有技术含量 —— 它是在不确定性中寻找确定性，在混沌中建立秩序，在沉默的系统中听见即将爆炸的声音。undefined我们不生产代码，我们生产信心。谁敢说显微镜没技术含量，那是眼界问题。
15410编辑于 2025-09-18
来自专栏生物信息学
R语言计算GCAT含量
这个包主要是处理基因组的一些序列信息，包括：序列翻译、DNA/RNA互转、统计各个碱基的含量、三连字母的含量.....这些都是一行命令可以解决的。今天就先来教大家怎样计算GC/AT含量。 ? 安装完毕，只需敲几行代码，就可以实现GC/AT含量可视化。 /dell/Desktop/sequence.fasta"#读取文件（FASTA格式）x<-readDNAStringSet(filepath)chrom<-x[[1]]#每100个碱基为窗口计算AT含量 T")))/100#获取描述性统计量根据此设置坐标summary(at)#画图plot(at,type='l',axes=F,xlab=NA,ylab=NA,ylim=c(0.2,0.8))axis(2,
2K10发布于 2020-04-13
来自专栏Java后端修炼
JVM 学习笔记(2)：垃圾回收GC
2）可达性分析算法 GC Root 也称为根对象，代表的是当前时刻仍然存活着的对象，可作为根对象的主要有以下几类： ① 在虚拟机栈中引用的对象，例如参数、局部变量、临时变量等； ② 在方法区中类静态属性 5、垃圾收集行为 1）Partitional GC：部分收集分为以下三种： ① Minor GC：针对新生代的收集； ② Major GC：针对老年代的收集，目前只有 CMS 收集器会有单独收集老年代的行为； ③ Mixed GC：新生代老年代混合收集，目前只有 G1 收集器有这种行为； 2） Full GC：整堆收集针对整个 Java 堆和方法区的收集。收集效率较低，因此不建议手动调用 System.gc() 进行 Full GC。 6、垃圾收集算法 1）标记-清除算法该算法分为两个阶段：标记和清除。 7、GC 相关参数 GC相关参数 8、垃圾收集器 1）分类垃圾收集器分类 2）Serial 这是一款最基础的垃圾收集器，它是单线程的，并且在进行垃圾收集工作时会停掉其他的工作线程，直到收集完毕。
39330编辑于 2022-09-20
来自专栏大数据平台TBDS
Hiveserver2 性能优化与GC优化
这种情况是由于hiveserver2自身的复杂压力大，内存损耗严重，严重GC进而导致hiveserver2故障。这种故障对应于上面介绍的“故障现象1”，通过jdbc无法正常连接到hiveserver2。为了解决该故障，可以通过优化内存GC可以缓解hiveserver2的GC卡死问题。以下是hiveserver2发生卡死，jdbc无法连接到hiveserver2的时候，统计GC的结果：可以看到，当hiveserver2发生严重卡死时，也就是hiveserver2 进程发生严重GC 因此，可以通过优化hiveserver2的内存GC来优化hiveserver2，使之支持更高的并发、能够执行更复杂的sql任务。因此，将hiveserver2迁移到资源非常空闲的另外一台服务器。 4.2 采用优化GC机制和参数之前hiveserver2进程的启动参数没有添加GC参数，也就是说采用系统默认的GC机制。
6.4K103发布于 2018-06-19
来自专栏小明的数据分析笔记本
使用Django框架开发的第一个简易web程序：计算fasta序列长度和GC含量
序列名称序列长度 GC 含量
{% for line in seqLength 'fasta'): d = {"SeqName":rec.id,"SeqLength":str(len(rec.seq)),\ "GCcontent":str(GC
83010发布于 2020-03-02
来自专栏生信开发者
胚胎DNA含量低的原因
Low fetal fraction has been linked to very early gestations, high maternal BMI, maternal medications, smoking and factors which lead to a smaller placenta, such as trisomies 13 and 18 (Kuhlmann-Capek et al. 2019)
69310发布于 2021-01-05
来自专栏Golang语言社区
Golang源码探索----GC的实现原理(2)
= 全局sweepgen atomic.Store(&s.sweepgen, h.sweepgen) // 放到全局span列表中, 这里的sweepSpans的长度是2 // sweepSpans[h.sweepgen/2%2]保存当前正在使用的span列表 // sweepSpans[1-h.sweepgen/2%2]保存等待sweep 的span列表 // 因为每次gcsweepgen都会加2, 每次gc这两个列表都会交换 h.sweepSpans[h.sweepgen/2%2].push(s) // = s.npages << _PageShift s.divShift = 0 s.divMul = 0 s.divShift2 = 0 && t.now-lastgc > forcegcperiod forcegcperiod的定义是2分钟, 也就是2分钟内没有执行过GC就会强制触发.
86420发布于 2020-12-03
来自专栏老男孩成长之路
Minor GC、Major GC、Full GC的区别
今天主要谈谈JVM GC的类型和策略，特别是大家经常混淆的Minor GC、Major GC、Full GC，年轻代GC、老年代GC，之间有什么区别和联系。 2.年老代年老代内存里包含了长期存活的对象和经过多次Minor GC后依然存活下来的对象，通常会在老年代内存被占满时进行垃圾回收。 Major GC 老年代的垃圾收集叫做Major GC，Major GC通常是跟full GC是等价的，收集整个GC堆。 Minor GC和Major GC其实就是年轻代GC和年老年GC的俗称。而在Hotspot VM具体实现的收集器：Serial GC, Parallel GC, CMS, G1 GC中，大致可以对应到某个Young GC和Old GC算法组合。分代GC并不收集整个GC堆的模式，而是只专注分代收集 Young GC：只收集年轻代的GC Old GC：只收集年老代的GC(只有CMS的concurrent collection是这个模式) Mixed
8.1K73发布于 2021-07-21
来自专栏单细胞天地
使用seurat3里面计算线粒体基因含量的2个方法
首先构建10x对象，这里就不赘述了，我在我在单细胞天地的2个教程：使用seurat3的merge功能整合8个10X单细胞转录组样本 seurat3的merge功能和cellranger的aggr整合多个 10X单细胞转录组对比展示的非常清楚啦，因为每个教程想说明的情况不一样，所以需要重新把计算线粒体基因含量讲解一下。一般来说，这个过滤起码得是线粒体基因含量占比25%以下的细胞才保留，当然也得考虑到生物学课题啦。第二种方法上面的方法是修改 sce[["percent.mt"]] ，下面我们演示 AddMetaData 函数，同样是可以增加线粒体基因含量信息到我们的seurat对象。也可以是免疫球蛋白相关基因含量等等，取决于大家的生物学课题啦。
5.3K10发布于 2020-03-30
来自专栏程序猿DD
Minor GC、Major GC和Full GC之间的区别
所以分配率越高，越频繁执行 Minor GC。 2、内存池被填满的时候，其中的内容全部会被复制，指针会从0开始跟踪空闲内存。 0.0 34047.1 272640.0 245801.5 1756416.0 597362.6 21504.0 20390.6 3072.0 2750.3 13 1.183 2 0.0 34048.0 272640.0 21474.1 1756416.0 757347.0 22012.0 20792.0 3200.0 2791.0 15 1.336 2 基于该信息，我们可以得出这样的结果，运行了12次 Minor GC、2次 Full GC，时间总跨度为50毫秒。 2、并行执行标记和清洗阶段。这些都是和应用程序线程并行的。 3、最后 Remark 阶段，花费了0.0462010秒约46ms。这个阶段会再次暂停所有的事件。 4、并行执行清理操作。
1.1K30发布于 2018-12-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

去rRNA可以解决GC含量双峰的右峰

测序数据GC含量异常该如何处理？

生信基础50问-GC含量是否应该成正态分布呢

RNA-seq的fastq文件里面为什么有gc含量的双峰

【直播】我的基因组47:测序深度和GC含量的关系

【直播】我的基因组47:测序深度和GC含量的关系

杂记：ggpairs更改配色；ggplot2极坐标添加直线；seqkit计算fasta序列的长度和gc含量

对参考基因组按照200k分区间统计测序深度及GC含量

JVM调优--GC2

生物信息学算法之Python实现|Rosalind刷题笔记：005 GC含量计算

测试没技术含量？

R语言计算GCAT含量

JVM 学习笔记(2)：垃圾回收GC

Hiveserver2 性能优化与GC优化

使用Django框架开发的第一个简易web程序：计算fasta序列长度和GC含量

胚胎DNA含量低的原因

Golang源码探索----GC的实现原理(2)

Minor GC、Major GC、Full GC的区别

使用seurat3里面计算线粒体基因含量的2个方法

Minor GC、Major GC和Full GC之间的区别

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐