分析软件可以选择fastqc,linux中可以直接用wget安装`unzip fastqc_v0.11.7.zip`-->`cd FastQC`-- >`chmod755 fastqc`chmod 用3 个数字来表达对 用户(文件或目录的所有者),用户组(同组用户),其他用户 的权限: 如:chmod 755 fastqc 数字7是表达同时具有读,写,执行权限:(7 = 4 + 2+ 1) 读取-
生信星球1. 一二三代测序每一代测序都是为了解决上一代的问题,但又不完美一代测序准确度高,但通量低二代测序即高通量测序,但读长短三代测序读长长,但准确度低2.
名词结构化基因组学(核酸序列分析)全基因组测序(WGS)全外显子组测序(WES)简化基因组测序(RRGS)作用基因组作图(遗传图谱、物理图谱、转录本图谱)核苷酸序列分析基因定位基因功能分析转录组学(基因表达分析 (长链非编码RNA)sRNA-Seq(主要是miRNA-Seq)作用获得物种或者组织的转录本信息得到转录本上基因的相关信息,如基因结构功能等发现新的基因基因结构优化发现可变剪切发现基因融合基因表达差异分析蛋白质组学蛋白质组数据处理 、蛋白及其修饰鉴定构建蛋白质数据库、相关软件的开发和应用蛋白质结构功能预测蛋白质连锁图代谢组学代谢物指纹分析代谢轮廓分析常用的数据格式DNA序列表征Fastq一种基于文本的,保存生物序列(通常是核酸序列
生信技能树学习笔记 awk:也称 gawk,编程语言,可对文本和数据进行处理 常见参数:-F,fields,设置字段分隔符; 用法:awk [options] '{script}' file 基础结构:
通过高通量测序量化这一参数,可解码免疫应答的克隆动态,为精准免疫诊疗提供基石 2.如何分析CDR3长度 2.1 CDR3 核苷酸长度与CDR3氨基酸长度 在免疫组库分析文件中,提供CDR3区域的 因此,对CDR3长度的分析包括:CDR3 核苷酸长度与CDR3氨基酸长度,后者在分析中更为常见。 CDR3 长度分析的种类 3.1.CDR3 长度高斯分布分析 将X轴设置为核苷酸或者氨基酸不同长度数值,Y轴设置为百分比。展示每一个CDR3长度下对应的频率。 3.2.CDR3 长度平均分布分析 利用加权平均值来分析不同样本或者不同链的CDR3平均长度。 3.3.特定V/D/J 基因的CDR3 长度平均比较 如下图所示,图a展示了不同TRBV基因的相对频率。
生信论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 数据库做基因组学的分析(机制一); STRING互作和GO/KEGG分析探讨可能的信号通路(机制二); TISIDB/TIMER分析肿瘤免疫特征(机制三)。 差异分析,无论是Oncomine,GEPIA,还是UALCAN、HPA数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生信操作。并没有想象中那么难。 生存分析是生信论文中经常出现的表型,也就是说基因在正常和肿瘤组织中表达的差异,与生存率的指标密切相关。如A基因在肿瘤中表达明显上调,生存率显著下降,这就是非常明确的相关性。 生存分析是非常重要的表型,诸多文章均有介绍。这里,我们对生存分析的纯生信数据库进行总结,果友们在选择时也可以作为参考。
生信论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。 生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。 免疫浸润分析比生存分析、差异分析和相关性分析难度更大,因为免疫学是不断延伸、拓展的学科,并不断从理论走向应用、临床,兼有科学性和技术性,比如实验中已经普遍应用的免疫印迹(WB),流式分析,免疫组化和免疫荧光等等 生信分析中,有一种算法叫反卷积分析,英文名叫Deconvolution。 生信开发人员可以先通过预设一个优秀的数据训练集(训练集主要包含了每种不同免疫细胞的基因表达特征),然后通过反卷积算法推算出这个整体样本中究竟有哪些免疫细胞。
一二三代测序以及二代大体流程NGS组学分类生信星球生信星球原理视频b站up-一只小蛮腰呀,还有字数限制呀,那我写写心得,二代原理还是不太清楚,下来继续查阅文章,实验室得测序机子是BD的,看了公众号和视频都没有涉及
Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法。1975年由Sanger提出,并于1977发表第一个完整的生物体基因组序列。
测序原理 我感觉这个讲得挺好的: 【中英双语】Illumina测序原理详解 | 边合成边测序 素材来源:YouTube官方 https://www.youtube.com/watch?v=fCd6B5
本篇内容引自生信技能树 DAY7-9 课前提问: 1、为什么要做数据挖掘? 即用别人的数据用在自己的文章里面,多半是从别人的数据里筛选自己想要的基因。 拿到表达矩阵之前的分析叫上游分析,之后的叫下游分析。 5、筛选基因的分析方法(基因芯片和转录组通用) 差异分析:测定基因表达量的原理不同,前者是光信号值,后者是短序列的条数。 las=2) #boxplot(exp[,seq(1,ncol(exp),4)],las=2) #随机取样的方式画图,样本数量很多的时候 #boxplot(exp[,sample(1:ncol(exp),7) not "text") col.ind = Group, # color by groups palette = c("#00AFBB", "#E7B800 是表达量最离散的1000个基因,包括了组间的---- #因为整个表达矩阵画不了热图,我们挑出一部分来画 g = names(tail(sort(apply(exp,1,sd)),1000)) #day7-
生信分析,无论是Oncomine,GEPIA,还是KM Plotter数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生信操作。并没有想象中那么难。 p<0.05就是我们前期做分析想要的结果,即使用GEO数据库、TCGA数据库做分析,甚至做芯片或测序,没有差异也是枉然。 对于医生,个人建议是最好学会R语言,最起码掌握不用R语言的数据库分析。 最重要的是阅读过的文献和做过的生信分析,可以进一步促进对临床上疾病的认识,提升医生的诊治水平。 ? 接下来,我们将按照中心法则和生信论文分析的思路总结生信分析的网站。 这些网站均是纯生信数据库,不需要R语言基础,就像Excel、PPT一样容易上手,只要你愿意学,肯定能学会。 差异分析数据库 oncomine数据库(差异分析首选) https://www.oncomine.org/resource/main.html GEPIA数据库(共表达是特色) http://gepia.cancer-pku.cn
生信技能树学习笔记 Anaconda 的官网是 https://www.anaconda.com/ 官网上介绍anaconda是所有语言的包、依赖和环境管理器。 Conda之间的关系如下 当我们使用服务器分析数据,我们使用miniconda,如果在自己的电脑上使用anaconda。 因为在数据分析过程中我们要使用很多种软件,软件安装中会遇到各种问题。 基因组、转录组、Chip-seq…… 具体步骤: # 创建名为rna的软件环境来安装转录组学分析的生物信息学软件 conda create -y -n rna python=3.7 这一步输入y或回车都可以 conda remove -n rna fastqc 不指定-n参数就得进入该环境之后才能进行删除操作,同样,-y能够跳过确认执行的步骤 Conda常用命令 补充 生信技能树学习笔记 前情提要:1.安装
生信论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 数据库做基因组学的分析(机制一); STRING互作和GO/KEGG分析探讨可能的信号通路(机制二); TISIDB/TIMER分析肿瘤免疫特征(机制三)。 在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。 严谨的生信论文还对分析结果做出ROC曲线,以提高数据的可信度和说服力。 ) http://www.oncolnc.org/ cBioPortal(组学分析神器也能做生存分析) https://www.cbioportal.org/ 差异分析数据库 oncomine数据库(差异分析首选
|a|b') 4.如何进行长脚本的管理 1.可以用if(F){}来进行长脚本的管理,带有{}的代码,可以被折叠 2.分成多个脚本,每个脚本最后保存Rdata,下一个脚本开头清空再加载,不推荐表格文件 生信技能树 ,生信马拉松
今日学习内容:测序原理第一、二、三代测序的优缺点了解组学的分类---图片---资料来源:测序的世界生信小白第6天-初涉测序生信小白第8天 名词结构化测序技术原理及常用数据格式简介DNA 测序技术的发展: 7日的学习旅程即将抵达结束的终点,这段时间的所学所获像是推了一把在生信门前徘徊的我,从对一切睁眼瞎变成对前方道路有了指示牌,更有动力继续学习和摸索下去。感谢生信星球的豆豆和花花~
---title: "生信技能树学习笔记"author: "天空"date: "2023-01-04"output: html_document---R语言综合应用1. ## [7] "6_两个<e6>\u0095<b0><e6>\u008d<ae><e6><a1>\u0086<e7>\u009a\u0084<e8><bf>\u009e<e6>\u008e<a5>.R " ## [8] "7_<e4><b8>\u0080<e4><ba>\u009b顶<e5>\u0091<b1><e5>\u0091<b1><e7>\u009a\u0084<e5>\u0087< \u0094\u009f信<e6>\u008a\u0080<e8>\u0083<bd><e6><a0>\u0091<e7><ac>\u0094记day7.html" ## [19] "<e7>\u0094 \u009f信<e6>\u008a\u0080<e8>\u0083<bd><e6><a0>\u0091<e7><ac>\u0094记day7.Rmd"dir(pattern = ".R$") #列出工作目录下以
图片1.基因组学(核酸序列分析)(1)全基因组测序(WGS)(2)全外显子组测序(WES)(3)简化基因组测序(RRGS) ①RAD-Seq ②GBS ③2bRAD ④ddGBS(也就是ddRAD)作用:(1)基因组作图(遗传图谱、物理图谱、转录本图谱)(2)核苷酸序列分析(3)基因定位(4)基因功能分析其它:以全基因组测序为目标的结构基因组学以基因功能鉴定为目标的功能基因组学 2.转录组学(基因表达分析)(1)mRNA-Seq(2)IncRNA-Seq(长链非编码RNA)(3)sRNA-Seq(主要是miRNA-Seq)作用:(1)获得物种或者组织的转录本信息(2)得到转录本上基因的相关信息 ,如基因结构功能等(3)发现新的基因(4)基因结构优化(5)发现可变剪切(6)发现基因融合(7)基因表达差异分析3.蛋白质组学(1)蛋白质组数据处理、蛋白及其修饰鉴定 (2)构建蛋白质数据库、相关软件的开发和应用 (3)蛋白质结构功能预测 (4)蛋白质连锁图4.代谢组学(1)代谢物指纹分析(2)代谢轮廓分析
引言:上一期(这里可到达上一期)我们利用得到的肝癌的数据,进行了预处理,得到了最终的表达矩阵TCGA_LIHC_final.csv,今天我们的主要任务就是进行差异表达分析。 此外,还会顺带讲两个进行富集分析和聚类分析的函数。 基因差异表达分析 01 # 首先读入表达矩阵文件 dataFilt_LIHC_final <- read.csv("TCGA_LIHC_final.csv", header = T,check.names <- log(mat1+1) # 定义正常组织样本分组 mat2 <- dataFilt_LIHC_final[,341-390] mat2 <- log(mat2+1) # 然后就可以进行差异表达分析啦 Genelist) # 富集分析的结果 ?