生信技能树学习笔记 Linux里的文件 1.文件的传输 2.文件的表示 文件夹管理或路径有关的符号: . 当前目录 .. /*txt ## 列出当前目录下以 txt 结尾的文件 ls ../ ## 列出上层目录的文件 ls -a ## 列出当前目录下的所有文件,包括隐藏文件 ls -l ## 列出当前目录下文件的详细信息 常见参数:-c ## 创建一个新的tar归档文件(创建压缩文件) -x ## 从已有tar归档文件中提取文件(解压缩) -f ## 输出结果到文件或设备 -v ## 在处理文件时显示文件(显示处理进度) -j ## 将输出重定向给bzip2命令 -z ## 将输出重定向给gzip命令 常见用法: 解压:tar [参数] [待解压包] 压缩:tar [参数] <压缩后文件名> [待压缩文件/目录] 打包是指将一大堆文件或目录变成一个总的文件 压缩是将一个大的文件通过一些压缩算法变成一个小文件。
使用 3.1 下载SRA 3.2 抽取fastq文件 1. 介绍 Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合 一般常用于下载SRA文件,从SRA文件中提取fastq,sam 文件,查看SRA文件信息等 2. 这里提供两种方法,选择一种安装即可,强烈建议使用Conda方式安装 2.1 Conda 安装 conda install -y sra-tools 这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件 prefetch SRR390728 下载多个文件 prefetch cart_0.krt 3.2 抽取fastq文件 fastq-dump --split-3 SRR893046 -O fastq *
一些练习题 给定FASTA格式的文件(test1.fa 和 test2.fa),写一个程序 cat.py 读入文件,并输出到屏幕 (2分) open(file) for .. in loop print () strip() function 用到的知识点 给定FASTQ格式的文件(test1.fq), 写一个程序 cat.py 读入文件,并输出到屏幕 (2分) 同上 用到的知识点 写程序 splitName.py (4分) 逻辑与操作符 and 文件中读取的内容都为字符串,需要用int转换为整数,float转换为浮点数 用到的知识点 写程序 transferMultipleColumToMatrix.py 将文件 (5分) 输入文件格式(mir.collapse, tab-分割的两列文件,第一列为序列,第二列为序列被测到的次数) ID_REF VALUE ACTGCCCTAAGTGCTCCTTCTGGC (10分) find 用到的知识点 输出格式 (输出格式为bed格式,第一列为匹配到的染色体,第二列和第三列为匹配到染色体序列的起始终止位置(位置标记以0为起始,代表第一个位置;终止位置不包含在内,第一个例子中所示序列的位置是
《如何系统入门R语言》这一篇微信文章是2017年2月写的了,距离现在7年,语言生动有趣跟现在的风格还有点不一样,那时候曾老师竟然一个个回点评还用颜文字嘞,而且17年就自称老一辈的生信工程师(难道现在是木乃伊辈的生信工程师 1]),]#得到按照dat的第一列进行排序的数据框dat[order(dat[,1],dat[,2]),] #得到先按照dat的第一列,再按照dat的第二轮进行排序的数据框求集合的交、并、补A<-1:10B <-seq(5,15,2)C<-1:5#求A和B的并集union(A,B)#[1] 1 2 3 4 5 6 7 8 9 10 11 13 15#求A和B的交集intersect(A,B 4.R语言入门学习路径+资源集(生信篇)资源博,适合纯新手入门5.R语言的最好资源,一个就够! 【好书分享】《R语言实战(第2版)》就是《R语言实战》10.生信技巧第3课-请你务必学好R语言这里的视频似乎看不了了,主要的内容和生信马拉松的课程基本相同生信技能树
文件读写1. 用project管理工作目录报错:文件不在工作目录下 no such file or directory/拼写错误(tab补齐或复制)显示文件后缀2.文件读取# read.系列函数# read.table () 读取txt格式# read.delim() 读取txt格式,比table少报错# read.csv() 读取csv格式R语言不能直接处理文件,要先转换为R语言对象行名列名是数据框的属性,可以设置, 数据框导出write.csv(ex2,file = "example.csv")write.table(ex2,file = "example.txt") # 写文件名的时候把后缀带上4. 引用自生信技能树
介绍 SAM(sequence Alignment/mapping) 数据格式是目前高通量测序中存放比对数据的标准格式 转换 BAM 与 SAM 格式 比对文件排序,建立fastq索引 安装 conda install -y samtools 这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解 使用 1、常用的三个步骤 转换 SAM 格式为 BAM 格式 samtools view -S SRR00000.sam -b > SRR00000.bam 对比对后文件进行排序 samtools sort SRR00000. bam -o SRR00000_sorted.bam 对排序后文件建立索引 samtools index SRR00000_sorted.bam 通常以上的三个步骤是依次进行 2、格式转换 sam
R 语言与 C 语言都是贝尔实验室的研究成果,但两者有不同的侧重领域,R 语言是一种解释型的面向数学理论研究工作者的语言,而 C 语言是为计算机软件工程师设计的。
生信学习第6天之函数学习和操作1.R包是多个函数的集合,使用之前要加载合适的镜像,提高下载的速度。 列或某几列对整个表格进行排序5.summarise():汇总6.管道操作 %>% (cmd/ctr + shift + M)7.count统计某列的unique值8.內连inner_join,取交集9.左连left_join10
x <- c(1,3,5,1) 规范的赋值符号: Alt+减号(上下两种等效)
图片 数据框的来源: 可由代码新建、已有数据转换或处理、读取表格文件、R语言内置数据 内置数据多用于新手练习,eg:iris、volcano、letters、LETTERS 新建数据框: 图片 ##A.
fastqc,linux中可以直接用wget安装`unzip fastqc_v0.11.7.zip`-->`cd FastQC`-- >`chmod755 fastqc`chmod 用3个数字来表达对 用户(文件或目录的所有者 chmod 755 fastqc 数字7是表达同时具有读,写,执行权限:(7 = 4 + 2+ 1) 读取--用数字4表示; 写入--用数字2表示; 执行--用数字1表示; 三者皆否:0将FastQC文件夹导入环境变量
-o cut_xxx.fq.gz xxx.fa.gz上面的10是从5‘端数需要去掉碱基的个数,如果从3’端去掉要加负号去掉之后在 用fastqc跑一下看看是不是之前的✘✘✘✘✘少了呢有关这个软件的解读推荐 3~4个月第二章讲述一部国自然申请书的诞生记Chris生命科学小站网易云课堂第一学期,配合Chris生信初级教程与Chris课题与文章辅导完成直播课程。 第二学期,看看大家的投票来决定讲什么吧~ 来说说优惠 1、已经加入Chris生信初级教程和Chris课题与文章辅导的成员,参加直播的我会在直播前统计发放课程Chris生命科学小站网易云课堂优惠券。 2、已经加入Chris生信初级教程,想加入Chris课题与文章辅导的成员补差价就可以而Chris课题与文章辅导的成员赠送Chris生信初级教程3、经已加入的成员邀请加入Chris生信初级教程/Chris 重要的是,站长决定为了庆祝Chris生命科学小站成功入驻网易云课堂,发放优惠券了面值59元,也就是说你只需要花99元即可购买价值158元的Chris生信初级教程还等什么,赶紧领券加入学习吧!
新起点 国自然终于都交完了~开始更新生信干货教程~~~ 在这之前先看下面的教程 总结 从零到壹:10元转录组分析小结~干货~ 然后,重点看批量处理数据的技巧~从零到壹:10元转录组分析 从零到壹:10 元转录组分析~硬盘不够用咋办 从零到壹:10元~Mapping神器STAR的安装及用 从零到壹:从SRA下载到分析~纯干货 10元转录组分析:这次真的是干货了~灰常干 得到ReadsPerGene 数据后 得到每个基因的Counts数之后,你需要将这些不同文件中的提取出来,以制备DEseq2所需要的原始文件,组数少的情况下很好吧,看好第几列、第几行,用R语言按照下面的命令就可以x<-Counts[ 但是数量巨大怎么办 比如以下这样的300+样本 "少废话,来干货~" 将R语言工作环境设置为这些文件所在文件夹 注意这些文件夹中不能有其他文件 如果你的样本是链特异性(Reverse)测序 “啥是链特异性 dplyr) fall <- dir() data.out<-df.use[1:4,] for (fnow in fall) { str <- str_sub(fnow, start = 4, end = 10
2.粗略了解R语言是什么,干什么的,认识Rstudio的工作界面四个象限分别代表:编辑器对象/变量+历史命令脚本运行与结果显示文件/图片/包3.学会外观设置和基本操作从最简单的函数开始plot(rnorm 但是还是搜了一圈才搞清楚它的意思:boxplot即箱线图,iris是机器学习中很经典的数据集,sepal.length花萼长度,species是分类结果,col=c()即颜色,最终得到一个经典的箱线图:基本操作:管理工作目录如果同时要处理几个项目 ,推荐先建立一个新文件夹,如若下次想打开此项目,先进此文件夹,点击相应的文件.rproj文件,防止出错。 显示文件列表dir()list.files()和linux中的ls一个意思。加减乘除常规+-*/。
生信学习第四天之R语言生信学习第四天之R语言1R语言学习和了解1.1 之前就安装过R和Rstudio,浅学习过《r语言实战》,及基本的语言。后续可以再计划学习R for Data Science。
本文章作为 Galaxy 生信平台的第四篇,继续来带大家学习了解一下这个开源平台,希望大家有所收获。 今天来了一下如何把自定义的 QQ 域名邮箱应用到 Galaxy 生信分析平台中。 1. 配置 Galaxy 邮件服务 有了上一步 python 发送邮件的经验,接下来我们只需要修改一下 Galaxy 的主配置文件 config/galaxy.yml 即可: galaxy: smtp_server 管理员与强制登录 如果你只想把你个人部署的 Galaxy 提供给特定的人使用,例如同一个实验室的其他小伙伴,你可以把 Galaxy 的注册功能关闭,并设置只能通过管理员创建新账号。 如果想要更改 Galaxy 默认的邮件内容(例如把英文改成中文,或者增删邮件发送内容),可以仔细去研究一下它的源码,也欢迎留言或者添加作者微信交流。
安装和加载R包1.镜像设置生信星球公众号:你还在每次配置Rstudio的下载镜像吗?
::opts_chunk$set(echo = TRUE,message=F,warning=F) R Markdown head(iris) plot(iris$Sepal.Length) 引用自生信技能树
权限控制多用户的权限控制命令行模式linux的操作靠命令行来实现目录结构文件系统呈树状,宿主目录放在home目录下2.为什么学生信要用linux? 生物软件基于linux,系统开源、免费,不需要图形界面,有效节约资源.3.怎样召唤linux--阿里云服务器1 单纯linux2 Windows10上的linux3 Windows7 上的linux4 pwd: print working directory,也就是显示当前路径mkdir :make directory-- 创建你的空目录ls 显示列表,不管是目录还是文件,都能显示1 删除文件--rm2 删除空目录--rmdir3 删除非空目录--rm -rcd接一个目录名,表示进入该目录vi 新建脚本或者文本文档cat接文本文件的名字,查看并直接将文本文件的内容输出到屏幕head/tail 输出内容例如 cannot open 'txt' for reading: No such file or directorybio09@ecm-cefa:~/lidahuang$ tail -n 3 test.txt10bio09
优点 • 专为单细胞 RNA-seq 优化:高效处理如 10x Genomics 等平台的数据。 • 快速高效:继承了 RNA-STAR 的比对速度。 缺点 • 资源消耗大:需要较高计算资源支持。