生信技能树学习笔记 Linux里的文件 1.文件的传输 2.文件的表示 文件夹管理或路径有关的符号: . 当前目录 .. /*txt ## 列出当前目录下以 txt 结尾的文件 ls ../ ## 列出上层目录的文件 ls -a ## 列出当前目录下的所有文件,包括隐藏文件 ls -l ## 列出当前目录下文件的详细信息 常见参数:-c ## 创建一个新的tar归档文件(创建压缩文件) -x ## 从已有tar归档文件中提取文件(解压缩) -f ## 输出结果到文件或设备 -v ## 在处理文件时显示文件(显示处理进度) -j ## 将输出重定向给bzip2命令 -z ## 将输出重定向给gzip命令 常见用法: 解压:tar [参数] [待解压包] 压缩:tar [参数] <压缩后文件名> [待压缩文件/目录] 打包是指将一大堆文件或目录变成一个总的文件 压缩是将一个大的文件通过一些压缩算法变成一个小文件。
使用 3.1 下载SRA 3.2 抽取fastq文件 1. 介绍 Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合 一般常用于下载SRA文件,从SRA文件中提取fastq,sam 文件,查看SRA文件信息等 2. 这里提供两种方法,选择一种安装即可,强烈建议使用Conda方式安装 2.1 Conda 安装 conda install -y sra-tools 这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件 prefetch SRR390728 下载多个文件 prefetch cart_0.krt 3.2 抽取fastq文件 fastq-dump --split-3 SRR893046 -O fastq *
11 使用R语言获取人类所有基因的名字,ID,symbol以及别名倒是没想到18年的时候还要纠结基因名转换的问题不过这个内容现在已经被生信马拉松最新分享的代码替代了12 R语言读书笔记以及为什么发读书笔记 完成你的第一个R包(建议你先阅读与构建R包相关的资料,比如《R packages》这本书),并使用Git进行版本管理,同时上传至GitHub仓库(可能需要一些时间同时学习它)。 ,值得做18 使用methods函数来查看R语言里面的对象的操作方式介绍了一个methods函数,不过好像现在没有什么实际用处19 生信人应该这样学R语言系列视频学习心得笔记分享12年底分析的R语言生信马拉松笔记 ,对所有内容提了一个详细的大纲最后还有一些基因在TCGA数据库表达情况和生存分析的代码分享20 生信工程师全套教学视频之R语言专辑纪念版习题链接初级http://www.bio-info-trainee.com http://www.bio-info-trainee.com/3750.html高级http://www.bio-info-trainee.com/3415.html非常入门的题目,高级版也是入门版生信技能树
开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 一些练习题 给定 FASTA格式的文件(test1.fa 和 test2.fa),写一个程序 cat.py 读入文件,并输出到屏幕 (2分) open(file) for .. in loop print() strip () function 用到的知识点 给定FASTQ格式的文件(test1.fq), 写一个程序 cat.py 读入文件,并输出到屏幕 (2分) 同上 用到的知识点 写程序 splitName.py, (4分) 逻辑与操作符 and 文件中读取的内容都为字符串,需要用int转换为整数,float转换为浮点数 用到的知识点 写程序 transferMultipleColumToMatrix.py 将文件 (5分) 输入文件格式(mir.collapse, tab-分割的两列文件,第一列为序列,第二列为序列被测到的次数) ID_REF VALUE ACTGCCCTAAGTGCTCCTTCTGGC
根目录是所有用户的都可以操作的,家目录用户才有权限操作(管理员可以分配权限)5. command [-options [parameter]] [file] 命令+参数+文件文件夹与文件管理命令1、pwd 命令打印工作目录2、cd 命令切换工作目录cd .. ## 切换到上层目录 sub1/sub2ls dir0ls dir0/sub1/mkdir -p test{1..3}/test{1..3}tree # 需要管理员安装才能用Tips:ctrl+c停止刷屏运行的代码5、touch 重命名一个文件为已有文件名称时,会覆盖原有文件并且不报错。 引用自生信技能树
文件读写1. 用project管理工作目录报错:文件不在工作目录下 no such file or directory/拼写错误(tab补齐或复制)显示文件后缀2.文件读取# read.系列函数# read.table () 读取txt格式# read.delim() 读取txt格式,比table少报错# read.csv() 读取csv格式R语言不能直接处理文件,要先转换为R语言对象行名列名是数据框的属性,可以设置, 数据框导出write.csv(ex2,file = "example.csv")write.table(ex2,file = "example.txt") # 写文件名的时候把后缀带上4. 引用自生信技能树
介绍 SAM(sequence Alignment/mapping) 数据格式是目前高通量测序中存放比对数据的标准格式 转换 BAM 与 SAM 格式 比对文件排序,建立fastq索引 安装 conda install -y samtools 这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解 使用 1、常用的三个步骤 转换 SAM 格式为 BAM 格式 samtools view -S SRR00000.sam -b > SRR00000.bam 对比对后文件进行排序 samtools sort SRR00000. bam -o SRR00000_sorted.bam 对排序后文件建立索引 samtools index SRR00000_sorted.bam 通常以上的三个步骤是依次进行 2、格式转换 sam
R 语言与 C 语言都是贝尔实验室的研究成果,但两者有不同的侧重领域,R 语言是一种解释型的面向数学理论研究工作者的语言,而 C 语言是为计算机软件工程师设计的。
生信学习第6天之函数学习和操作1.R包是多个函数的集合,使用之前要加载合适的镜像,提高下载的速度。 ):汇总6.管道操作 %>% (cmd/ctr + shift + M)7.count统计某列的unique值8.內连inner_join,取交集9.左连left_join10.全连full_join11
x <- c(1,3,5,1) 规范的赋值符号: Alt+减号(上下两种等效)
图片 数据框的来源: 可由代码新建、已有数据转换或处理、读取表格文件、R语言内置数据 内置数据多用于新手练习,eg:iris、volcano、letters、LETTERS 新建数据框: 图片 ##A.
.填表法:填写IP地址、用户名和密码Connection closed by foreign host.可能是瞬时网络异常,重新登录即可退出登录:exitLinux中空格是定性不是定量的,打几个没关系文件管理或路径有关的符号 touch file1实战中不太用mv:move,移动或命名mv 待移动的文件 移动到哪个目录mv 待重命名的文件 重命名后的文件名如果mv file2 file3 而file3这个文件已存在,那么会用 gzip和gunzip *gz文件bzip2和bunzip2 *bz2文件tar实际上是打包命令,把一堆文件或目录变成一个总的文件压缩是把大的文件通过一些压缩算法变成一个小文件(gzip或bzip2或 +L 清屏Ctrl+A 行首 Ctrl+E 行尾Ctrl+w 以空格为关键词 一个一个删除TIPS:参数不用死记硬背,用多了就记得,记不得就--help或者chatgpt双击选择一个单次,三击选中一行生信技能树 ,生信马拉松,卖萌哥
fastqc,linux中可以直接用wget安装`unzip fastqc_v0.11.7.zip`-->`cd FastQC`-- >`chmod755 fastqc`chmod 用3个数字来表达对 用户(文件或目录的所有者 chmod 755 fastqc 数字7是表达同时具有读,写,执行权限:(7 = 4 + 2+ 1) 读取--用数字4表示; 写入--用数字2表示; 执行--用数字1表示; 三者皆否:0将FastQC文件夹导入环境变量
经过一周的不懈努力终于入驻网易云课堂讲师行列为了不让大家对一口东北话的直播产生误会,站长执意加入网易云课堂所以现在Chris生命科学小站有了以下几个平台Chris生命科学小站公众号,Chris生命科学星球Chris生命科学小站QQ群Chris生信初级教程 3~4个月第二章讲述一部国自然申请书的诞生记Chris生命科学小站网易云课堂第一学期,配合Chris生信初级教程与Chris课题与文章辅导完成直播课程。 第二学期,看看大家的投票来决定讲什么吧~ 来说说优惠 1、已经加入Chris生信初级教程和Chris课题与文章辅导的成员,参加直播的我会在直播前统计发放课程Chris生命科学小站网易云课堂优惠券。 2、已经加入Chris生信初级教程,想加入Chris课题与文章辅导的成员补差价就可以而Chris课题与文章辅导的成员赠送Chris生信初级教程3、经已加入的成员邀请加入Chris生信初级教程/Chris 重要的是,站长决定为了庆祝Chris生命科学小站成功入驻网易云课堂,发放优惠券了面值59元,也就是说你只需要花99元即可购买价值158元的Chris生信初级教程还等什么,赶紧领券加入学习吧!
新起点 国自然终于都交完了~开始更新生信干货教程~~~ 在这之前先看下面的教程 总结 从零到壹:10元转录组分析小结~干货~ 然后,重点看批量处理数据的技巧~从零到壹:10元转录组分析 从零到壹:10 Mapping神器STAR的安装及用 从零到壹:从SRA下载到分析~纯干货 10元转录组分析:这次真的是干货了~灰常干 得到ReadsPerGene数据后 得到每个基因的Counts数之后,你需要将这些不同文件中的提取出来 ,以制备DEseq2所需要的原始文件,组数少的情况下很好吧,看好第几列、第几行,用R语言按照下面的命令就可以x<-Counts[-(1:4),2] #去掉的1到4行,选取第2列然后用cbind把所有 但是数量巨大怎么办 比如以下这样的300+样本 "少废话,来干货~" 将R语言工作环境设置为这些文件所在文件夹 注意这些文件夹中不能有其他文件 如果你的样本是链特异性(Reverse)测序 “啥是链特异性 data.out[-(1:4),-2] #这个是对data.out修整 write.csv(data.out1, file = 'F:/out.csv') data.out1 就是DEseq2包中需要用的文件
2.粗略了解R语言是什么,干什么的,认识Rstudio的工作界面四个象限分别代表:编辑器对象/变量+历史命令脚本运行与结果显示文件/图片/包3.学会外观设置和基本操作从最简单的函数开始plot(rnorm 但是还是搜了一圈才搞清楚它的意思:boxplot即箱线图,iris是机器学习中很经典的数据集,sepal.length花萼长度,species是分类结果,col=c()即颜色,最终得到一个经典的箱线图:基本操作:管理工作目录如果同时要处理几个项目 ,推荐先建立一个新文件夹,如若下次想打开此项目,先进此文件夹,点击相应的文件.rproj文件,防止出错。 显示文件列表dir()list.files()和linux中的ls一个意思。加减乘除常规+-*/。
生信学习第四天之R语言生信学习第四天之R语言1R语言学习和了解1.1 之前就安装过R和Rstudio,浅学习过《r语言实战》,及基本的语言。后续可以再计划学习R for Data Science。
本文章作为 Galaxy 生信平台的第四篇,继续来带大家学习了解一下这个开源平台,希望大家有所收获。 今天来了一下如何把自定义的 QQ 域名邮箱应用到 Galaxy 生信分析平台中。 1. 配置 Galaxy 邮件服务 有了上一步 python 发送邮件的经验,接下来我们只需要修改一下 Galaxy 的主配置文件 config/galaxy.yml 即可: galaxy: smtp_server 管理员与强制登录 如果你只想把你个人部署的 Galaxy 提供给特定的人使用,例如同一个实验室的其他小伙伴,你可以把 Galaxy 的注册功能关闭,并设置只能通过管理员创建新账号。 如果想要更改 Galaxy 默认的邮件内容(例如把英文改成中文,或者增删邮件发送内容),可以仔细去研究一下它的源码,也欢迎留言或者添加作者微信交流。
安装和加载R包1.镜像设置生信星球公众号:你还在每次配置Rstudio的下载镜像吗?
::opts_chunk$set(echo = TRUE,message=F,warning=F) R Markdown head(iris) plot(iris$Sepal.Length) 引用自生信技能树