本篇内容引自生信技能树 DAY7-9 课前提问: 1、为什么要做数据挖掘? 即用别人的数据用在自己的文章里面,多半是从别人的数据里筛选自己想要的基因。 ,按列取子集 #⭐要操作的地方 library(tinyarray) get_gpl_txt(gpl_number) #获取表格文件的下载链接 # 接下来是复制网址去浏览器下载、放在工作目录下、读取、提取探针 id和基因symbol(没有现成的需要拆分和转换),不同文件代码不统一,等看同学们的例子。 # 方法3 官网下载注释文件并读取 # 方法4 自主注释,了解一下 #https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA save(exp,Group,ids step2output.Rdata") #比较复杂的探针注释参考资料 #资料1:拆分取列https://www.yuque.com/xiaojiewanglezenmofenshen/kzgwzl/sv262capcgg9o8s5
生信技能树学习笔记 Linux里的文件 1.文件的传输 2.文件的表示 文件夹管理或路径有关的符号: . 当前目录 .. /*txt ## 列出当前目录下以 txt 结尾的文件 ls ../ ## 列出上层目录的文件 ls -a ## 列出当前目录下的所有文件,包括隐藏文件 ls -l ## 列出当前目录下文件的详细信息 常见参数:-c ## 创建一个新的tar归档文件(创建压缩文件) -x ## 从已有tar归档文件中提取文件(解压缩) -f ## 输出结果到文件或设备 -v ## 在处理文件时显示文件(显示处理进度) -j ## 将输出重定向给bzip2命令 -z ## 将输出重定向给gzip命令 常见用法: 解压:tar [参数] [待解压包] 压缩:tar [参数] <压缩后文件名> [待压缩文件/目录] 打包是指将一大堆文件或目录变成一个总的文件 压缩是将一个大的文件通过一些压缩算法变成一个小文件。
生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python Reference 一些练习题 给定FASTA 格式的文件(test1.fa 和 test2.fa),写一个程序 cat.py 读入文件,并输出到屏幕 (2分) open(file) for .. in loop print() strip() function 用到的知识点 给定FASTQ格式的文件(test1.fq), 写一个程序 cat.py 读入文件,并输出到屏幕 (2分) 同上 用到的知识点 写程序 splitName.py, 读入test2.fa, (4分) 逻辑与操作符 and 文件中读取的内容都为字符串,需要用int转换为整数,float转换为浮点数 用到的知识点 写程序 transferMultipleColumToMatrix.py 将文件 (5分) 输入文件格式(mir.collapse, tab-分割的两列文件,第一列为序列,第二列为序列被测到的次数) ID_REF VALUE ACTGCCCTAAGTGCTCCTTCTGGC
使用 3.1 下载SRA 3.2 抽取fastq文件 1. 介绍 Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合 一般常用于下载SRA文件,从SRA文件中提取fastq,sam 文件,查看SRA文件信息等 2. 这里提供两种方法,选择一种安装即可,强烈建议使用Conda方式安装 2.1 Conda 安装 conda install -y sra-tools 这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件 prefetch SRR390728 下载多个文件 prefetch cart_0.krt 3.2 抽取fastq文件 fastq-dump --split-3 SRR893046 -O fastq *
文件读写1. 用project管理工作目录报错:文件不在工作目录下 no such file or directory/拼写错误(tab补齐或复制)显示文件后缀2.文件读取# read.系列函数# read.table () 读取txt格式# read.delim() 读取txt格式,比table少报错# read.csv() 读取csv格式R语言不能直接处理文件,要先转换为R语言对象行名列名是数据框的属性,可以设置, 数据框导出write.csv(ex2,file = "example.csv")write.table(ex2,file = "example.txt") # 写文件名的时候把后缀带上4. 引用自生信技能树
介绍 SAM(sequence Alignment/mapping) 数据格式是目前高通量测序中存放比对数据的标准格式 转换 BAM 与 SAM 格式 比对文件排序,建立fastq索引 安装 conda install -y samtools 这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解 使用 1、常用的三个步骤 转换 SAM 格式为 BAM 格式 samtools view -S SRR00000.sam -b > SRR00000.bam 对比对后文件进行排序 samtools sort SRR00000. bam -o SRR00000_sorted.bam 对排序后文件建立索引 samtools index SRR00000_sorted.bam 通常以上的三个步骤是依次进行 2、格式转换 sam
R 语言与 C 语言都是贝尔实验室的研究成果,但两者有不同的侧重领域,R 语言是一种解释型的面向数学理论研究工作者的语言,而 C 语言是为计算机软件工程师设计的。
clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~生信技能树
生信学习第6天之函数学习和操作1.R包是多个函数的集合,使用之前要加载合适的镜像,提高下载的速度。 1列或某几列对整个表格进行排序5.summarise():汇总6.管道操作 %>% (cmd/ctr + shift + M)7.count统计某列的unique值8.內连inner_join,取交集9.
x <- c(1,3,5,1) 规范的赋值符号: Alt+减号(上下两种等效)
图片 数据框的来源: 可由代码新建、已有数据转换或处理、读取表格文件、R语言内置数据 内置数据多用于新手练习,eg:iris、volcano、letters、LETTERS 新建数据框: 图片 ##A. all.x = all, all.y = all,“不放弃每一个人”,不舍弃无法合并的内容 图片 矩阵 取子集:不支持$ 图片 新建矩阵: m = matrix(1:9, nrow = 3) colnames 加行名 矩阵的转置和转换: 转置:t(m) 行变列,列变行 转换:as.data.frame(m) 转换为数据框 列表 列表新建和取子集 新建 q = list(m1 = matrix(1:9, nrow = 3), m2 = matrix(2:9, nrow = 2)) 取子集 如果有m1、m2这些元素名字,可以用$取子集; 如果没有m1、m2这些元素名字,用双括号取子集。
fastqc,linux中可以直接用wget安装`unzip fastqc_v0.11.7.zip`-->`cd FastQC`-- >`chmod755 fastqc`chmod 用3个数字来表达对 用户(文件或目录的所有者 chmod 755 fastqc 数字7是表达同时具有读,写,执行权限:(7 = 4 + 2+ 1) 读取--用数字4表示; 写入--用数字2表示; 执行--用数字1表示; 三者皆否:0将FastQC文件夹导入环境变量
3~4个月第二章讲述一部国自然申请书的诞生记Chris生命科学小站网易云课堂第一学期,配合Chris生信初级教程与Chris课题与文章辅导完成直播课程。 第二学期,看看大家的投票来决定讲什么吧~ 来说说优惠 1、已经加入Chris生信初级教程和Chris课题与文章辅导的成员,参加直播的我会在直播前统计发放课程Chris生命科学小站网易云课堂优惠券。 2、已经加入Chris生信初级教程,想加入Chris课题与文章辅导的成员补差价就可以而Chris课题与文章辅导的成员赠送Chris生信初级教程3、经已加入的成员邀请加入Chris生信初级教程/Chris 重要的是,站长决定为了庆祝Chris生命科学小站成功入驻网易云课堂,发放优惠券了面值59元,也就是说你只需要花99元即可购买价值158元的Chris生信初级教程还等什么,赶紧领券加入学习吧! 教程主讲人介绍 就是站长本人啦Chris Lou,医学专业硕士不知名的大学毕业,现就职一家医院,苦逼规培中····硕士阶段有幸得到了比较完整的魔鬼式的科研训练发表SCI论文9篇,以第一作者发表SCI论文三篇
新起点 国自然终于都交完了~开始更新生信干货教程~~~ 在这之前先看下面的教程 总结 从零到壹:10元转录组分析小结~干货~ 然后,重点看批量处理数据的技巧~从零到壹:10元转录组分析 从零到壹:10 Mapping神器STAR的安装及用 从零到壹:从SRA下载到分析~纯干货 10元转录组分析:这次真的是干货了~灰常干 得到ReadsPerGene数据后 得到每个基因的Counts数之后,你需要将这些不同文件中的提取出来 ,以制备DEseq2所需要的原始文件,组数少的情况下很好吧,看好第几列、第几行,用R语言按照下面的命令就可以x<-Counts[-(1:4),2] #去掉的1到4行,选取第2列然后用cbind把所有 但是数量巨大怎么办 比如以下这样的300+样本 "少废话,来干货~" 将R语言工作环境设置为这些文件所在文件夹 注意这些文件夹中不能有其他文件 如果你的样本是链特异性(Reverse)测序 “啥是链特异性 data.out[-(1:4),-2] #这个是对data.out修整 write.csv(data.out1, file = 'F:/out.csv') data.out1 就是DEseq2包中需要用的文件
====================================== 这篇博客的目的主要是计算当需要计算多个不同组之间的成对比较,并计算P值。
2.粗略了解R语言是什么,干什么的,认识Rstudio的工作界面四个象限分别代表:编辑器对象/变量+历史命令脚本运行与结果显示文件/图片/包3.学会外观设置和基本操作从最简单的函数开始plot(rnorm 但是还是搜了一圈才搞清楚它的意思:boxplot即箱线图,iris是机器学习中很经典的数据集,sepal.length花萼长度,species是分类结果,col=c()即颜色,最终得到一个经典的箱线图:基本操作:管理工作目录如果同时要处理几个项目 ,推荐先建立一个新文件夹,如若下次想打开此项目,先进此文件夹,点击相应的文件.rproj文件,防止出错。 显示文件列表dir()list.files()和linux中的ls一个意思。加减乘除常规+-*/。
生信学习第四天之R语言生信学习第四天之R语言1R语言学习和了解1.1 之前就安装过R和Rstudio,浅学习过《r语言实战》,及基本的语言。后续可以再计划学习R for Data Science。
本文章作为 Galaxy 生信平台的第四篇,继续来带大家学习了解一下这个开源平台,希望大家有所收获。 今天来了一下如何把自定义的 QQ 域名邮箱应用到 Galaxy 生信分析平台中。 1. 配置 Galaxy 邮件服务 有了上一步 python 发送邮件的经验,接下来我们只需要修改一下 Galaxy 的主配置文件 config/galaxy.yml 即可: galaxy: smtp_server 管理员与强制登录 如果你只想把你个人部署的 Galaxy 提供给特定的人使用,例如同一个实验室的其他小伙伴,你可以把 Galaxy 的注册功能关闭,并设置只能通过管理员创建新账号。 如果想要更改 Galaxy 默认的邮件内容(例如把英文改成中文,或者增删邮件发送内容),可以仔细去研究一下它的源码,也欢迎留言或者添加作者微信交流。
安装和加载R包1.镜像设置生信星球公众号:你还在每次配置Rstudio的下载镜像吗?
::opts_chunk$set(echo = TRUE,message=F,warning=F) R Markdown head(iris) plot(iris$Sepal.Length) 引用自生信技能树