KOBAS也可以用命令行方式来分析,可以在download页面进行下载tarball格式的安装包,在linux终端用命令行来操作,下面分别以网页方式和命令行方式来进行KEGG富集分析 1.网页方式进行KEGG 富集分析 如上图,我们在Gene-list Enrichment这里,我们这里选择的是Emsembl Gene ID,然后选择物种Homo sapiens,然后将gene list粘贴过去,下面只勾选KEGG Pathway,点击Run,这里会生成一个TaskID 一共生成了296条KEGG terms,这里生成的一个很大的表格,然后点击download,就能得到KEGG的富集分析,下个博客我在写怎么用命令行模式来进行 KEGG富集分析 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/128894.html原文链接:https://javaforall.cn
seq_pep文件夹下 gzip -d ko.pep.fasta.gz 将KOBAS软件的执行脚本添加到 ~/.bashrc echo 'export PATH=$PATH:/root/biosoft/kegg bashrc 安装KOBAS相应的模块到python中,注意:不是kobas-3.0/src/kobas目录 echo 'export PYTHONPATH=$PYTHONPATH:/root/biosoft/kegg /kobas-3.0/src' >> ~/.bashrc 修改kobasrc中的kobas_home和blast_home kobas_home = /root/biosoft/kegg/kobas- ko -t fasta:nuc -o diff_gene.ann -n 4 identify.py -f diff_gene.ann -b all_genomic_gene.ann -d K -o kegg.result.xls
kegg Genome 由organisms,selected viruses 和 Metagenomes 3个数据库构成。 /kegg-bin/show_organism? kegg官网提供的Genome 数据库的构成示意图如下: ? 总结 kegg genome 数据库存储物种信息,由organisms , viruses, metagenomes 三个数据库构成。 kegg有一套较为简单的物种分类体系,叫做kegg taxonomy, 和 ncbi taxonomy 还是有区别的。
KEGG pathway是最常用的功能注释数据库之一,可以利用KEGG 的API获取一个物种所有基因对应的pathway注释,human对应的API 链接如下 http://rest.kegg.jp/link 和GO富集分析类似,对于KEGG的富集分析也包含以下两种 1. 不同类型ID的转换也是通过KEGG API实现的,比如hsa的kegg gene id和ncbi-geneid的对应关系见以下链接 http://rest.kegg.jp/conv/ncbi-geneid 函数,调用KEGG API, 来实现ID 转换功能,示例如下 bitr_kegg( "1", fromType = "kegg", toType = 'ncbi-proteinid', organism /kegg-bin/show_pathway?
KEGG ENZYME 整合了ExplorEnz 数据库中酶的信息,处理基本的Ec number 和name 等属性外,还提供了对应的序列信息。 来看下每条记录的信息 ? 在1995 年,KEGG 数据库刚开始创建的时候,EC number 主要用来绘制代谢通路图;直到1999 年,提出了Orthology ID的概念,用来取代EC number, 绘制通路图;到2002
kegg orthology 数据库是 kegg 的核心,利用基因在不同物种之间的保守性,使得我们可以在更高层次上解读基因功能。 上面是kegg 官网提供的示意图,KO 建立在不同物种的gene具有同源性的基础上,而pathway 利用KO注释信息,提供了跨物种的通路信息,而network 数据库从pathway数据库延伸而来,在 variant,在原本的基因相互作用的基础上,包含了基因的变异信息; virus,在原本的基因相互作用的基础上,包含看病毒的入侵基因导致的相互作用的变化, 在下面的链接中,可以看到 http://www.kegg.jp /kegg-bin/show_network?
KEGG被称为京都基因组百科全书,是一个综合性的数据库。对于如此庞大的数据库,肯定需要对数据进行分门别类的整理。 除了将各种数据拆分到不同的子数据库中之外,KEGG还对所有的数据进行了更加细致的功能分类,这些功能分类的信息就存储在brite 数据库中。 htext 文件,比如kegg orthology 的分类 http://www.kegg.jp/kegg-bin/get_htext?ko00000.keg ? 软件是用java 开发的,提供了图形界面,简单易用; 下载地址 : http://www.kegg.jp/kegg/download/kegtools.html 使用方法 双加批处理文件启动 ? 从菜单栏点击File按钮,选择导入kegg网站上的数据 ? 这里选择第一个kegg pathway map 的分类结构,进行查看 ?
kegg drug 数据库是一个药物相关信息的综合数据库,包括了在日本,美国,欧洲上市的的药物。 药物的靶标对应的人类基因和这些靶标参与的通路 Metabolism 药物代谢相关的酶 Structure map pathway数据库的通路图 Brite 在brite 数据库中的分类信息 在结构相似性和功能相似性的基础上,建立了KEGG 第二种group还会包含下一级的group,这种其实是按照功能,分成了不同的层级,比如DG01918 同时包含了药物D10223和group DG01917; 除了KEGG DGROUP 数据库,brite 所以kegg 专门在pathway 数据库中,将各种药物化学结构的转变绘制了对应的通路图,叫做Structure map , 所有是Structure map组成了pathway 数据库中的一大类别,叫做 对于药物的分类,KEGG GROUP 数据库根据结构和功能的相似性对药物进行分类,brite数据库则提供了更加多的分类标准; 4.
kegg 数据库的API 链接如下: http://www.kegg.jp/kegg/rest/keggapi.html API 其实就是一种约定号的URL 规则,通过特定的URL 返回不同的数据。 kegg 的 API 的URL 构成如下: http://rest.kegg.jp/operation/argument[/argument2[/argument3 …]] 前缀都是 http://rest.kegg.jp ,url 格式如下: http://rest.kegg.jp/info/database database = kegg | pathway | brite | module | ko | genome enzyme | network | variant | disease | drug | dgroup | environ 示例 : 查看pathway 数据库的基本信息 http://rest.kegg.jp /info/pathway pathway KEGG Pathway Database path Release 85.0+/03-11, Mar 18 Kanehisa Laboratories 570,005
具有相同功能的基因被归类到kegg orthology 中,每个KO 代表具体的一个功能。 实际上,KEGG Module 数据库就是存储这种信息的数据库。 KEGG Module 数据库中的每条记录代表一个功能单元,是多个KO的集合,叫做kegg module, 通过大写字母M和数字进行标识; module 数据库包含以下4大类别的功能: pathway modules structural complexes functional sets signature modules 更加详细的分类信息可以在brite 数据库中找到,见以下链接 http://www.kegg.jp /kegg-bin/get_htext?
kegg compound 数据库存储了在生命活动中发挥作用的各种小分子,生物大分子和其他类型的化学物质,采用C number 进行标识,比如C00047, 代表L-赖氨酸。 除了名称等信息外,还存储了该物质的化学结构和其他相关信息; 对于所有compound 的分类详见 Brite 数据库 http://www.genome.jp/kegg-bin/get_htext?
KEGG Reaction 是收录酶促反应相关信息的数据库,包含了所有代谢通路中的酶促反应和一些只在enzyme 数据库中有记录的酶促反应,每条记录用R Number 唯一标识。 Pathway 包含该反应的通路 Module 对应的module 数据库的信息 Orthology 酶对应的KO信息 other DBs 第三方数据库 这里有一个Reaction Class 的概念,kegg kegg 官网给出了如下的示意图: ? 在理解上面这幅图之前,我们必须了解kegg atom type 这个概念。 kegg 对C, N, O, P, S 这5种原子根据相连的基团进行了分类,这个分类就是atom type; 完整的latom type 详见以下链接 http://www.genome.jp/kegg 总结 1.Reaction数据库记录了酶促反应的信息,每个反应用R Number 标识; 2.对于所有的酶促反应,kegg 通过RDM 模型对其进行了分类;
kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。 其中KO 注释是核心,kegg 提供了两种工具,用于基因的KO 注释 对于单个物种的基因组,使用BlastKOALA 工具; 对于环境微生物,使用GhostKOALA 工具进行注释; 截止到2018 年3月7号,所有基因的注释情况如下: http://www.kegg.jp/kegg/docs/genes_statistics.html ? 从注释信息的角度,提供了KO , pathway, Enzyme 共3种kegg 的注释。 我们来想详细看下human 基因的注释情况 ? 总结: kegg genes 数据库收录了基因的信息,包括了编码基因和非编码基因。 对于单基因组,采用BlastKOALA 进行KO 注释;对于宏基因组,采用GhostKOALA 进行注释。
的基础上,将所有的ko用蓝色高亮显示 ec 是在reference pathway 的基础上,将酶编号高亮显示 rn 是在reference pathway 的基础上,将reaction 高亮显示 在kegg 这部分绿色高亮像是的其实就是在该物种的基因对应的ko; 其实在每条记录的页面有下拉菜单,可以方面的查看同一张通路在map , ko, ec, rn , org 的不同版本 http://www.kegg.jp /kegg-bin/show_pathway? 会重构通路图,然后基于该互作网络进一步挖掘信息; 通路之间的相互关系,对应的有分析通路间的相互关系网络,从而筛选出核心的通路; pathway的分类信息在brite 数据库种的链接为 http://www.kegg.jp /kegg-bin/get_htext?
kegg disease 数据库收录了已经报告的各种疾病的信息,每个记录用H Number 唯一标识, 比如H00004。 在kegg 中,将疾病视作分子网络的一个不正常的状态。 /www.kegg.jp/kegg-bin/get_htext? br08402.keg 所有物种(包括human)的疾病信息的分类对应以下两个文件: 第一个文件为kegg 自己定义的分类标准, 主要依据物种分类信息 http://www.kegg.jp/kegg-bin br08401_genome.keg 第二个文件为国际上对疾病的分类标准 ICD-10 分类系统 http://www.kegg.jp/kegg-bin/get_htext? http://www.kegg.jp/kegg-bin/show_pathway?hsadd04620 ?
我们直奔主题,今天给大家介绍下利用R语言去下载KEGG数据库的所有数据。这里需要用到的包是KEGGREST。 github.com/cran/RbioRXN.git") 接下来我们直接通过实例来看下如何获取所有的数据: ##包加载 library(KEGGREST) library(RbioRXN) ##查看KEGG 在这里我们发现同样的通路编码ID却不一样,map+num泛指KEGG中的所有通路;has+num指的是人类物种的通路信息。 ##获取所有的代谢反应和化合物数据 keggAll = get.kegg.all() save(keggAll,file="C:/data/metabolism/database/KEGG/keggAll.Rdata write.csv(reaction," reaction.csv") compound=keggAll$compound write.csv(compound," compound.csv") 至此我们就可以将KEGG
kegg 将复合糖相关的基因,代谢途径, 疾病等信息关联在一起,通过pathway的形式进行展示。 对于复合糖在癌症中的作用,专门有1个pathway 来记录这些信息 http://www.kegg.jp/kegg-bin/show_pathway? 对于所有收录的糖基转移酶的分类,对应 brite 数据库中的链接如下 http://www.kegg.jp/kegg-bin/get_htext?
我们经常会使用KEGG数据库来研究基因的功能,而在KEGG 数据库中,直接存储分子功能的就是KEGG Orthology 数据库。 KEGG Orthology 简称KO,该数据库中的每一条记录用K number 唯一标识。基于同源基因具有相似功能的假设,把基因的功能进行了扩充。 pathway,module 等数据库都是建立在KO数据库的基础上的,KO可以说是KEGG中处于核心地位的一个数据库,所以理解KO数据库就特别的重要。 以K00161为例,对应的同源基因的列表可以从KEGG的官网查询得到, 打开这个链接 http://www.genome.jp/kegg/ko.html , 在查询的文本框中输入K number, 如下图所示 KEGG官网提供了一个在线的工具,BlastKOALA。
前 · 言 第二单元最后一讲:差异分析及KEGG注释简介 原来的bulk-RNA差异分析一般需要比较处理组(例如有三个样本)和处理组(例如也有三个样本),这里对于单细胞来讲,每个细胞就是一个样本,于是有
最近,有粉丝运行了我以前的数据挖掘成套代码里面的 run_kegg 函数,如下所示: library(clusterProfiler) run_kegg(gene_up,gene_down,pro= 'comp1') 出现了如下所示的报错: Reading KEGG annotation online: fail to download KEGG data... /kegg/catalog/org_list.html'... (species) 然后就找我,以为是我们的标准代码有问题,实际上我的 run_kegg 函数仅仅是包装了 Y叔的 clusterProfiler包而已 ,实际上里面没有啥玄机,如下所示: ## KEGG 出图如下所示: KEGG数据库没有倒闭, Y叔的 clusterProfiler包也问题不大,我的一个 run_kegg 函数更不可能有问题。