我想从string-db.org中提取一个大型网络,因为web界面不支持超过2000个蛋白质。我需要大约100.000到200.000个蛋白质。所以我使用R bioconductor package STRINGdb来探索数据库。由于我是R的新手,即使有了文档,我也不知道如何做到这一点,也不知道要使用的函数。我尝试过PS:我对癌症网络感兴趣,(蛋白质-蛋白质相互作用数据集)我已经尝试过了:
source("https://bioconductor.org/biocLite.R")
biocLite("STRINGdb")
library(STRINGdb)
string_db <- STRINGdb$new( version="10", species=9606, score_threshold=0.4, input_directory="" )
##Not sure if it is the right function to use##
string_proteins <- string_db$get_proteins() ## Returns 20475 obs. 4 variables我不知道该怎么做。
发布于 2017-05-24 17:25:52
好的,我读到你想要2-4k蛋白质参与癌症过程的网络,并可能以某种方式在R中可视化它。嗯,很容易获得信息,邻居和特定蛋白质的相互作用,这来自手册:
tp53 = string_db$mp( "tp53" )
atm = string_db$mp( "atm" )
string_db$get_neighbors( c(tp53, atm) )
string_db$get_interactions( c(tp53, atm) )因此,如果你列出了蛋白质,就很容易获得有关它们的信息。由于可视化,功能get_graph可能是有用的,它以c(tp53, atm)蛋白为载体。
给出更多你想做什么的信息,我们会弄清楚的:)
https://stackoverflow.com/questions/44153847
复制相似问题