我正在创建一个用于文本挖掘的R包,我想在包中添加一个函数,以便从KEGG获得路径列表。我能够从wikipathways获取这些路径,但无法从KEGG获取。请给我建议,如果没有像NBCI2R这样的包,我如何从KEGG获取路径,我想做我自己的功能,所以请帮助我。
谢谢
发布于 2013-05-17 10:00:36
在继续回答这个问题之前,强烈地鼓励您阅读http://www.kegg.jp/kegg/legal.html。KEGG只对学术用途免费,您需要一个适当的许可才能为这些服务提供API/库。因此,您很可能希望获得对ftp://ftp.genome.jp/的非匿名访问,而这种访问需要这样的许可。
然而,关于您的实际问题,您找到了一个平面文件的所有路径下的htext?htext=br08901.keg&format=htext。只需下载并解析:
lines <- readLines(
"http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext" )
pathways <- do.call(
rbind,
str_split( grep( "^[ABCD]\\s+\\d{5}\\s+.*?$", lines, value=TRUE ), "\\s{2,}" )
)
pathways <- as.data.frame( pathways )[-1]
colnames( pathways ) <- c( "ID", "Name" )
head(pathways)
ID Name
1 01100 Metabolic pathways
2 01110 Biosynthesis of secondary metabolites
3 01120 Microbial metabolism in diverse environments
4 00010 Glycolysis / Gluconeogenesis
5 00020 Citrate cycle (TCA cycle)
6 00030 Pentose phosphate pathway请注意,这也可能只是为了非商业目的。然而,版权并没有说明是否一个非浏览器软件可以访问该网站的非商业用途。所以最好不要在没有与他们联系的情况下进行广泛的尝试。
https://stackoverflow.com/questions/16602878
复制相似问题