首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >以编程方式获取blastn数据库

以编程方式获取blastn数据库
EN

Stack Overflow用户
提问于 2010-09-15 02:16:21
回答 4查看 254关注 0票数 0

Nucleotide BLAST search page

有没有办法以编程方式获得“选择搜索集”框中列出的数据库?也许是XML格式的?(使用哪种编程语言并不重要)

EN

回答 4

Stack Overflow用户

发布于 2010-09-15 02:34:05

我不认为您可以通过NCBI Web服务获得这些信息。

使用XSLT

代码语言:javascript
复制
<?xml version='1.0'  encoding="ISO-8859-1" ?>
<xsl:stylesheet
    xmlns:xsl='http://www.w3.org/1999/XSL/Transform'
    version='1.0'
    >

<xsl:output method="text"/>
<xsl:template match="/">
<xsl:apply-templates select="//select[@id='DATABASE']"/>
</xsl:template>


<xsl:template match="select[@id='DATABASE']">
<xsl:for-each select=".//option">
<xsl:value-of select="@value"/>
<xsl:text>  </xsl:text>
<xsl:value-of select="."/>
<xsl:text>
</xsl:text>
</xsl:for-each>
</xsl:template>

</xsl:stylesheet>

和xsltproc:

代码语言:javascript
复制
xsltproc --html stylesheet.xsl "http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome" 2> /dev/null

返回;

代码语言:javascript
复制
dbindex/9606/ref_contig dbindex/9606/alt_contig_HuRef dbindex/9606/rna  Human genomic plus transcript (Human G+T)
dbindex/10090/alt_contig dbindex/10090/ref_contig dbindex/10090/rna     Mouse genomic plus transcript (Mouse G+T)
nr      Nucleotide collection (nr/nt)
refseq_rna      Reference mRNA sequences (refseq_rna)
refseq_genomic  Reference genomic sequences (refseq_genomic)
chromosome      NCBI Genomes (chromosome)
est     Expressed sequence tags (est)
est_others      Non-human, non-mouse ESTs (est_others)
gss     Genomic survey sequences (gss)
htgs    High throughput genomic sequences (HTGS)
pat     Patent sequences(pat)
pdb     Protein Data Bank (pdb)
alu     Human ALU repeat elements (alu_repeats)
dbsts   Sequence tagged sites (dbsts)
wgs     Whole-genome shotgun reads (wgs)
env_nt  Environmental samples (env_nt)
票数 3
EN

Stack Overflow用户

发布于 2010-10-20 01:16:47

我并不完全是您打算使用它的目的,但是NCBI使用的完整数据库集在他们的FTP站点上:ftp://ftp.ncbi.nih.gov/blast/db/如果您只对数据库名称感兴趣,只需查看第一个名称之前的部分即可。--大多数数据库都足够大,可以进行分段。为了做好块过滤(例如按有机体),他们使用别名文件,这些文件通过GI编号限制一个或多个较大的数据库。

票数 2
EN

Stack Overflow用户

发布于 2012-07-05 22:24:59

需要一些FTP API才能以编程方式获取这些库。然而,这些文件非常大,即使在压缩时也是如此。也许你至少应该检查一下下载站点上可用的版本是否与你已经下载的缓存版本不同。在http://www.javaworld.com/javaworld/jw-04-2003/jw-0404-ftp.html上审查了Java FTP库。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3711726

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档