文章/答案/技术大牛

发布

社区首页 >问答首页 >过滤UniProt数据文件中的氨基酸序列

问过滤UniProt数据文件中的氨基酸序列
EN

Stack Overflow用户

提问于 2020-03-10 21:27:54

回答 1查看 29关注 0票数 1

下面是我输入的一个例子：

ID   CAR16_HUMAN             Reviewed;         197 AA.
AC   Q5EG05; Q96RJ9;
DT   02-SEP-2008, integrated into UniProtKB/Swiss-Prot.
DT   15-MAR-2005, sequence version 1.
DT   26-FEB-2020, entry version 116.
DE   RecName: Full=Caspase recruitment domain-containing protein 16;
DE   AltName: Full=Caspase recruitment domain-only protein 1;
DE            Short=CARD-only protein 1;
DE   AltName: Full=Caspase-1 inhibitor COP;
DE   AltName: Full=Pseudo interleukin-1 beta converting enzyme;
DE            Short=Pseudo-ICE;
DE            Short=Pseudo-IL1B-converting enzyme;
GN   Name=CARD16; Synonyms=COP, COP1;
OS   Homo sapiens (Human).
OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC   Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae;
OC   Homo.
OX   NCBI_TaxID=9606;
RN   [1]
RP   NUCLEOTIDE SEQUENCE [MRNA] (ISOFORM 2), FUNCTION, TISSUE SPECIFICITY, AND
RP   INTERACTION WITH CASP1 AND RIPK2.
RX   PubMed=11536016; DOI=10.1038/sj.cdd.4400881;
RA   Druilhe A., Srinivasula S.M., Razmara M., Ahmad M., Alnemri E.S.;
RT   "Regulation of IL-1beta generation by Pseudo-ICE and ICEBERG, two dominant
RT   negative caspase recruitment domain proteins.";
RL   Cell Death Differ. 8:649-657(2001).
RN   [2]
RP   NUCLEOTIDE SEQUENCE [MRNA] (ISOFORM 1).
RA   Wang P.Z., Wang F., Wang X., Wu J.;
RT   "Novel splicing variants of some human genes.";
RL   Submitted (JAN-2005) to the EMBL/GenBank/DDBJ databases.
RN   [3]
RP   NUCLEOTIDE SEQUENCE [LARGE SCALE MRNA] (ISOFORM 2).
RC   TISSUE=Spleen;
RX   PubMed=14702039; DOI=10.1038/ng1285;
RA   Ota T., Suzuki Y., Nishikawa T., Otsuki T., Sugiyama T., Irie R.,
RA   Wakamatsu A., Hayashi K., Sato H., Nagai K., Kimura K., Makita H.,
RA   Sekine M., Obayashi M., Nishi T., Shibahara T., Tanaka T., Ishii S.,
RA   Yamamoto J., Saito K., Kawai Y., Isono Y., Nakamura Y., Nagahari K.,
RA   Murakami K., Yasuda T., Iwayanagi T., Wagatsuma M., Shiratori A., Sudo H.,
RA   Hosoiri T., Kaku Y., Kodaira H., Kondo H., Sugawara M., Takahashi M.,
RA   Kanda K., Yokoi T., Furuya T., Kikkawa E., Omura Y., Abe K., Kamihara K.,
RA   Katsuta N., Sato K., Tanikawa M., Yamazaki M., Ninomiya K., Ishibashi T.,
RA   Yamashita H., Murakawa K., Fujimori K., Tanai H., Kimata M., Watanabe M.,
RA   Hiraoka S., Chiba Y., Ishida S., Ono Y., Takiguchi S., Watanabe S.,
RA   Yosida M., Hotuta T., Kusano J., Kanehori K., Takahashi-Fujii A., Hara H.,
RA   Tanase T.-O., Nomura Y., Togiya S., Komai F., Hara R., Takeuchi K.,
RA   Arita M., Imose N., Musashino K., Yuuki H., Oshima A., Sasaki N.,
RA   Aotsuka S., Yoshikawa Y., Matsunawa H., Ichihara T., Shiohata N., Sano S.,
RA   Moriya S., Momiyama H., Satoh N., Takami S., Terashima Y., Suzuki O.,
RA   Nakagawa S., Senoh A., Mizoguchi H., Goto Y., Shimizu F., Wakebe H.,
RA   Hishigaki H., Watanabe T., Sugiyama A., Takemoto M., Kawakami B.,
RA   Yamazaki M., Watanabe K., Kumagai A., Itakura S., Fukuzumi Y., Fujimori Y.,
RA   Komiyama M., Tashiro H., Tanigami A., Fujiwara T., Ono T., Yamada K.,
RA   Fujii Y., Ozaki K., Hirao M., Ohmori Y., Kawabata A., Hikiji T.,
RA   Kobatake N., Inagaki H., Ikema Y., Okamoto S., Okitani R., Kawakami T.,
RA   Noguchi S., Itoh T., Shigeta K., Senba T., Matsumura K., Nakajima Y.,
RA   Mizuno T., Morinaga M., Sasaki M., Togashi T., Oyama M., Hata H.,
RA   Watanabe M., Komatsu T., Mizushima-Sugano J., Satoh T., Shirai Y.,
RA   Takahashi Y., Nakagawa K., Okumura K., Nagase T., Nomura N., Kikuchi H.,
RA   Masuho Y., Yamashita R., Nakai K., Yada T., Nakamura Y., Ohara O.,
RA   Isogai T., Sugano S.;
RT   "Complete sequencing and characterization of 21,243 full-length human
RT   cDNAs.";
RL   Nat. Genet. 36:40-45(2004).
RN   [4]
RP   NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA].
RA   Mural R.J., Istrail S., Sutton G.G., Florea L., Halpern A.L., Mobarry C.M.,
RA   Lippert R., Walenz B., Shatkay H., Dew I., Miller J.R., Flanigan M.J.,
RA   Edwards N.J., Bolanos R., Fasulo D., Halldorsson B.V., Hannenhalli S.,
RA   Turner R., Yooseph S., Lu F., Nusskern D.R., Shue B.C., Zheng X.H.,
RA   Zhong F., Delcher A.L., Huson D.H., Kravitz S.A., Mouchard L., Reinert K.,
RA   Remington K.A., Clark A.G., Waterman M.S., Eichler E.E., Adams M.D.,
RA   Hunkapiller M.W., Myers E.W., Venter J.C.;
RL   Submitted (JUL-2005) to the EMBL/GenBank/DDBJ databases.
RN   [5]
RP   NUCLEOTIDE SEQUENCE [LARGE SCALE MRNA] (ISOFORM 2).
RX   PubMed=15489334; DOI=10.1101/gr.2596504;
RG   The MGC Project Team;
RT   "The status, quality, and expansion of the NIH full-length cDNA project:
RT   the Mammalian Gene Collection (MGC).";
RL   Genome Res. 14:2121-2127(2004).
RN   [6]
RP   FUNCTION, TISSUE SPECIFICITY, SUBUNIT, AND INTERACTION WITH CASP1 AND
RP   RIPK2.
RX   PubMed=11432859; DOI=10.1074/jbc.m101415200;
RA   Lee S.H., Stehlik C., Reed J.C.;
RT   "Cop, a caspase recruitment domain-containing protein and inhibitor of
RT   caspase-1 activation processing.";
RL   J. Biol. Chem. 276:34495-34500(2001).
RN   [7]
RP   INTERACTION WITH CARD8.
RX   PubMed=11821383; DOI=10.1074/jbc.m107811200;
RA   Razmara M., Srinivasula S.M., Wang L., Poyet J.-L., Geddes B.J.,
RA   DiStefano P.S., Bertin J., Alnemri E.S.;
RT   "CARD-8 protein, a new CARD family member that regulates caspase-1
RT   activation and apoptosis.";
RL   J. Biol. Chem. 277:13952-13958(2002).
RN   [8]
RP   INDUCTION.
RX   PubMed=16354923; DOI=10.1523/jneurosci.4181-05.2005;
RA   Wang X., Wang H., Figueroa B.E., Zhang W.-H., Huo C., Guan Y., Zhang Y.,
RA   Bruey J.-M., Reed J.C., Friedlander R.M.;
RT   "Dysregulation of receptor interacting protein-2 and caspase recruitment
RT   domain only protein mediates aberrant caspase-1 activation in Huntington's
RT   disease.";
RL   J. Neurosci. 25:11645-11654(2005).
RN   [9]
RP   FUNCTION, AND INTERACTION WITH CASP4.
RX   PubMed=16920334; DOI=10.1016/j.bbadis.2006.06.015;
RA   Wang X., Narayanan M., Bruey J.-M., Rigamonti D., Cattaneo E., Reed J.C.,
RA   Friedlander R.M.;
RT   "Protective role of Cop in Rip2/caspase-1/caspase-4-mediated HeLa cell
RT   death.";
RL   Biochim. Biophys. Acta 1762:742-754(2006).
RN   [10]
RP   IDENTIFICATION BY MASS SPECTROMETRY [LARGE SCALE ANALYSIS].
RX   PubMed=21269460; DOI=10.1186/1752-0509-5-17;
RA   Burkard T.R., Planyavsky M., Kaupe I., Breitwieser F.P., Buerckstuemmer T.,
RA   Bennett K.L., Superti-Furga G., Colinge J.;
RT   "Initial characterization of the human central proteome.";
RL   BMC Syst. Biol. 5:17-17(2011).
CC   -!- FUNCTION: Caspase inhibitor. Acts as a regulator of procaspase-1/CASP1
CC       activation implicated in the regulation of the proteolytic maturation
CC       of pro-interleukin-1 beta (IL1B) and its release during inflammation.
CC       Inhibits the release of IL1B in response to LPS in monocytes. Also
CC       induces NF-kappa-B activation during the pro-inflammatory cytokine
CC       response. Also able to inhibit CASP1-mediated neuronal cell death, TNF-
CC       alpha, hypoxia-, UV-, and staurosporine-mediated cell death but not ER
CC       stress-mediated cell death. Acts by preventing activation of caspases
CC       CASP1 and CASP4, possibly by preventing the interaction between CASP1
CC       and RIPK2. {ECO:0000269|PubMed:11432859, ECO:0000269|PubMed:11536016,
CC       ECO:0000269|PubMed:16920334}.
CC   -!- SUBUNIT: Homooligomer. Interacts with CASP1, CASP4, CARD8 and RIPK2.
CC       {ECO:0000269|PubMed:11432859, ECO:0000269|PubMed:11536016,
CC       ECO:0000269|PubMed:11821383, ECO:0000269|PubMed:16920334}.
CC   -!- ALTERNATIVE PRODUCTS:
CC       Event=Alternative splicing; Named isoforms=2;
CC       Name=1;
CC         IsoId=Q5EG05-1; Sequence=Displayed;
CC       Name=2;
CC         IsoId=Q5EG05-2; Sequence=VSP_035216;
CC   -!- TISSUE SPECIFICITY: Widely expressed. Expressed at higher level in
CC       placenta, spleen, lymph node and bone marrow. Weakly or not expressed
CC       in thymus. {ECO:0000269|PubMed:11432859, ECO:0000269|PubMed:11536016}.
CC   -!- INDUCTION: Down-regulated in patients suffering of Huntington disease.
CC       {ECO:0000269|PubMed:16354923}.
CC   ---------------------------------------------------------------------------
CC   Copyrighted by the UniProt Consortium, see https://www.uniprot.org/terms
CC   Distributed under the Creative Commons Attribution (CC BY 4.0) License
CC   ---------------------------------------------------------------------------
DR   EMBL; AF367017; AAK71682.1; -; mRNA.
DR   EMBL; AY885669; AAW78563.1; -; mRNA.
DR   EMBL; AK311902; BAG34843.1; -; mRNA.
DR   EMBL; CH471065; EAW67062.1; -; Genomic_DNA.
DR   EMBL; BC117478; AAI17479.1; -; mRNA.
DR   EMBL; BC117480; AAI17481.1; -; mRNA.
DR   CCDS; CCDS31661.1; -. [Q5EG05-1]
DR   CCDS; CCDS41705.1; -. [Q5EG05-2]
DR   RefSeq; NP_001017534.1; NM_001017534.1. [Q5EG05-1]
DR   RefSeq; NP_443121.1; NM_052889.2. [Q5EG05-2]
DR   SMR; Q5EG05; -.
DR   BioGrid; 125339; 3.
DR   IntAct; Q5EG05; 1.
DR   MINT; Q5EG05; -.
DR   STRING; 9606.ENSP00000364858; -.
DR   iPTMnet; Q5EG05; -.
DR   PhosphoSitePlus; Q5EG05; -.
DR   BioMuta; CARD16; -.
DR   DMDM; 74722547; -.
DR   jPOST; Q5EG05; -.
DR   MassIVE; Q5EG05; -.
DR   MaxQB; Q5EG05; -.
DR   PaxDb; Q5EG05; -.
DR   PeptideAtlas; Q5EG05; -.
DR   PRIDE; Q5EG05; -.
DR   ProteomicsDB; 62773; -. [Q5EG05-1]
DR   ProteomicsDB; 62774; -. [Q5EG05-2]
DR   Ensembl; ENST00000375706; ENSP00000364858; ENSG00000204397. [Q5EG05-1]
DR   Ensembl; ENST00000375704; ENSP00000364856; ENSG00000204397. [Q5EG05-2]
DR   GeneID; 114769; -.
DR   KEGG; hsa:114769; -.
DR   UCSC; uc001pio.2; human. [Q5EG05-1]
DR   CTD; 114769; -.
DR   DisGeNET; 114769; -.
DR   GeneCards; CARD16; -.
DR   HGNC; HGNC:33701; CARD16.
DR   HPA; HPA053981; -.
DR   HPA; HPA062805; -.
DR   MIM; 615680; gene.
DR   neXtProt; NX_Q5EG05; -.
DR   OpenTargets; ENSG00000204397; -.
DR   PharmGKB; PA164717628; -.
DR   eggNOG; KOG3573; Eukaryota.
DR   eggNOG; ENOG410ZQIE; LUCA.
DR   GeneTree; ENSGT00940000159114; -.
DR   HOGENOM; CLU_119795_0_0_1; -.
DR   InParanoid; Q5EG05; -.
DR   KO; K12806; -.
DR   OMA; CITDICE; -.
DR   OrthoDB; 1327703at2759; -.
DR   PhylomeDB; Q5EG05; -.
DR   TreeFam; TF330675; -.
DR   GeneWiki; COP1; -.
DR   GenomeRNAi; 114769; -.
DR   Pharos; Q5EG05; Tbio.
DR   PRO; PR:Q5EG05; -.
DR   Proteomes; UP000005640; Chromosome 11.
DR   RNAct; Q5EG05; protein.
DR   Bgee; ENSG00000204397; Expressed in leukocyte and 170 other tissues.
DR   Genevisible; Q5EG05; HS.
DR   GO; GO:0097179; C:protease inhibitor complex; IDA:UniProtKB.
DR   GO; GO:0032991; C:protein-containing complex; IDA:UniProtKB.
DR   GO; GO:0050700; F:CARD domain binding; IPI:UniProtKB.
DR   GO; GO:0089720; F:caspase binding; IPI:UniProtKB.
DR   GO; GO:0004869; F:cysteine-type endopeptidase inhibitor activity; IDA:UniProtKB.
DR   GO; GO:0042802; F:identical protein binding; IDA:UniProtKB.
DR   GO; GO:0019900; F:kinase binding; IPI:UniProtKB.
DR   GO; GO:0071456; P:cellular response to hypoxia; IDA:UniProtKB.
DR   GO; GO:0071222; P:cellular response to lipopolysaccharide; IDA:UniProtKB.
DR   GO; GO:0071494; P:cellular response to UV-C; IDA:UniProtKB.
DR   GO; GO:0097340; P:inhibition of cysteine-type endopeptidase activity; IDA:UniProtKB.
DR   GO; GO:0043154; P:negative regulation of cysteine-type endopeptidase activity involved in apoptotic process; IDA:UniProtKB.
DR   GO; GO:0050713; P:negative regulation of interleukin-1 beta secretion; IDA:UniProtKB.
DR   GO; GO:0031665; P:negative regulation of lipopolysaccharide-mediated signaling pathway; IDA:UniProtKB.
DR   GO; GO:0032091; P:negative regulation of protein binding; IDA:UniProtKB.
DR   GO; GO:0010804; P:negative regulation of tumor necrosis factor-mediated signaling pathway; IMP:UniProtKB.
DR   GO; GO:0043123; P:positive regulation of I-kappaB kinase/NF-kappaB signaling; IDA:UniProtKB.
DR   GO; GO:0051092; P:positive regulation of NF-kappaB transcription factor activity; IDA:UniProtKB.
DR   InterPro; IPR001315; CARD.
DR   InterPro; IPR011029; DEATH-like_dom_sf.
DR   Pfam; PF00619; CARD; 1.
DR   SMART; SM00114; CARD; 1.
DR   SUPFAM; SSF47986; SSF47986; 1.
DR   PROSITE; PS50209; CARD; 1.
PE   1: Evidence at protein level;
KW   Alternative splicing; Polymorphism; Protease inhibitor; Reference proteome;
KW   Thiol protease inhibitor.
FT   CHAIN           1..197
FT                   /note="Caspase recruitment domain-containing protein 16"
FT                   /id="PRO_0000349180"
FT   DOMAIN          1..91
FT                   /note="CARD"
FT                   /evidence="ECO:0000255|PROSITE-ProRule:PRU00046"
FT   VAR_SEQ         92..197
FT                   /note="ALQAVQDNPAMPTCSSPEGRIKLCFLEDAQRIWKQKLQRCHVQNTIIKWSER
FT                   YTSGSFEMQWLFLRTNFIERFWRNILLLPLHKGSLYPRIPGLGKELQTGTHKLS -> G
FT                   PIPGN (in isoform 2)"
FT                   /evidence="ECO:0000303|PubMed:11536016,
FT                   ECO:0000303|PubMed:14702039, ECO:0000303|PubMed:15489334"
FT                   /id="VSP_035216"
FT   VARIANT         33
FT                   /note="R -> S (in dbSNP:rs35966314)"
FT                   /id="VAR_046279"
FT   VARIANT         37
FT                   /note="Q -> K (in dbSNP:rs1042744)"
FT                   /id="VAR_046280"
FT   VARIANT         56
FT                   /note="A -> D (in dbSNP:rs34534919)"
FT                   /id="VAR_046281"
FT   VARIANT         167
FT                   /note="N -> I (in dbSNP:rs542571)"
FT                   /id="VAR_046282"
SQ   SEQUENCE   197 AA;  22625 MW;  5DCAC6A9B2FAE82F CRC64;
     MADKVLKEKR KLFIHSMGEG TINGLLDELL QTRVLNQEEM EKVKRENATV MDKTRALIDS
     VIPKGAQACQ ICITYICEED SYLAETLGLS AALQAVQDNP AMPTCSSPEG RIKLCFLEDA
     QRIWKQKLQR CHVQNTIIKW SERYTSGSFE MQWLFLRTNF IERFWRNILL LPLHKGSLYP
     RIPGLGKELQ TGTHKLS
//

正如您在示例中看到的，我需要示例末尾的氨基酸序列。我的想法是在带有(?<=SQ)(.*)表达式的SQ之后执行正则表达式。但这只会给我

SQ   SEQUENCE   197 AA;  22625 MW;  5DCAC6A9B2FAE82F CRC64;

线路。我搜索的是具有以下序列的行：

     MADKVLKEKR KLFIHSMGEG TINGLLDELL QTRVLNQEEM EKVKRENATV MDKTRALIDS
     VIPKGAQACQ ICITYICEED SYLAETLGLS AALQAVQDNP AMPTCSSPEG RIKLCFLEDA
     QRIWKQKLQR CHVQNTIIKW SERYTSGSFE MQWLFLRTNF IERFWRNILL LPLHKGSLYP
     RIPGLGKELQ TGTHKLS

有人能告诉我怎么才能做到这一点吗？

regex

python-3.x

回答 1

Stack Overflow用户

发布于 2020-03-10 21:34:24

我们可以尝试使用re.findall两次

inp = "..."
sq = re.findall(r'SQ\s+SEQUENCE(.*?;.*?;.*?;.*?[A-Z]{5,}(?:\s+[A-Z]{5,})*)', inp, flags=re.DOTALL)[0]
matches = re.findall(r'\b[A-Z]{5,}\b', sq, flags=re.DOTALL)
print(matches)

这将打印：

['MADKVLKEKR', 'KLFIHSMGEG', 'TINGLLDELL', 'QTRVLNQEEM', 'EKVKRENATV',
 'MDKTRALIDS', 'VIPKGAQACQ', 'ICITYICEED', 'SYLAETLGLS', 'AALQAVQDNP',
 'AMPTCSSPEG', 'RIKLCFLEDA', 'QRIWKQKLQR', 'CHVQNTIIKW', 'SERYTSGSFE',
 'MQWLFLRTNF', 'IERFWRNILL', 'LPLHKGSLYP', 'RIPGLGKELQ', 'TGTHKLS']

这里的策略是首先隔离以SQ SEQUENCE开头的文本的结尾部分。然后，我们使用re.findall重复查找您实际需要的序列。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60618624

复制

相似问题

问过滤UniProt数据文件中的氨基酸序列
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问过滤UniProt数据文件中的氨基酸序列EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问过滤UniProt数据文件中的氨基酸序列
EN