我有这样一个excel文件..。
Sr. No. GENE ID Gene Id (NCBI) Protein Id Protein Sequences
1 Lmo0001 984365 NP_463534.1
2 Lmo0002 984379 NP_463535.1
3 Lmo0003 984420 NP_463536.1这个列表延伸到了3000个基因。我把这些序列保存在这样的textpad中,这是针对所有3000个基因的,每个单独的序列之间有一个空格。
单核细胞增生性李斯特氏菌EGD-e 单细胞生长EGD-e gi|16802050|ref|NP_463535.1| DNA聚合酶Ⅲ亚基β李斯特菌 单核细胞增生症e gi|16802051|ref|NP_463536.1| gi|16802052|ref|NP_463537.1|假蛋白lmo0004李斯特菌 重组蛋白F-李斯特菌EGD-e
是否可以将每个序列放在每个蛋白质序列点上,而不必手工复制和粘贴每个序列?任何方法都行。
对这张可笑的桌子我很抱歉,但是没有足够的声誉点,我无法贴出照片,这是我所能做到的最好的。
@swapnil,但是我想在第一个excel表中蛋白质序列列下的直线上复制记事本上的序列。
发布于 2013-06-26 12:18:42
嗯,这里不会是一个简单的拷贝/粘贴。我认为您可以做的是将所有内容复制到一个新的excel表中,并使用分隔符管道|执行文本到列的操作,以获得最后一点:
chromosomal replication initiation protein [Listeria monocytogenes EGD-e] MQSIEDIWQETLQIVKKNMSKPSYDTWMKSTTAHSLEGNTFIISAPNNFVRDWLEKSYTQFIANILQEIT GRLFDVRFIDGEQEENFEYTVIKPNPALDEDGIEIGKHMLNPRYVFDTFVIGSGNRFAHAASLAVAEAPA KAYNPLFIYGGVGLGKTHLMHAVGHYVQQHKDNAKVMYLSSEKFTNEFISSIRDNKTEEFRTKYRNVDVL LIDDIQFLAGKEGTQEEFFHTFNTLYDEQKQIIISSDRPPKEIPTLEDRLRSRFEWGLITDITPPDLETR IAILRKKAKADGLDIPNEVMLYIANQIDSNIRELEGALIRVVAYSSLVNKDITAGLAAEALKDIIPSSKS QVITISGIQEAVGEYFHVRLEDFKAKKRTKSIAFPRQIAMYLSRELTDASLPKIGDEFGGRDHTTVIHAH EKISQLLKTDQVLKNDLAEIEKNLRKAQNMF
DNA polymerase III subunit beta [Listeria monocytogenes EGD-e] MKFVIERDRLVQAVNEVTRAISARTTIPILTGIKIVVNDEGVTLTGSDSDISIEAFIPLIENDEVIVEVE SFGGIVLQSKYFGDIVRRLPEENVEIEVTSNYQTNISSGQASFTLNGLDPMEYPKLPEVTDGKTIKIPIN VLKNIVRQTVFAVSAIEVRPVLTGVNWIIKENKLSAVATDSHRLALREIPLETDIDEEYNIVIPGKSLSE LNKLLDDASESIEMTLANNQILFKLKDLLFYSRLLEGSYPDTSRLIPTDTKSELVINSKAFLQAIDRASL LARENRNNVIKLMTLENGQVEVSSNSPEVGNVSENVFSQSFTGEEIKISFNGKYMMDALRAFEGDDIQIS FSGTMRPFVLRPKDAANPNEILQLITPVRTY
hypothetical protein lmo0003 [Listeria monocytogenes EGD-e] MMKDMTTGNPTKLIFLFAMPMLIGNLFQQFYTMIDAVIVGKFVSVDALAAVGATNSVNFFMISLIIGLMS GISVVVAQYFGFKDYDRLKDVIATATYAVVFSAIILTVAGVLLAKPLLILLRTPANILDDSTIFLTTLFI GILPMSLYNGMAAILRALGNSITPLIFLILSSLMNIALDFLFVVYMDMGVRGAAIATVLSQTAAAIAVIY YAYRHVPFMRIERAKFKLSTPLLKEMVRIGLPSGLQGSFISIGNMALQSLINGFGSSVVAAYTAASRIDS LTYQPGIAFGAASSMFAGQNIGAGKIDRVREGFWSGIKVVTAISIGITILVQLFARQFLLLFVDSSETEV INIGVSYLLIVSLFYVVVGILFVVRETLRGTGDAMVPLAMGIFELVSRLVIGFVLSLYIGYVGLWWATPV AWITATILGVWRYKSGAWQKKAVIRRK
hypothetical protein lmo0004 [Listeria monocytogenes EGD-e] MAETVKINSEFVTLGQLLQMIDVVSTGGMAKAYLSENTIYINGEQDNRRGKKLRNGDVILVPGVGKVKIE QGK
recombination protein F [Listeria monocytogenes EGD-e] MHLESIVLRNFRNYENLELEFSPSVNVFLGENAQGKTNLLEAVLMLALAKSHRTTNDKDFIMWEKEEAKM EGRIAKHGQSVPLELAITQKGKRAKVNHLEQKKLSQYVGNLNVVIFAPEDLSLVKGAPGIRRRFLNMEIG QMQPIYLHNLSEYQRILQQRNQYLKMLQMKRKVDPILLDILTEQFADVAINLTKRRADFIQKLEAYAAPI HHQISRGLETLKIEYKASITLNGDDPEVWKADLLQKMESIKQREIDRGVTLIGPHRDDSLFYINGQNVQD FGSQGQQRTTALSIKLAEIDLIHEETGEYPVLLLDDVLSELDDYRQSHLLGAIEGKVQTFVTTTSTSGID HETLKQATTFYVEKGTVKKS这应该转到E栏,然后在F栏中,你可以把公式:
=mid(E1, find("]", E1)+2, len(E1))这将提取结束方括号]之后的所有内容,从而返回所需的序列。
假设这些表位于excel文件的工作簿中的名称为Sheet2的工作表中(其中第一个工作表包含您现在拥有的表)。
在第一张纸上,把公式:
=vlookup(D2, Sheet2!D:F, 3, 0)这是假设您的文本文件与表中列出的蛋白质Ids的顺序不同。否则,您可以简单地将F列的结果复制/粘贴值(复制和粘贴特殊值,选择粘贴值)到第一个表中,
https://stackoverflow.com/questions/17318188
复制相似问题