我试图让一些生物信息学软件运行(TE Displayer),但它根本不起作用。我认为问题可能在于软件如何识别FASTA头。从文档中可以看出这一点。
标题行中的序列标识符采用"\w(1,10)\d(2,9)“的模式,意思是”单词字符(1-10)后面跟着数字(2-9)",因此尽量避免使用非标识词短语(例如:( "Build04")在标题行中。例如,标题行">OrganismX加入AC000282,build0.4“很好,但不是">OrganismX WX000282,Build04”。因此,">Oryza Chromosome11“也可以,因为"Chromosome11”将被识别为标识符。
有人能解释一下"\w(1,10)\d(2,9)“的确切用法吗?我把它理解为任何一个单词,总长度可达12个字符,但必须以两位数结尾。所以我不明白Build0.4是如何好的,而Build04却不是很好。
干杯!
发布于 2013-02-27 19:58:41
单独的序列标识符应该与模式匹配,因此在">OrganismX Accession AC000282, build0.4"中,必须由正则表达式匹配的是AC000282,而不是Build0.4。
\w(1,10)\d(2,9)的意思是匹配一个到十个字的字符,即a-z A-Z 0-9 _中的任何一个,后面跟着2到9个数字。
由于Build04将由该模式匹配,而且它不是序列标识符,因此建议避免使用该模式。build0.4将不匹配该模式,因为它包含一个.,所以它很好。
发布于 2013-02-27 20:08:01
要扩展MikeM的内容--您正在尝试获得您的脚本来识别AC000282。上面的正则表达式将识别该序列的字符。序列标识符\w(1,10)\d(2,9)表示“查找1到10个单词字符,后面跟着2到9个数字字符。然后,正则表达式将识别Build04,因为有5个单词字符(构建),后面有2个数字字符(04),但是它不会将Build0.4识别为Build0.4中的.,因为它会告诉正则表达式它不被使用。
https://stackoverflow.com/questions/15121044
复制相似问题