文章/答案/技术大牛

发布

问解释手册上的一段话
EN

Stack Overflow用户

提问于 2013-02-27 19:50:15

回答 2查看 62关注 0票数 2

我试图让一些生物信息学软件运行(TE Displayer)，但它根本不起作用。我认为问题可能在于软件如何识别FASTA头。从文档中可以看出这一点。

标题行中的序列标识符采用"\w(1,10)\d(2,9)“的模式，意思是”单词字符(1-10)后面跟着数字(2-9)"，因此尽量避免使用非标识词短语(例如：( "Build04")在标题行中。例如，标题行">OrganismX加入AC000282，build0.4“很好，但不是">OrganismX WX000282，Build04”。因此，">Oryza Chromosome11“也可以，因为"Chromosome11”将被识别为标识符。

有人能解释一下"\w(1,10)\d(2,9)“的确切用法吗?我把它理解为任何一个单词，总长度可达12个字符，但必须以两位数结尾。所以我不明白Build0.4是如何好的，而Build04却不是很好。

干杯!

regex

bioinformatics

fasta

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-02-27 19:58:41

单独的序列标识符应该与模式匹配，因此在">OrganismX Accession AC000282, build0.4"中，必须由正则表达式匹配的是AC000282，而不是Build0.4。

\w(1,10)\d(2,9)的意思是匹配一个到十个字的字符，即a-z A-Z 0-9 _中的任何一个，后面跟着2到9个数字。

由于Build04将由该模式匹配，而且它不是序列标识符，因此建议避免使用该模式。build0.4将不匹配该模式，因为它包含一个.，所以它很好。

票数 5

Stack Overflow用户

发布于 2013-02-27 20:08:01

要扩展MikeM的内容--您正在尝试获得您的脚本来识别AC000282。上面的正则表达式将识别该序列的字符。序列标识符\w(1,10)\d(2,9)表示“查找1到10个单词字符，后面跟着2到9个数字字符。然后，正则表达式将识别Build04，因为有5个单词字符(构建)，后面有2个数字字符(04)，但是它不会将Build0.4识别为Build0.4中的.，因为它会告诉正则表达式它不被使用。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15121044

复制

相似问题

问解释手册上的一段话
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解释手册上的一段话EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解释手册上的一段话
EN