首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >解释手册上的一段话

解释手册上的一段话
EN

Stack Overflow用户
提问于 2013-02-27 19:50:15
回答 2查看 62关注 0票数 2

我试图让一些生物信息学软件运行(TE Displayer),但它根本不起作用。我认为问题可能在于软件如何识别FASTA头。从文档中可以看出这一点。

标题行中的序列标识符采用"\w(1,10)\d(2,9)“的模式,意思是”单词字符(1-10)后面跟着数字(2-9)",因此尽量避免使用非标识词短语(例如:( "Build04")在标题行中。例如,标题行">OrganismX加入AC000282,build0.4“很好,但不是">OrganismX WX000282,Build04”。因此,">Oryza Chromosome11“也可以,因为"Chromosome11”将被识别为标识符。

有人能解释一下"\w(1,10)\d(2,9)“的确切用法吗?我把它理解为任何一个单词,总长度可达12个字符,但必须以两位数结尾。所以我不明白Build0.4是如何好的,而Build04却不是很好。

干杯!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-02-27 19:58:41

单独的序列标识符应该与模式匹配,因此在">OrganismX Accession AC000282, build0.4"中,必须由正则表达式匹配的是AC000282,而不是Build0.4

\w(1,10)\d(2,9)的意思是匹配一个到十个字的字符,即a-z A-Z 0-9 _中的任何一个,后面跟着2到9个数字。

由于Build04将由该模式匹配,而且它不是序列标识符,因此建议避免使用该模式。build0.4将不匹配该模式,因为它包含一个.,所以它很好。

票数 5
EN

Stack Overflow用户

发布于 2013-02-27 20:08:01

要扩展MikeM的内容--您正在尝试获得您的脚本来识别AC000282。上面的正则表达式将识别该序列的字符。序列标识符\w(1,10)\d(2,9)表示“查找1到10个单词字符,后面跟着2到9个数字字符。然后,正则表达式将识别Build04,因为有5个单词字符(构建),后面有2个数字字符(04),但是它不会将Build0.4识别为Build0.4中的.,因为它会告诉正则表达式它不被使用。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15121044

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档