我正在尝试用生物科学文本进行序列到序列的翻译,里面有很多专有名词,变成了一种结构化的生物学语言。我可以很容易地用它们的实体类型来标记术语(蛋白质、化合物等)。我想知道是否有一种方法可以用它们的实体类型替换名词(以一种方式让我在翻译后匹配并添加它们),或者以一种可以增强翻译过程的方式对它们进行注释。例如,将“辛伐他汀诱导的细胞凋亡伴随着小窝蛋白-1表达的特异性诱导”转换为“辛伐他汀增加小窝蛋白-1的rna表达”-辛伐他汀==化合物,小窝蛋白-1 == R
问题是这些序列可能是蛋白质,也可能是dna。我正在将大的fasta文件分成许多小的fasta文件,一旦我有了序列,我需要它们都是蛋白质。所以我想测试每一个,看看它是否是蛋白质。如果它们都是蛋白质,我很好,如果它们都是dna,我有一个优雅的方法来翻译它们,但我需要找到一种方法来测试每个新的fasta文件,翻译它,并让翻译取代dna文件from Bio