我目前正在处理肽数据,并试图从肽数据集中提取原子对指纹,用于机器学习分类器中。
我已经将我的肽序列设置为一个列表(所有这些序列都转换为微笑字符串),现在我正在遍历列表,为每个肽创建一个指纹。但我不知道到底出了什么问题。注意:,我正在使用Google来完成这个任务。
这是我的代码:
pos = "/content/drive/MyDrive/pepfun/Training_format_pos (1).txt"
# pos sequences extract into list
f = open(pos, 'r')
file_contents = f.read()
data = file_contents
f.close()
newdatapos = data.splitlines()
print(newdatapos)
!pip install rdkit-pypi
import rdkit
from rdkit import Chem
# fingerprints for pos sequences
from rdkit.Chem.AtomPairs import Pairs
fingerprintpos = []
for item in newdatapos:
converteditem = rdkit.Chem.MolToSmiles(Chem.MolFromFASTA(item))
atompos = Pairs.GetAtomPairFingerprint(converteditem)
fingerprintpos.append(atompos)
print(fingerprintpos)任何建议都是非常感谢的。谢谢!
发布于 2021-11-07 08:01:34
指纹是根据物体而不是微笑来计算的。converteditem = Chem.MolFromFASTA(item)应该能工作。
https://stackoverflow.com/questions/69870441
复制相似问题