我是RDKit的新手。我需要做一个化合物数据库的聚类分析。我已经从锌数据库下载了191K的3D mol2格式的化合物,现在我需要使用RDKit获取指纹。首先,我不知道是否可以将mol2格式转换为指纹,以及哪种指纹更适合这种类型的分析(我需要了解数据库中有哪些化学类型,以便-最终-找到一些代表)。有没有人有建议?(实用的建议也很受欢迎)。谢谢
发布于 2021-06-30 12:54:15
RdKit支持mol2文件加载。为此,您可以使用MolFromMol2File函数。
from rdkit import Chem
mol2_paths = ['path1', 'path2', 'path3', ......]
mols = []
for path in mol2_paths:
mols.append(Chem.MolFromMol2File(path))上面的函数将加载所有mol2文件,并为所有文件创建一个RdKit分子对象。一旦创建了一个对象,您就可以使用它来计算任何属性(类似于如果您有一个微笑字符串,您将如何计算)。
现在,对于集群,RdKit有一个ClusterData模块,您可以使用它。请参阅模块here。请参阅模块here的用法示例。另一个例子是here。请查看此演示文稿,介绍RdKit here中的不同群集方法。集群here的另一种方法。
希望这应该是一个足够的信息,让你继续前进。
https://stackoverflow.com/questions/68168491
复制相似问题