我有一个基因符号列表,表示两个高吞吐量数据集的交集。我有兴趣做一些GO注释和聚类,但为了做到这一点,我需要将这些基因符号转换成UniProt登录号。我的问题是,使用Python的最佳方法是什么?
例如,转化生长因子β-1的基因称为'TGFB1‘,其登录号为’P 01137‘。我正在寻找一个函数/类/模块/包,它使我能够输入TGFB1作为参数,并将P01137还给我。有人能给我指路吗?谢谢
发布于 2016-09-02 19:55:30
获取一些从基因名到PDB的映射,比如JSON:download.jsp?rows=100000&page=1&sidx=id&sord=desc将其保存为"mapping.json“。
然后使用这些数据获取映射:
import json
with open("mapping.json") as mapping:
map_dict = json.load(mapping)
data = map_dict["rows"]
def get_uniprot(gene_id):
for row in map_dict["rows"]:
if row["cell"][1] == gene_id:
return row["cell"][4]
print(get_uniprot("TGFB1"))https://stackoverflow.com/questions/39035103
复制相似问题