web:https://pubchem.ncbi.nlm.nih.gov/ PubChem是美国国立卫生研究院(NIH)的开放化学数据库。 “开放”意味着您可以将科学数据存储在PubChem中,其他人也可以使用它。自2004年启动以来,PubChem已成为科学家,学生和公众的重要化学信息资源。 PubChem中的数据来自哪里?PubChem记录由数百个数据源提供。示例包括:政府机构,化学品供应商,期刊出版商等等。 PubChem中的数据量正在不断增长,请访问PubChem统计页面以了解最新的数据计数。 PubChem 统计数据 ? 批量下载(Bulk Download): PubChem FTP site:ftp://ftp.ncbi.nlm.nih.gov/pubchem PubChem Structure Download
看一个好东西,pubchem,业界很有名的分子数据库。 有很多分子数据可以从上面下载, ? 主页:https://pubchem.ncbi.nlm.nih.gov/ 基本上输入分子就可以查询信息,还有2d,3d结构文件可以下载。 今天不说使用,其实你自己上手看看就应该会的。 看一个pubchem的python 包 官网信息:https://pubchempy.readthedocs.io/en/latest/ #安装: pip install pubchempy conda jupyter-notebook 文件在这里: https://github.com/luskyqi1995/pubchem/blob/master/pubchem.ipynb 小tip: https ://pubchem.ncbi.nlm.nih.gov/compound/57-27-2 等于 https://pubchem.ncbi.nlm.nih.gov/compound/5288826 ---
PubChem,即有机小分子生物活性数据,是一种化学模组的数据库,由美国国家健康研究院( US National Institutes of Health,NIH)支持,美国国家生物技术信息中心负责维护 PubChem数据库包括 3个子数据库: PubChem BioAssay 库用于存储生化实验数据,实验数据主要来自高通量筛选实验和科技文献; PubChem Compound 库用于存储整理后的化合物化学结构信息 ; PubChem Substance 用于存储机构和个人上传的化合物原始数据 提供2D Structure,3D Conformer,SDF,ASNT,JSON,XML格式原始数据下载 包含 InChIInChI Count 旋转键计数 Rotatable Bond Count 子密钥 Subs key 坐标类型 Coordinate Type 键注释 Bond Annotations http://www.pubchem.cn
pubchem数据库,就不过多介绍了。 今天在使用这个网站的时候,发现了这个网站的REST接口,我们就来看一下: pubchem提供了一个接口叫做 PUG REST Tutorial 本文档的目的是解释 PubChem 的 PUG REST PUG 是 Power User Gateway (强力用户网关)的缩写,它包括多种编程访问 PubChem 数据和服务的方法。 PUG REST 的基本单位是 PubChem 标识符,它有三种类型:SID(物质)、 CID(化合物)和 AID(检测)。 你可以将这两者结合到一个 SMILES 字符串的可视化 请求中 在这种情况下,无论该特定化学物质是否存在于 PubChem 数据库中 !
1:Pubchem简介 PubChem,即有机小分子生物活性数据,是一种化学模组的[数据库],由美国国家健康研究院( US National Institutes of Health,NIH)支持,[美国国家生物技术信息中心 目的:主要是想通过手中的小分子(药物)的CAS编号,从PubChem上爬取其相关的信息。首要是先把PubChem的CID编号爬取下来,PubChem并没有向SDF文件中添加CAS编号相关信息。 webdriver webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器,这里以Edge为例 browser = webdriver.Edge() 添加网址,PubChem url='https://pubchem.ncbi.nlm.nih.gov/search/#query=cas' 创建关于CAS以及CID的列表,请求头导入 CASid=[] CIDid=[] ua
__file__).replace('scaffoldgraph', 'examples/example.sdf') # Example SDF file (200 PubChem compounds) Found {} molecules containing scaffold, {}\n'.format(len(molecules), query_smiles)) # Molecules are PubChem = random.choice(list(tree.get_molecule_nodes())) print('PubChem ID:', random_pubchem_id) predecessors = nx.bfs_tree(tree, random_pubchem_id, reverse=True) # We can validate that one molecules scaffold set forms a tree structure print('Predecessors of {} is Tree: {}'.format(random_pubchem_id, nx.is_tree
1:Pubchem简介 PubChem,即有机小分子生物活性数据,是一种化学模组的[数据库],由美国国家健康研究院( US National Institutes of Health,NIH)支持,[美国国家生物技术信息中心 目的: 主要是想通过手中的小分子(药物)的CAS编号,从PubChem上爬取其相关的信息。 首要是先把PubChem的CID编号爬取下来,PubChem并没有向SDF文件中添加CAS编号相关信息。 webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器,这里以Edge为例 browser = webdriver.Edge() ########添加网址,PubChem url='https://pubchem.ncbi.nlm.nih.gov/search/#query=cas' ########创建关于CAS以及CID的列表,请求头导入 CASid=[] CIDid
创建输出文件 mkdir -p Ligands Receptors DockResult logs 在运行前,需要准备两个文件(格式示例如下): Ligand.list:配体ID列表(第一列名称,第二列PubChem 第1行:批量下载配体(PubChem) 从PubChem数据库批量下载配体的SDF文件,存到Ligands文件夹: cut -f2 Ligand.list | xargs -P5 -I {} -n1 python get_pubchem.py --cid {} --output Ligands/{}.sdf 解析: cut -f2 Ligand.list:提取列表中第二列的PubChem CID(配体唯一标识) ; `xargs -P5:用5个进程并行下载,加速获取; get_pubchem.py:辅助脚本(功能是调用PubChem API下载SDF格式配体)。 Protein PDB Affinity PubChem Mode CNN_PoseScore CNN_Affinity A 7LL4 -16.69515 128964461 6
Groups', 'InChIKey', 'InChI', 'SMILES', 'Formula', 'KEGG Compound ID', 'KEGG Drug ID', 'PubChem Compound ID', 'PubChem Substance ID', 'ChEBI ID', 'ChEMBL ID', 'HET ID', 'ChemSpider ID', 'BindingDB Groups', 'InChIKey', 'InChI', 'SMILES', 'Formula', 'KEGG Compound ID', 'KEGG Drug ID', 'PubChem Compound ID', 'PubChem Substance ID', 'ChEBI ID', 'ChEMBL ID', 'HET ID', 'ChemSpider ID', 'BindingDB
作者主要使用公开可用的arXiv和PubChem数据集,但这些工具也可以用于其他数据集。此外,随着新模型的开发,它们可以轻松集成到该库中。 估计在网络上可获得的学术文章数量超过1亿篇。 数据来源 作者主要使用了两个开放获取的数据集:arXiv和PubChem。arXiv是由康奈尔大学维护和运营的一个合作资助、社区支持的资源。 需要注意的是,arXiv/PubChem文章在同行评审流程之后经常会进行更新,使用相应的版本控制过程,这可能会影响AI模型的应用。 接下来,在图4b中展示了PubChem数据集的t-SNE图。与cond-mat文章类似,t-SNE也可以将PubChem数据集中不同类别的文章进行聚类。这些图表表明文章数据分布良好。 作者将分类模型应用于arXiv:cond-mat和PubChem数据集,将文本转化为数字向量,使用词袋模型和TF-IDF。
ZINC(http://zinc.docking.org/),这里就不介绍了,你要是能从上面的数据库下载到你配体小分子的mol2格式文件,就直接用,如果不能,那就是去PubChem数据库(https:/ /pubchem.ncbi.nlm.nih.gov/)下载sdf文件,然后进行转换,这也是我这里要介绍的。 首先在PubChem数据库检索你的化合物,进入相应的页面,3D Conformer处点击下载,会有sdf格式文件的下载选项。 ?
模型中的蛋白质数据库文件 CIF文件:3D模型中的晶体信息文件 Chemical Data Chemical Data包括Information card、Spectroscopy(不是所有的分子都有)和PubChem Information card PubChem source Advanced Search 这些选项允许用户使用结构公式在PubChem数据库中进行一些高级搜索。 目前支持三大数据库: PubChem The RCSB Protein Data Bank The Crystallography Open Database 自定义分子 我们也可以根据前面提到的工具栏自己选择原子和键进行组合
应用 Wolfram 语言,您可以访问 PubChem 数据,对这些特征一探究竟. 2 案例 下面我们用Mathematica比较两个对映体: 首先,连接到 PubChem API. ?
Each drug compound is represented by 881 chemical substructures defned in PubChem database. 基于SMILES的表示方法,由PubChem数据库提出了881个子结构。然后这个分子指纹其实就是881维度的0/1稀疏特征向量。 PSSM-binary 这里有400个特征。
, distribution(分布), metabolism(代谢)和excretion(排出),通过设定两个阈值来对化合物进行筛选OB>=30%,DL>=0.18,最终获得了80个化合物, 接着利用PubChem (https://pubchem.ncbi.nlm.nih.gov/ )数据库获得了每一个化合物的结构,接着每个化合物采用Pharmmapper database 和PubMed database获取相应的靶点信息
bionet.ncpsb.org/batman-tcm/ TCM-PTD http://tcm.zju.edu.cn/ptd/ TCM-MESH http://mesh.tcm.microbioinformatics.org/ PubChem https://pubchem.ncbi.nlm.nih.gov/ HIT http://lifecenter.sgst.cn/hit/ Binding DB http://www.bindingdb.org
紫外光响应分子生成工作流程 如图1所示,研究团队采用了PubChem数据集中的化合物信息对基于GPT-2框架大语言模型进行预训练,旨在生成具有高类药性和合成可及性的分子。 值得注意的是,SMILES表达式为OC1CC1OC(C)C分子展现了最高程度的类药性,但它并不存在于PubChem数据库中,而PubChem中有一种化合物((1S,2S)-2-methylcyclopropan
这些集成的机器学习模型已集成到一个用户友好的Web门户中,该门户允许使用三种不同格式进行输入:(1) 药品名称,既可以是国际非专有名称也可以是商品名; (2)PubChem化合物ID号 (PubChem
这些负向DTI候选者来源于BindingDB、ChEMBL、GtoPdb、PubChem和TTD。 其中,Pubchem是最大的数据提供者,占药物的13.61%,靶点的91.95%和药物-靶点相互作用的31.08%。 Para_02 所有数据都进行了标准化:药物统一用PubChem CID和名称标注,基因用HGNC符号标注,而RNA和通路保留了其原始数据库特定标识符和命名法,以确保跨源一致性。 所有表格共享PUBCHEM_CID作为通用药物标识符,并包括标准化的注释模式(补充表S1),能够系统地整合多组学数据并支持从药物重定位到可解释目标发现的应用。 Para_03 为了确保数据集中标识符的一致性和完整性,所有药物、基因、RNA和通路名称均已使用广泛接受的标识符(例如PubChem CID、Ensemble ID、HGNC ID)进行了标准化。
对于每个终点获得的训练集和测试集都进行了使用t-分布随机邻域嵌入(t-SNE)算法的维度降低处理,该算法应用于编码为PubChem FPs的化合物。 具体来说,计算了Morgan、RDKit和PubChem的化学指纹(FPs)。 Morgan和RDKit的FPs是使用RDKit python库生成的,而PubChem的FPs是使用PyBioMedpython模块计算的。 如图所示,基于PubChem、RDKit和Morgan指纹的模型获得的MCC中位排名显著高于其他两组模型。 特别地,分布显示大约75%的基于PubChem、RDKit和Morgan指纹的模型在MCC方面的排名不低于11,而大约75%的基于LINGO和Pharm2D指纹的模型排名高于13;因此,基于PubChem