首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DrugScience

    PubChem-简介

    web:https://pubchem.ncbi.nlm.nih.gov/ PubChem是美国国立卫生研究院(NIH)的开放化学数据库。 “开放”意味着您可以将科学数据存储在PubChem中,其他人也可以使用它。自2004年启动以来,PubChem已成为科学家,学生和公众的重要化学信息资源。 PubChem中的数据来自哪里?PubChem记录由数百个数据源提供。示例包括:政府机构,化学品供应商,期刊出版商等等。 PubChem中的数据量正在不断增长,请访问PubChem统计页面以了解最新的数据计数。 PubChem 统计数据 ? 批量下载(Bulk Download): PubChem FTP site:ftp://ftp.ncbi.nlm.nih.gov/pubchem PubChem Structure Download

    3.4K20发布于 2021-02-04
  • 来自专栏DrugScience

    PubChem使用-Python

    看一个好东西,pubchem,业界很有名的分子数据库。 有很多分子数据可以从上面下载, ? 主页:https://pubchem.ncbi.nlm.nih.gov/ 基本上输入分子就可以查询信息,还有2d,3d结构文件可以下载。 今天不说使用,其实你自己上手看看就应该会的。 看一个pubchem的python 包 官网信息:https://pubchempy.readthedocs.io/en/latest/ #安装: pip install pubchempy conda jupyter-notebook 文件在这里: https://github.com/luskyqi1995/pubchem/blob/master/pubchem.ipynb 小tip: https ://pubchem.ncbi.nlm.nih.gov/compound/57-27-2 等于 https://pubchem.ncbi.nlm.nih.gov/compound/5288826 ---

    2.1K20发布于 2021-02-04
  • 来自专栏Tom

    使用python爬取pubchem药物分子数据

    pubchem数据库,就不过多介绍了。 今天在使用这个网站的时候,发现了这个网站的REST接口,我们就来看一下: pubchem提供了一个接口叫做 PUG REST Tutorial 本文档的目的是解释 PubChem 的 PUG REST PUG 是 Power User Gateway (强力用户网关)的缩写,它包括多种编程访问 PubChem 数据和服务的方法。 PUG REST 的基本单位是 PubChem 标识符,它有三种类型:SID(物质)、 CID(化合物)和 AID(检测)。 你可以将这两者结合到一个 SMILES 字符串的可视化 请求中 在这种情况下,无论该特定化学物质是否存在于 PubChem 数据库中 !

    1.9K10编辑于 2024-01-26
  • 来自专栏专利数据库

    有机小分子生物活性数据(Pubchem)

    PubChem,即有机小分子生物活性数据,是一种化学模组的数据库,由美国国家健康研究院( US National Institutes of Health,NIH)支持,美国国家生物技术信息中心负责维护 PubChem数据库包括 3个子数据库: PubChem BioAssay 库用于存储生化实验数据,实验数据主要来自高通量筛选实验和科技文献; PubChem Compound 库用于存储整理后的化合物化学结构信息 ; PubChem Substance 用于存储机构和个人上传的化合物原始数据 提供2D Structure,3D Conformer,SDF,ASNT,JSON,XML格式原始数据下载 包含 InChIInChI Count 旋转键计数 Rotatable Bond Count 子密钥 Subs key 坐标类型 Coordinate Type 键注释 Bond Annotations http://www.pubchem.cn

    2.8K50发布于 2019-08-22
  • 来自专栏DrugScience

    Python每日一谈|No.34.实例.14-爬去PubChem

    1:Pubchem简介 PubChem,即有机小分子生物活性数据,是一种化学模组的[数据库],由美国国家健康研究院( US National Institutes of Health,NIH)支持,[美国国家生物技术信息中心 目的:主要是想通过手中的小分子(药物)的CAS编号,从PubChem上爬取其相关的信息。首要是先把PubChem的CID编号爬取下来,PubChem并没有向SDF文件中添加CAS编号相关信息。 webdriver webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器,这里以Edge为例 browser = webdriver.Edge() 添加网址,PubChem url='https://pubchem.ncbi.nlm.nih.gov/search/#query=cas' 创建关于CAS以及CID的列表,请求头导入 CASid=[] CIDid=[] ua

    2.1K10发布于 2021-04-23
  • 来自专栏DrugOne

    开源化学信息学库 :ScaffoldGraph

    __file__).replace('scaffoldgraph', 'examples/example.sdf') # Example SDF file (200 PubChem compounds) Found {} molecules containing scaffold, {}\n'.format(len(molecules), query_smiles)) # Molecules are PubChem = random.choice(list(tree.get_molecule_nodes())) print('PubChem ID:', random_pubchem_id) predecessors = nx.bfs_tree(tree, random_pubchem_id, reverse=True) # We can validate that one molecules scaffold set forms a tree structure print('Predecessors of {} is Tree: {}'.format(random_pubchem_id, nx.is_tree

    96740发布于 2021-02-01
  • 来自专栏DrugScience

    爬取PubmedChem的信息

    1:Pubchem简介 PubChem,即有机小分子生物活性数据,是一种化学模组的[数据库],由美国国家健康研究院( US National Institutes of Health,NIH)支持,[美国国家生物技术信息中心 目的: 主要是想通过手中的小分子(药物)的CAS编号,从PubChem上爬取其相关的信息。 首要是先把PubChem的CID编号爬取下来,PubChem并没有向SDF文件中添加CAS编号相关信息。 webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器,这里以Edge为例 browser = webdriver.Edge() ########添加网址,PubChem url='https://pubchem.ncbi.nlm.nih.gov/search/#query=cas' ########创建关于CAS以及CID的列表,请求头导入 CASid=[] CIDid

    1.7K20发布于 2021-02-04
  • 三行代码搞定AutoDock Vina批量分子对接

    创建输出文件 mkdir -p Ligands Receptors DockResult logs 在运行前,需要准备两个文件(格式示例如下): Ligand.list:配体ID列表(第一列名称,第二列PubChem 第1行:批量下载配体(PubChem) 从PubChem数据库批量下载配体的SDF文件,存到Ligands文件夹: cut -f2 Ligand.list | xargs -P5 -I {} -n1 python get_pubchem.py --cid {} --output Ligands/{}.sdf 解析: cut -f2 Ligand.list:提取列表中第二列的PubChem CID(配体唯一标识) ; `xargs -P5:用5个进程并行下载,加速获取; get_pubchem.py:辅助脚本(功能是调用PubChem API下载SDF格式配体)。 Protein PDB Affinity PubChem Mode CNN_PoseScore CNN_Affinity A 7LL4 -16.69515 128964461 6

    1.7K11编辑于 2025-08-14
  • 来自专栏DrugOne

    J. Phys. Chem. C | 基于自然语言处理的材料化学文本数据库

    作者主要使用公开可用的arXiv和PubChem数据集,但这些工具也可以用于其他数据集。此外,随着新模型的开发,它们可以轻松集成到该库中。 估计在网络上可获得的学术文章数量超过1亿篇。 数据来源 作者主要使用了两个开放获取的数据集:arXiv和PubChem。arXiv是由康奈尔大学维护和运营的一个合作资助、社区支持的资源。 需要注意的是,arXiv/PubChem文章在同行评审流程之后经常会进行更新,使用相应的版本控制过程,这可能会影响AI模型的应用。 接下来,在图4b中展示了PubChem数据集的t-SNE图。与cond-mat文章类似,t-SNE也可以将PubChem数据集中不同类别的文章进行聚类。这些图表表明文章数据分布良好。 作者将分类模型应用于arXiv:cond-mat和PubChem数据集,将文本转化为数字向量,使用词袋模型和TF-IDF。

    1.1K30编辑于 2023-11-06
  • 来自专栏生物信息云

    分子对接教程 | (3) 配体分子文件格式转换

    ZINC(http://zinc.docking.org/),这里就不介绍了,你要是能从上面的数据库下载到你配体小分子的mol2格式文件,就直接用,如果不能,那就是去PubChem数据库(https:/ /pubchem.ncbi.nlm.nih.gov/)下载sdf文件,然后进行转换,这也是我这里要介绍的。 首先在PubChem数据库检索你的化合物,进入相应的页面,3D Conformer处点击下载,会有sdf格式文件的下载选项。 ?

    11.2K20发布于 2021-02-26
  • 来自专栏小汪Waud

    让化学分子动起来——MolView

    模型中的蛋白质数据库文件 CIF文件:3D模型中的晶体信息文件 Chemical Data Chemical Data包括Information card、Spectroscopy(不是所有的分子都有)和PubChem Information card PubChem source Advanced Search 这些选项允许用户使用结构公式在PubChem数据库中进行一些高级搜索。 目前支持三大数据库: PubChem The RCSB Protein Data Bank The Crystallography Open Database 自定义分子 我们也可以根据前面提到的工具栏自己选择原子和键进行组合

    6K30编辑于 2023-02-16
  • 来自专栏WOLFRAM

    Mathematica 11 在化学中的应用

    应用 Wolfram 语言,您可以访问 PubChem 数据,对这些特征一探究竟. 2 案例 下面我们用Mathematica比较两个对映体: 首先,连接到 PubChem API. ?

    87260发布于 2018-05-31
  • 来自专栏DrugScience

    Rdkit与Pandas连用处理CSV文件

    Groups', 'InChIKey', 'InChI', 'SMILES', 'Formula', 'KEGG Compound ID', 'KEGG Drug ID', 'PubChem Compound ID', 'PubChem Substance ID', 'ChEBI ID', 'ChEMBL ID', 'HET ID', 'ChemSpider ID', 'BindingDB Groups', 'InChIKey', 'InChI', 'SMILES', 'Formula', 'KEGG Compound ID', 'KEGG Drug ID', 'PubChem Compound ID', 'PubChem Substance ID', 'ChEBI ID', 'ChEMBL ID', 'HET ID', 'ChemSpider ID', 'BindingDB

    1.7K20发布于 2021-02-04
  • 来自专栏机器学习炼丹术

    DTI特征工程 | iDTI-ESBoost | 2017 | REP

    Each drug compound is represented by 881 chemical substructures defned in PubChem database. 基于SMILES的表示方法,由PubChem数据库提出了881个子结构。然后这个分子指纹其实就是881维度的0/1稀疏特征向量。 PSSM-binary 这里有400个特征。

    39220编辑于 2022-03-15
  • 来自专栏百味科研芝士

    【文献解读】3分+网络药理学文献套路

    , distribution(分布), metabolism(代谢)和excretion(排出),通过设定两个阈值来对化合物进行筛选OB>=30%,DL>=0.18,最终获得了80个化合物, 接着利用PubChem (https://pubchem.ncbi.nlm.nih.gov/ )数据库获得了每一个化合物的结构,接着每个化合物采用Pharmmapper database 和PubMed database获取相应的靶点信息

    5.2K30发布于 2019-10-28
  • 来自专栏聊点学术

    网络药理学网站大全

    bionet.ncpsb.org/batman-tcm/ TCM-PTD http://tcm.zju.edu.cn/ptd/ TCM-MESH http://mesh.tcm.microbioinformatics.org/ PubChem https://pubchem.ncbi.nlm.nih.gov/ HIT http://lifecenter.sgst.cn/hit/ Binding DB http://www.bindingdb.org

    5.5K32发布于 2020-07-21
  • 来自专栏DrugOne

    AI大模型助力智能化药物递送研发

    紫外光响应分子生成工作流程 如图1所示,研究团队采用了PubChem数据集中的化合物信息对基于GPT-2框架大语言模型进行预训练,旨在生成具有高类药性和合成可及性的分子。 值得注意的是,SMILES表达式为OC1CC1OC(C)C分子展现了最高程度的类药性,但它并不存在于PubChem数据库中,而PubChem中有一种化合物((1S,2S)-2-methylcyclopropan

    54710编辑于 2024-03-18
  • 来自专栏智能生信

    Nat.Mach.Intell |一个评估抗SARS-CoV-2活性的机器学习平台

    这些集成的机器学习模型已集成到一个用户友好的Web门户中,该门户允许使用三种不同格式进行输入:(1) 药品名称,既可以是国际非专有名称也可以是商品名; (2)PubChem化合物ID号 (PubChem

    55420发布于 2021-05-17
  • 来自专栏生信菜鸟团

    数据资源 | HCDT 2.0:一个高度可信的药物-靶标数据库,包含实验验证的基因、RNA 和通路

    这些负向DTI候选者来源于BindingDB、ChEMBL、GtoPdb、PubChem和TTD。 其中,Pubchem是最大的数据提供者,占药物的13.61%,靶点的91.95%和药物-靶点相互作用的31.08%。 Para_02 所有数据都进行了标准化:药物统一用PubChem CID和名称标注,基因用HGNC符号标注,而RNA和通路保留了其原始数据库特定标识符和命名法,以确保跨源一致性。 所有表格共享PUBCHEM_CID作为通用药物标识符,并包括标准化的注释模式(补充表S1),能够系统地整合多组学数据并支持从药物重定位到可解释目标发现的应用。 Para_03 为了确保数据集中标识符的一致性和完整性,所有药物、基因、RNA和通路名称均已使用广泛接受的标识符(例如PubChem CID、Ensemble ID、HGNC ID)进行了标准化。

    76010编辑于 2025-06-20
  • 来自专栏智药邦

    慕尼黑工业大学提出TwinBooster模型,结合自监督学习和大语言模型预测分子性质

    这种方法的主要优点是,它允许使用公共数据库(例如PubChem)中存在的丰富语料预训练大语言模型,然后微调模型来生成对新分子和分析的预测。 (2)一个大语言模型,在本研究中使用了DeBERTA LLM架构对PubChem的大型生物测定(bioassay)语料库进行了表示学习以及微调。 接着,基于生物测定的LLM文本嵌入获得标题,描述和协议作为每个分子和检测的附加表示,此分析文本信息是从PubChem中检索到的,映射到基于ChemBL的FS-Mol基准。 对于TwinBooster,文本信息使用预训练的PubChemDeBERTa大语言模型在PubChem获得的综合生物测定语料库上微调。

    37110编辑于 2024-07-16
领券