Sheraz Gul和Alp Sahin概述了一种可加速表观遗传学药物发现的AI方法。 ? 人工智能(AI)正在推动药物发现。其应用的一个目标是将药物发现的临床前阶段从通常的五年缩短到不到一年。 这将涉及设计具有优良的物理化学、ADMET,药代动力学和药效学性质以及新知识产权的化合物。设计的化合物应适合于体内研究,并且必须利用靶标的所有可用知识。本文涉及该方法在加速表观遗传药物发现中的应用。 在表观遗传学药物靶标类别中,主要分为三类:writers, readers and erasers。writers通过添加包括乙酰基、磷酰基和甲基在内的化学基团来“标记”组蛋白和DNA。 2 确定药物靶标的优先次序 根据文献和数据库确定药物靶标的优先级,重点是:a)现有批准的药物(DrugBank),b)临床试验中的药物,c)结构信息和d)可药物治疗性。 亿万亿级人工智能的应用(即超级计算机实现的速率)将允许a)准备化学可访问化合物的虚拟库,以增加项目技术成功的可能性,b)通过结构并行对接至定义的靶标对象信息,以及偏离靶标的信息;以及c)由AI驱动的结果分析和新型化合物设计
在药物研发的早期阶段,药物化学研究的质量与效率往往决定着整个项目的推进节奏。对于科研人员而言,如何在化合物发现、优化到临床前候选化合物确定的全流程中提升效能,是绕不开的核心课题。 早期研发关键环节的实操要点早期药物化学研究涉及多个紧密衔接的环节,每个环节的技术选择与执行细节都至关重要。在活性化合物发现阶段,高通量筛选技术与基于结构的设计方法的结合已成为主流。 在药物研发的漫长进程中,每个环节的细微优化都可能带来质的飞跃。以上实践经验或许能为科研人员提供一些参考,让早期药物化学研究在高效与规范的轨道上稳步前行。
(2)模型仅仅是依赖有标签数据进行预测,不能很好地将模型泛化到新药或者DDI中(3)模型的参数多,难以提供可解释性。 针对这些局限性,近期哈佛大学的Kexin Huang等人提出了CASTER(ChemicAl SubstrucTurE Representation)模型,根据给定药物化学结构预测DDI,并且能对预测提供可解释性 方法 CASTER通过三个模块很好地缓解之前计算模型的局限性:(1)基于DDI机制的序列模式挖掘模块,有效地描述药物的功能子结构(2)自编码模块 ,利用标签数据和无标签的化学结构数据来提高模型的准确性和通用性 训练过程 使用无标签的药物-药物和药物-食物对来对自编码模块和字典学习模块进行预训练,编码器可以学习任意化学结构的最有效的表示。 使用有标签的数据集微调DDI预测的整个学习流水线。 结论 本文在药物相互作用的化学机制的启发下,提出了一个新的DDI预测计算框架CASTER,它是一个端到端的字典学习框架,包含了DDI预测的具体表示。
定理2: 对于任意的段落式REINFORCE算法, ? 和 ? 的内积是非负的, 更进一步, 如果 ? , 那么当仅当 ? , 内积才为0, 如果 ? 是和 ? 独立的话, 有 ? 和反向传播的兼容性 当我们使用强化算法的时候, 会忽略掉所有单元之间连接的信息, 作为有监督学习的算法, 反向传播就完全利用了这样的信息, 注意到我们的强化学习是针对目标函数和环境的, 所以不像有监督的学习那样 , 但是我们可以将反向传播和我们的强化学习结合起来. 7.1 使用确定性的隐藏单元的网络 考虑一个前馈的网络, 拥有确定的隐藏单元, 使用随机的输出单元, 使用这样的一个网络对于强化学习系统是有意义的,
李仲深 论文题目 Chemspace Atlas: Multiscale Chemography of Ultralarge Libraries for Drug Discovery 论文摘要 如今,药物的发现不可避免地要使用包含大量化合物的数据库 了解它们的化学组成和物理化学性质对于靶点识别至关重要。高效的多功能工具可以对不断增长的化学库进行多方面分析,但它们必须配合大量数据使用。 在这里,作者公开了可以免费访问的Chemspace Atlas,其中包括近4万个分层次的生成式拓扑映射(GTM),可容纳多达5亿的化合物,包括类片段、类先导化合物、类药物、类PPI和类NP的化学子空间。 大约有20种物理化学性质和近750种生物活性可被可视化,支持活性图谱分析和模拟搜索。此外,Chemspace Atlas以后将扩展新的化学子空间(如DNA编码文库和合成子)和官能团。 论文链接 https://pubs.acs.org/doi/10.1021/acs.jcim.2c00509 数据库链接 https://chematlas.chimie.unistra.fr
编·译作者 | 王建民 深度学习在计算化学和材料信息学领域兴起,深度学习可以有效地应用于化学结构及其性能之间的关系建模。随着化学和材料数据的增长,深度学习模型可以开始优于传统的机器学习技术。 本文最近发表在《Journal of Chemical Information and Modeling》用于计算化学和药物设计的深度学习工具包OpenChem,一个基于PyTorch的深度学习工具包, 用于计算化学和药物设计。 OpenChem是具有PyTorch后端的用于计算化学和药物设计的深度学习工具包。 OpenChem引入了几种模型类型:Feature2Label,Smiles2Label,Graph2Label,SiameseModel,GenerativeRNN和MolecularRNN。
仍旧是玩平衡杆游戏,不过这次用了更为强大的PPO2,看完之后不经感叹里面的思想真的是太奇妙了!相较于朴素的策略网络,多了好多新的trick,不敢想象发明这个算法的人是有多聪明。 代码参考自龙良曲的tensorflow2开源书籍。 env.seed(2222) tf.random.set_seed(2222) np.random.seed(2222) os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' __version__.startswith('2.') PPO2则没有计算KL散度,而用了clip裁剪的方法做到了同样的事。
本文将深入解析该研究的核心方法,揭示如何通过分子网络与优化子解码,让药物优化逻辑从模糊走向清晰。 一、研究方法:从分子网络到优化子的解码工具 1. 2. • 外部数据集:整合Hopkins(分子对)、Brown(Hit-DC对)、Perola(Lead-药物对)公开数据,验证LLE、MC等趋势的普适性。 2. 优化子轨迹追踪 • 外围优先策略:CSF1R项目中,外围优化子O1、O3的修饰频率早期显著高于核心O2,呈现“从外围到核心”的“outside-in”优化轨迹。 这些方法不仅适用于药物研发,还可拓展至催化剂、功能材料等领域的优化场景。
王建民 韩国蔚山科学技术学院化学系的Bartosz A. 化学工业继续产生大量的废弃化学品,开发 "循环化学 "方法,将这些不受欢迎的材料中的至少一部分有成效地转化为有价值的产品是至关重要的。 人类化学家可能没有能力追踪所有这些合成,并选择那些也符合工艺和 "绿色 "化学标准的合成。 Grzybowski教授和他的研究团队说明了具有广泛合成知识的计算机如何帮助解决这个问题。 研究人员使用前向合成Allchemy平台,从商业规模回收的约200种废弃化学品中创建了大规模的合成网络。 然后,他们从这些网络中收集了数万条通往约300种初级药物和农用化学品的路线,并根据标准的可持续化学指标对这些合成进行算法分级。
基于表型的药物筛选方法关注化学分子在细胞、组织、整体动物水平上的响应,可以提供对疾病机制的全面理解,在药物研发中发挥重要作用。 化学微扰转录组能够提供对药物作用机制更全面的理解,但数据中固有噪声往往掩盖了真正的扰动信号,从中提取有意义的信息具有挑战性,阻碍了化学微扰转录组在药物筛选中的应用。 该模型从细胞基因表达和分子结构以高精度预测化学微扰转录组,相应的微扰表征在基于配体的虚拟筛选、药物响应预测和基于表型的药物重定向等下游任务中展现出有效性。 结果与讨论 1、TranSiGen可以有效表征转录谱 本节评估了TranSiGen在学习本底谱X1,化学微扰转录谱X2以及对应的差异基因表达ΔX方面的表现。 下游任务2:药物响应预测 化学微扰转录谱将分子特征与特定的细胞效应相关联,有利于表征不同细胞的药物响应。本节应用TranSiGen表征来预测化合物在特定细胞系上的剂量反应曲线下面积(AUC)。
生成式药物设计有助于创造出有效对抗致病靶蛋白的化合物。这为在广阔的化学空间中发现新型化合物提供了可能,并促进了创新治疗策略的开发。 研究人员用三个模块实现了TamGen:(1) 化合物解码器,这是一个类似于GPT的化学语言模型,也是TamGen的核心组件,为在化学空间生成化合物奠定了基础;(2) 蛋白质编码器,这是一个基于Transformer 而生成式药物设计则可以探索广阔的化学空间,估计这个空间包含超过10的60次方个潜在化合物。 这种方法有望发现一些未被充分研究的化合物类别,以及不在现有库中的新型化合物。 图3 结核病药物生成的 “设计-定义-测试 ”流程图 为加速验证并提升测试效率,研究人员从商业库筛选出159个与TamGen生成化合物相似的市售化合物,其中5个在ClpP1P2肽酶活性实验中显著抑制,且 TamGen是一种高效的人工智能化合物生成方法,能加速药物发现过程并探索更广阔的化学空间。其成功源于三大因素:预训练模型提供的化学知识、有效的结合口袋表示法,以及基于变异自动编码器的上下文解码器。
传统AI模型往往将活性悬崖化合物视为统计异常值,而未能充分利用其在药物设计中的关键价值。 针对这一问题,作者提出了活性悬崖感知强化学习框架(ACARL),首次将活性悬崖现象显式整合到AI驱动的分子生成过程中。 实验表明,ACARL在多个靶点蛋白的分子生成任务中显著优于现有方法,为药物发现提供了更精准的设计工具。 背景与挑战 基于AI的全新药物设计通过生成具有特定生物活性的分子,加速了传统药物开发流程。 活性悬崖示例 方法创新 ACARL通过两项核心技术解决了上述问题: 活性悬崖指数(ACI):定量衡量分子对的SAR不连续性,结合Tanimoto距离和活性差异(如结合亲和力),动态识别活性悬崖化合物; 对比强化学习损失函数 图 2 ACARL算法流程 实验结果 ACARL在三个靶点蛋白(5HT1B、5HT2B、ACM2)的测试中表现卓越: 结合亲和力:Top-1和Top-100平均对接评分均优于Reinvent、JT-VAE
torcs赛车游戏用强化学习进行训练的效果: 最难赛道AI可以跑完一圈; 简单赛道AI可以一次跑完20圈。
G值,从t时刻起,包括了未来,计算了折扣的总奖励: \[ G_{t}=R_{t+1}+\gamma R_{t+2}+\ldots=\sum_{k=0}^{\infty} \gamma^{k} R_{
计算分子的MP2/cc-pVTZ能量,并在BDF(ORCA)中产生MP2的自然轨道。用软件绘制π轨道和孤对电子轨道。如果无法得到具有孤对轨道特征的轨道,则使用局域HF轨道(Boys 或者PM均可)。 【小编注:HF优化结构仅为练习使用,实际计算中一般用DFT方法】 (2) 产生MP2 自然轨道的输入文件如下。 ① BDF的输入文件: $compass title c2h5n mp2 basis cc-pvtz geometry file=c2h5n.xyz end geometry saorb nosymm MP2时要写入Density和NatOrbs关键词。 由于MP2波函数不是变分的,两种密度是有差别的。弛豫密度考虑了轨道响应,一般用于计算MP2偶极矩、解析导数等。但若将这种密度用于生成自然轨道,会出现轨道占据数超出[0,2]的无物理意义情形。
前不久,来自北卡罗来纳大学埃谢尔曼药学院的一个团队创造了一种人工智能方法 ReLeaSE,能够从零开始自学设计新型药物分子。近日,该研究已被发表在 Science Advances 上。 ? 该模型的参数使用 l2 平方损失函数最小化进行训练。Credit: Science Advances (2018). 这有望大幅加快新型药物的研发速度。 ReLeaSE 是一种强大的药物虚拟筛选工具,这种计算方法已经被制药业广泛用于确定可用的候选药物。虚拟筛选让科学家可以评估现有的大型化学库,但该方法只对已知的化学物质有效。 在该概念验证研究中,我们使用ReLeaSE方法设计化学库,该化学库偏向于结构复杂性,偏向于具有最大、最小或特定物理属性范围的化合物,如熔点或疏水性,或者偏向于对Janus蛋白激酶2具有抑制活性的化合物。
药物化学和制药行业以外的人可能不知道,新药研发项目中,每天都会有新产物被制造出来,其目的是发现能够治疗或治愈疾病的新化学实体。 目前,在不断扩大的药物化学合成工具箱中,有几百种不同类型的反应可供选择。 两者,一个序列到序列(seq-2-seq),以及双向编码器表示从Transformers(BERT)模型能够预测和分类化学反应类。 但神经网络需要大量的训练数据才能可靠地工作。 同时,这些指纹在反应分类中的表现优于参考指纹2倍,可以用于有效地搜索和寻找名称反应空间中的类似反应类型。作者利用这一点创建了一个交互式的反应图谱,实现了化学反应的可视化聚类,目的是使其更具可解释性。 未来,药物化学家需要同时精通计算机辅助分子设计和化学合成。 ? 人工智能和机器学习有望在药物发现中发挥关键作用,但也存在一些开放的挑战。当前深度学习方法的一个关键问题是它们需要大量的数据来学习。
Video-lectures available here Lecture 1: Introduction to Reinforcement Learning Lecture 2: Markov Decision
作者在之前的一项研究中提出了一种名为DrugEx的药物分子生成方法,将探索策略集成到基于RNN的强化学习中,以提高生成分子的多样性。 在该研究中,作者通过将源自进化算法的交叉和变异操作添加到强化学习框架中,将DrugEx更新到第二版 (v2)。为了评估该模型的性能,作者在多靶标和特定靶标案例研究中验证了DrugEx v2。 强化学习 对生成器进行预训练后,强化学习(RL)训练流程分为四步(如图1):(1)根据生成器计算出的概率,通过逐步采样标记生成一批SMILES;(2)有效的SMILES被解析为分子并编码为描述符,以得到预测的 与WS方案相比,DrugEx v2 使用 PF 方案显着提高了化学空间覆盖率。 此外,帕累托排序算法也被集成到模型中,以处理药物发现中常见的矛盾目标,并扩大化学多样性。为了证明有效性,作者测试了DrugEx v2在多靶标和特定靶标情况下的性能。
我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。