Sheraz Gul和Alp Sahin概述了一种可加速表观遗传学药物发现的AI方法。 ? 人工智能(AI)正在推动药物发现。其应用的一个目标是将药物发现的临床前阶段从通常的五年缩短到不到一年。 这将涉及设计具有优良的物理化学、ADMET,药代动力学和药效学性质以及新知识产权的化合物。设计的化合物应适合于体内研究,并且必须利用靶标的所有可用知识。本文涉及该方法在加速表观遗传药物发现中的应用。 在表观遗传学药物靶标类别中,主要分为三类:writers, readers and erasers。writers通过添加包括乙酰基、磷酰基和甲基在内的化学基团来“标记”组蛋白和DNA。 2 确定药物靶标的优先次序 根据文献和数据库确定药物靶标的优先级,重点是:a)现有批准的药物(DrugBank),b)临床试验中的药物,c)结构信息和d)可药物治疗性。 亿万亿级人工智能的应用(即超级计算机实现的速率)将允许a)准备化学可访问化合物的虚拟库,以增加项目技术成功的可能性,b)通过结构并行对接至定义的靶标对象信息,以及偏离靶标的信息;以及c)由AI驱动的结果分析和新型化合物设计
在药物研发的早期阶段,药物化学研究的质量与效率往往决定着整个项目的推进节奏。对于科研人员而言,如何在化合物发现、优化到临床前候选化合物确定的全流程中提升效能,是绕不开的核心课题。 早期研发关键环节的实操要点早期药物化学研究涉及多个紧密衔接的环节,每个环节的技术选择与执行细节都至关重要。在活性化合物发现阶段,高通量筛选技术与基于结构的设计方法的结合已成为主流。 某项目中,针对化合物的晶型控制难题,攻坚小组在两周内完成了 10 余种溶剂体系的筛选,最终确定了稳定的晶型制备工艺。团队协作与项目管理的优化方向稳定的团队结构是项目顺利推进的基础。 拥有 10 年以上研发经验的核心成员,能在关键节点提供决策支持,同时带动年轻科研人员的成长。这种 “传帮带” 的模式,在保持团队稳定性的同时,也促进了技术经验的传承。 在药物研发的漫长进程中,每个环节的细微优化都可能带来质的飞跃。以上实践经验或许能为科研人员提供一些参考,让早期药物化学研究在高效与规范的轨道上稳步前行。
在19x19围棋中,大约有2.08 x 10^170,而在宇宙中有10^80个原子,而在象棋中有10^120个可能的移动。 因此,玩围棋游戏所需的智力深度已经吸引了人类多年的想象力。 正如我们之前研究的,在19x19围棋中大约有2.08 x 10^170个可能的移动,而宇宙中有10^80个原子和在国际象棋中有10^120个可能的移动。 原因是由于2.08 x 10^170 可能的移动以及因此而难以评估每个可能的棋盘位置的强度,因此搜索空间极其巨大。 因此,传统的蛮力方法在围棋的巨大搜索空间中失败了。 因此,第一个任务是减少搜索空间(围棋的搜索空间大约为10^170)。 2017 年 10 月,Google DeepMind 在 Nature 上发表了有关《AlphaGo Zero》的论文。 AlphaGo Zero 是 AlphaGo 的最新版本。
近日,美国药品价格跟踪网站GoodRx公布了全球10大最贵药物榜单。 同时,整体来看TOP10主要以罕见病药物为主。 Myalept是首个获批用于治疗该罕见疾病的药物,也是控制该病的唯一治疗方法。 在每个阶段,患者需要使用不同数量的药物,但通常每年需要使用约168瓶。 10、Soliris Alexion的Soliris于2007年3月获得FDA批准上市,用于治疗成人和儿童阵发性睡眠性血红蛋白尿症(PNH),随后又被批准用于非典型溶血性尿毒症综合征(aHUS)。
所以,对于药物相互作用的预测研究是有重要意义的,不仅能够减少非预期药物相互作用的情况,还能降低药物开发成本,以及优化药物设计过程。 针对这些局限性,近期哈佛大学的Kexin Huang等人提出了CASTER(ChemicAl SubstrucTurE Representation)模型,根据给定药物化学结构预测DDI,并且能对预测提供可解释性 方法 CASTER通过三个模块很好地缓解之前计算模型的局限性:(1)基于DDI机制的序列模式挖掘模块,有效地描述药物的功能子结构(2)自编码模块 ,利用标签数据和无标签的化学结构数据来提高模型的准确性和通用性 训练过程 使用无标签的药物-药物和药物-食物对来对自编码模块和字典学习模块进行预训练,编码器可以学习任意化学结构的最有效的表示。 使用有标签的数据集微调DDI预测的整个学习流水线。 结论 本文在药物相互作用的化学机制的启发下,提出了一个新的DDI预测计算框架CASTER,它是一个端到端的字典学习框架,包含了DDI预测的具体表示。
李仲深 论文题目 Chemspace Atlas: Multiscale Chemography of Ultralarge Libraries for Drug Discovery 论文摘要 如今,药物的发现不可避免地要使用包含大量化合物的数据库 了解它们的化学组成和物理化学性质对于靶点识别至关重要。高效的多功能工具可以对不断增长的化学库进行多方面分析,但它们必须配合大量数据使用。 在这里,作者公开了可以免费访问的Chemspace Atlas,其中包括近4万个分层次的生成式拓扑映射(GTM),可容纳多达5亿的化合物,包括类片段、类先导化合物、类药物、类PPI和类NP的化学子空间。 大约有20种物理化学性质和近750种生物活性可被可视化,支持活性图谱分析和模拟搜索。此外,Chemspace Atlas以后将扩展新的化学子空间(如DNA编码文库和合成子)和官能团。
编·译作者 | 王建民 深度学习在计算化学和材料信息学领域兴起,深度学习可以有效地应用于化学结构及其性能之间的关系建模。随着化学和材料数据的增长,深度学习模型可以开始优于传统的机器学习技术。 本文最近发表在《Journal of Chemical Information and Modeling》用于计算化学和药物设计的深度学习工具包OpenChem,一个基于PyTorch的深度学习工具包, 用于计算化学和药物设计。 OpenChem是具有PyTorch后端的用于计算化学和药物设计的深度学习工具包。 OpenChem库的创建是为了使深度学习算法的高性能实现能够用于药物发现和分子建模应用。OpenChem基于PyTorch框架构建,针对在GPU和大数据集上执行进行了优化。
本文将深入解析该研究的核心方法,揭示如何通过分子网络与优化子解码,让药物优化逻辑从模糊走向清晰。 一、研究方法:从分子网络到优化子的解码工具 1. 理论路径:CSF1R项目中,实际优化从Hit到DC需10步匹配分子对(MMP),而理论最短路径(如路径A)仅需5步,提示优化效率存在提升空间。 网络构建与路径分析 • 通过Pipeline Pilot生成MMP网络,发现从Hit(化合物4)到DC(化合物14)的实际路径需10步MMP,而理论路径A经化合物6、12直达DC,仅需5步,缩短50%优化步数 实际路径(黑色,10步)与更短的理论路径A(绿色,5步)的对比。显然,存在一条更为直接的优化“高速公路” 三、方法创新:突破传统优化的三大局限 1. 这些方法不仅适用于药物研发,还可拓展至催化剂、功能材料等领域的优化场景。
王建民 韩国蔚山科学技术学院化学系的Bartosz A. 化学工业继续产生大量的废弃化学品,开发 "循环化学 "方法,将这些不受欢迎的材料中的至少一部分有成效地转化为有价值的产品是至关重要的。 人类化学家可能没有能力追踪所有这些合成,并选择那些也符合工艺和 "绿色 "化学标准的合成。 Grzybowski教授和他的研究团队说明了具有广泛合成知识的计算机如何帮助解决这个问题。 然后,他们从这些网络中收集了数万条通往约300种初级药物和农用化学品的路线,并根据标准的可持续化学指标对这些合成进行算法分级。 同时,这些分析是基于Allchemy收集的大约10,000个通用反应变换,这些反应变换是根据基本的反应机制由专家编码的,包括但不限于在化学工业,特别是制药和农业中发现的可靠反应类型。
基于表型的药物筛选方法关注化学分子在细胞、组织、整体动物水平上的响应,可以提供对疾病机制的全面理解,在药物研发中发挥重要作用。 化学微扰转录组能够提供对药物作用机制更全面的理解,但数据中固有噪声往往掩盖了真正的扰动信号,从中提取有意义的信息具有挑战性,阻碍了化学微扰转录组在药物筛选中的应用。 中国科学院上海药物研究所郑明月课题组提出了基于自监督表征学习的深度生成模型TranSiGen(Transcriptional Signatures Generator),学习化学微扰转录组表征用于药物表型筛选 该模型从细胞基因表达和分子结构以高精度预测化学微扰转录组,相应的微扰表征在基于配体的虚拟筛选、药物响应预测和基于表型的药物重定向等下游任务中展现出有效性。 下游任务3:基于表型的药物重定向 将化学微扰转录谱与疾病联系起来有助于识别治疗特定疾病的潜在化合物。本节中将TranSiGen整合到基于表型的药物重定向流程,用于筛选治疗胰腺癌的候选化合物。
生成式药物设计有助于创造出有效对抗致病靶蛋白的化合物。这为在广阔的化学空间中发现新型化合物提供了可能,并促进了创新治疗策略的开发。 2024年10月29日,相关研究发表在Nature Communications上,题为TamGen: drug design with target-aware molecule generation 传统筛选方法,如高通量筛选、虚拟筛选,以及最新的基于深度学习的筛选,通常从包含10,000到1亿个分子的化合物库中寻找候选药物。 而生成式药物设计则可以探索广阔的化学空间,估计这个空间包含超过10的60次方个潜在化合物。 这种方法有望发现一些未被充分研究的化合物类别,以及不在现有库中的新型化合物。 TamGen是一种高效的人工智能化合物生成方法,能加速药物发现过程并探索更广阔的化学空间。其成功源于三大因素:预训练模型提供的化学知识、有效的结合口袋表示法,以及基于变异自动编码器的上下文解码器。
10种简单的Java性能优化学习 你是否正打算优化hashCode()方法?是否想要绕开正则表达式?Lukas Eder介绍了很多简单方便的性能优化小贴士以及扩展程序性能的技巧。 扩展的不同方面 全网域被炒作的最多的是扩展负载(Scaling load),比如支持单个用户访问的系统也可以支持10 个、100个、甚至100万个用户访问。 但至少泛型在Java 10或者Valhalla项目中被专门化之前,不应该成为代码的限制。 我在以前的博客中已经对这一点进行了说明,请参考10个精妙的Java编码最佳实践。 在我们对以上几种情况的比较结束后,应该能得出部分结论。 10、考虑使用set而并非单个元素 最后,还有一种情况可以适用于所有语言而并非仅仅同Java有关。除此以外,我们以前研究的N.O.P.E.
传统AI模型往往将活性悬崖化合物视为统计异常值,而未能充分利用其在药物设计中的关键价值。 针对这一问题,作者提出了活性悬崖感知强化学习框架(ACARL),首次将活性悬崖现象显式整合到AI驱动的分子生成过程中。 实验表明,ACARL在多个靶点蛋白的分子生成任务中显著优于现有方法,为药物发现提供了更精准的设计工具。 背景与挑战 基于AI的全新药物设计通过生成具有特定生物活性的分子,加速了传统药物开发流程。 活性悬崖示例 方法创新 ACARL通过两项核心技术解决了上述问题: 活性悬崖指数(ACI):定量衡量分子对的SAR不连续性,结合Tanimoto距离和活性差异(如结合亲和力),动态识别活性悬崖化合物; 对比强化学习损失函数 ; 灵活性:支持单目标(如结合亲和力)和多目标(如结合亲和力+QED+SA)优化,适配真实药物设计需求。
▷ 强化学习解读视频 本期 Arxiv Insights 将重点介绍机器学习中的子领域“强化学习”,也是机器人最具智能前景的方向之一。 强化学习让智能体更聪明 想训练一个AlphaGo Zero,能够击败世界顶级选手?从理论上,不能运用监督学习。那么,有什么方法可以让智能体主动来玩游戏?这时候强化学习就有用了。 实际上,强化学习的框架与监督学习框架非常相似,仍旧有输入帧,并通过神经网络模型运行模型,输出各种人类操作。 在强化学习中,将输入帧转换为输出动作的网络,被称为策略网络。一个最简单的训练策略网络的方法,被称为策略梯度。 用强化学习教智能体玩游戏 这个例子中的网络,可以是一个全连接网络,但你可以在这里运用卷积,现在你的网络会输出两个数字向上和向下的概率。
前不久,来自北卡罗来纳大学埃谢尔曼药学院的一个团队创造了一种人工智能方法 ReLeaSE,能够从零开始自学设计新型药物分子。近日,该研究已被发表在 Science Advances 上。 ? DOI: 10.1126/sciadv.aap7885 北卡罗来纳大学埃谢尔曼药学院(UNC Eshelman School of Pharmacy)创造的人工智能方法能够从零开始自学设计新型药物分子, 这有望大幅加快新型药物的研发速度。 ReLeaSE 是一种强大的药物虚拟筛选工具,这种计算方法已经被制药业广泛用于确定可用的候选药物。虚拟筛选让科学家可以评估现有的大型化学库,但该方法只对已知的化学物质有效。 基于深度学习和强化学习方法,ReLeaSE集成了两个深度神经网络——生成和预测神经网络,这两个神经网络被单独训练,但都用于生成新的目标化学库。
药物化学和制药行业以外的人可能不知道,新药研发项目中,每天都会有新产物被制造出来,其目的是发现能够治疗或治愈疾病的新化学实体。 目前,在不断扩大的药物化学合成工具箱中,有几百种不同类型的反应可供选择。 开发这样的工具是一个值得称道的举措,因为接受过有机合成和计算方法培训的化学家的工作描述正在合并到未来药物化学家的定义中。这种合并的过程在过去是有些不平衡的。 虽然有机化学家已经被提供了大量的分子设计工具,但帮助计算化学家进行合成化学的工具较少。为了影响药物化学实验室合成哪些分子,计算化学家需要学会与有机化学家说同一种语言。 未来,药物化学家需要同时精通计算机辅助分子设计和化学合成。 ? 人工智能和机器学习有望在药物发现中发挥关键作用,但也存在一些开放的挑战。当前深度学习方法的一个关键问题是它们需要大量的数据来学习。
单agent 自驱动 强化学习 最佳响应 是 单代理RL问题的解决方案 其他玩家 变成环境的一部分 将游戏 抽象为MDP 最佳策略是 最佳响应 纳什平衡点 在 自学习RL问题中是 不动点 学习的经验是 四象限 搜索 Search 高性能平行字母搜索 逆向搜索 从赢的位置从后向前搜索 存储所有决胜点位置在 lookup 表中 在最后n步,表现完美 结果 Results 击败了世界冠军 4、自驱动强化学习 5、联合强化学习和最大化搜索 简单 TD Simple TD TD:向继承者的方向更新价值函数 ? 二进制价值函数 MC policy iteration 搜索 价值函数, 搜索n步 使用学到的价值函数评价 当前状态 x 选择高分动作 特定的endgame 用\(B^*\) 6、在非完整信息中的强化学习
action(如向前走和跳起来的动作);无人驾驶的action就是车左转、右转或刹车等等,它无时无刻都在与环境产生交互,action会反馈给环境,进而改变环境,如果自动驾驶的车行驶目标是100米,它向前开了10 还有,利用强化学习将手机用户点击率提升了 10-20%。 10.3 强化学习和监督式学习、非监督式学习的区别 在机器学习中,我们比较熟知的是监督式学习、非监督式学习,此外还有一个大类就是强化学习:当前的机器学习算法可以分为3种:有监督的学习(Supervised 需要注意的是,监督学习和非监督学习从一开始就是相对的,而强化学习在提出时并没有从训练样本歧义性的角度考虑其与监督学习和非监督学习的区别,因此,一些早期的研究中把强化学习视为一种特殊的非监督学习。 这与监督学习、非监督学习、强化学习等天生的歧义性完全不同。
10.4 强化学习主要有哪些算法 强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用,其主要算法有蒙特卡罗强化学习,时间差分(temporal difference:TD)学习,策略梯度等。 典型的深度强化学习算法特点及性能比较如下图所示。 除了上述深度强化学习算法,还有深度迁移强化学习、分层深度强化学习、深度记忆强化学习以及多智能体强化学习等算法。 10.5 深度迁移强化学习算法 传统深度强化学习算法每次只能解决一种游戏任务,无法在一次训练中完成多种任务。迁移学习和强化学习的结合也是深度强化学习的一种主要思路。 而其他的如深度迁移强化学习、分层深度强化学习、深度记忆强化学习和多智能体深度强化学习等算法都是现在的研究热点, 通过这些算法能应对更为复杂的场景问题、系统环境及控制任务, 是目前深度强化学习算法研究的前沿领域 最后,还需要熟悉深度强化学习知识。
Novo Drug Design Using Reinforcement Learning with Graph-Based Deep Generative 论文摘要 机器学习采用深度生成模型为探索化学空间提供了有效的计算工具 在这里,本文提出了一种新的强化学习方案,对基于图的深度生成模型微调来解决分子设计任务。 本文探索了以下任务:生成大小增大/减小的分子,增加药物相似度,增加生物活性。