J. Med. Chem. | 药物化学中的活性悬崖

DrugIntel

发布于 2026-05-08 19:22:42

910

文献来源： Stumpfe D, Bajorath J. Exploring Activity Cliffs in Medicinal Chemistry. J. Med. Chem. 2012, 55, 2932–2942. DOI: 10.1021/jm201706b 作者单位： 德国波恩大学

引言：为何关注活性悬崖？

在药物化学研究中，"相似结构→相似活性"是构效关系（SAR）分析的基础直觉，也是QSAR建模的理论前提。然而实验室中一个令人困惑却屡见不鲜的现象是：对先导化合物进行微小结构修饰后，活性可能骤降数个数量级——或意外飙升。这种现象被称为活性悬崖（Activity Cliff），是SAR不连续性（SAR discontinuity）的最极端表现形式。

活性悬崖概念自1990年代初进入药物化学文献以来，已从定性描述演变为一套系统化的计算分析框架。本文基于Stumpfe与Bajorath于2012年发表的综述，对活性悬崖的定义、识别方法、影响因素、概念扩展及实践指导进行全面深入的梳理，供药物化学和计算化学领域研究者参考。

一、活性景观与活性悬崖的概念框架

1.1 活性景观（Activity Landscape）

活性景观是整合化合物结构相似性与活性关系的图形化表达体系。从活性景观模型中可提取两类关键SAR特征：

• SAR连续区域（SAR continuity）：结构渐进变化伴随活性温和变化，是QSAR建模的适用域；
• SAR不连续区域（SAR discontinuity）：微小结构变化引发剧烈活性变化，超出QSAR适用范围，但恰恰富含关键SAR信息。

活性悬崖是SAR不连续性的最突出形式，也是活性景观分析的核心焦点。

1.2 活性悬崖的正式定义

活性悬崖 = 一对结构相似但活性差异显著的化合物

这一定义看似简洁，实则暗含两个需要精确量化的核心参数：

参数	问题	常用操作标准
结构相似性	相似度阈值如何设定？用何种指纹？	ECFP4 Tanimoto ≥ 0.55；或MACCS Tanimoto ≥ 0.85
活性差异	差多少才算"大"？以何种活性值衡量？	≥ 100倍（2个数量级）；至少一个化合物活性在纳摩尔级别

关键认识：活性悬崖的识别结果对上述参数的选择高度敏感。不同研究若未明确报告这些标准，结果间的横向比较将失去意义。

二、活性悬崖的识别方法

2.1 定性/可视化方法

对于单一类似物系列，可通过R基团表（R-group table）进行逐一比对。而对于大型、结构多样的化合物数据集，需借助图形化活性景观表达：

• 网络相似性图（NSG, Network-like Similarity Graph）：节点代表化合物，边代表相似性关系；节点大小按不连续性评分缩放，红色（高活性）与绿色（低活性）大节点相邻即指示悬崖；
• 三维活性景观模型：将化学参考空间的二维投影与插值活性面叠加，活性悬崖体现为景观"峭壁"；
• SALI图：专门用于悬崖识别的有向图，边指向活性更高的化合物。

2.2 定量评分方法

化合物不连续性评分（Compound Discontinuity Score）

• 量化每个化合物对局部SAR不连续性的贡献；
• 标准化至 [0, 1] 区间；
• 评分接近1的化合物对即构成活性悬崖。

结构-活性景观指数（SALI, Structure-Activity Landscape Index）

• ：活性值（如 pIC₅₀、pKᵢ）；sim：结构相似度（Tanimoto）；
• 专为悬崖量化设计，取值范围无上界；
• 当相似度趋近于1（结构极相似）且活性差巨大时，SALI值趋向无穷大；
• 实际应用中以百分位阈值（如top 20%~30% SALI值）定义离散悬崖。

SALI图的构建逻辑：以阈值筛选化合物对，有向边由低活性指向高活性化合物，可视化呈现悬崖的方向性与强度梯级。

2.3 连续谱 vs. 离散状态

分析模式	优点	缺点
连续谱（SALI评分连续变化）	灵活扫描不同强度悬崖；适合大规模bioassay数据探索	低分值悬崖可能是化学意义不大的"伪悬崖"；无法跨数据集直接比较
离散化（明确阈值定义）	便于统计分布分析；支持跨靶点/数据集比较	阈值选择有一定主观性

离散化标准必须包括：相似度指纹类型与阈值、活性度量类型与差值要求、活性绝对值范围。

三、活性描述的核心困境

3.1 分子表征的决定性影响

分子指纹的选择是活性悬崖分析中最重要但常被忽视的变量。核心问题在于：计算相似度是否与化学直觉一致？

• 若两个分子共享相同骨架，仅在取代基上有差异，任何常用指纹均能捕捉到真实相似性，悬崖判断可靠；
• 若中心环系被替换（scaffold hop），尽管MACCS Tanimoto可能高达91%，从药物化学角度两者实为不同骨架类型，悬崖的认定存在争议；

错误类型分析：

描述符特征	典型错误	解决建议
化学分辨率过低	假阳性（将结构迥异的分子判为相似）	避免使用高度抽象的描述符
描述符强调细节差异	假阴性（遗漏真实悬崖）	优先选用ECFP4或MACCS等标准指纹
计算相似度与直觉不符	结果不可解释	结合2D结构人工确认

核心原则：任何无法通过2D分子图直观理解的相似度，均不适用于大规模SAR分析。

3.2 活性数据变异性的系统性影响

基于BindingDB公开数据集的系统研究（Stumpfe & Bajorath, J. Chem. Inf. Model. 2011）揭示了活性数据选取方式对悬崖识别的深远影响：

多值活性数据处理策略的影响：

• 用最大活性值时，检出的悬崖数量最少；
• 不同处理策略（最小值/均值/最大值）之间仅约 50% 的悬崖能保持一致；
• 高置信度数据（同一化合物多次测定值在一个数量级内一致）的悬崖更稳定，但整体数量少于低置信度数据。

IC₅₀ vs. Kᵢ的系统性差异：

• Kᵢ为热力学平衡常数，物理意义明确；
• IC₅₀受实验条件（底物浓度、酶浓度、测定方法）影响大；
• 研究一致发现：基于IC₅₀的分析比基于Kᵢ检出的悬崖更多——多出的部分很可能是假阳性。

实践建议：在条件允许时，优先使用Kᵢ或其他平衡常数；分析前对多值数据进行置信度分级；避免混合使用IC₅₀和Kᵢ值。

四、活性悬崖概念的系统性扩展

4.1 共识活性悬崖（Consensus Activity Cliffs）

定义：在多种分子表征方式下均能被识别的活性悬崖。

意义：对分子描述符的选择最不敏感，代表最可靠的SAR不连续性信号；是验证新型描述符、研究特定化合物类别SAR特征的优质测试集。

4.2 R-悬崖（R-Cliffs）

定义：将类似物系列按各取代位点的R基团替换进行系统组织，在每个取代位点单独识别的活性悬崖。

优势：与经典R基团表直接挂钩，方便合成化学家在单一类似物系列内定位关键修饰位点。

4.3 选择性悬崖（Selectivity Cliffs）

定义：一对化合物对于某一靶点对（target pair）表现出显著不同的选择性谱，即构成选择性悬崖。

关键特性：化合物可能对单一靶点均不形成活性悬崖，但二者对靶点对的选择性差异极大时仍可形成选择性悬崖——这代表单靶点分析所不能提供的额外信息增益。

典型案例：diclofenac对COX-1/COX-2均高活，lumiracoxib对COX-1高活而对COX-2几乎无活——二者构成显著的COX-2选择性悬崖，但对COX-1单靶点不构成活性悬崖。

4.4 多靶点活性悬崖（Multitarget Activity Cliffs）

将悬崖概念延伸至生物活性空间（bioactivity space），考察化合物对蛋白家族中一系列靶点的活性谱差异。

分类：

类型	特征	意义
定向（Directed）	一个化合物对所有靶点均高活，另一个均低活	反映类别选择性
非定向（Undirected）	两个化合物对部分靶点高活，对其余靶点活性不同	反映靶点内选择性模式

重要统计发现：在全部活性悬崖中，仅约 4% 属于多靶点悬崖，且几乎全部为定向型。这意味着：对某一靶点高活的化合物，极可能对家族内相关靶点也高活——高度选择性化合物极为罕见，设计难度极大。

4.5 机制悬崖（Mechanism Cliffs）

定义：类似物系列中，微小结构改变引发作用机制转变（如完全激动剂→部分激动剂→反向激动剂→拮抗剂）的化合物对。

适用背景：GPCR等存在多种激活模式的靶点；结合SAR网络分析，可系统绘制"机制跳变"（mechanism hop）图谱。

五、配体视角 vs. 靶点结构视角

5.1 基于配体的分析（传统方法）

绝大多数活性悬崖研究从配体集出发，通过结构相似度和活性差值识别悬崖，不依赖靶点三维结构信息。

5.2 基于靶点结构的分析

探索活性悬崖形成的分子机制，寻找导致SAR不连续性的关键受体-配体相互作用（关键氢键、离子相互作用、疏水口袋的互补性等）。

局限性：X射线复合物结构仅反映静态短程相互作用，熵效应和去溶剂化能等动态贡献无法直接体现。

5.3 ISAC方法（基于结构的活性悬崖识别）

ISAC（Identification of Structure-Based Activity Cliffs） 是一种将靶点结构信息引入SALI框架的创新方法：

1. 利用计算化学方法（如MM-GBSA）计算每个活性化合物与靶点的相互作用指纹（interaction fingerprint）；
2. 以相互作用指纹替代传统结构指纹，计算Tanimoto相似度；
3. 基于新相似度重新计算SALI评分；
4. 从具有相似相互作用模式但活性差异大的化合物对中，提取**"热点"靶点原子**。

核心优势：将活性悬崖分析与结合模式分析直接挂钩，可为结构导向药物设计提供原子级别的优化线索。

六、活性悬崖的分布规律

6.1 数据库规模的统计结论

基于BindingDB和ChEMBL系统挖掘的主要统计发现：

指标	数值
参与至少一个≥2个数量级悬崖的活性化合物比例	~12%
形成悬崖的化合物对占所有相似对的比例	~2%
多靶点悬崖占全部悬崖的比例	~4%
多靶点悬崖中定向型的比例	~100%
悬崖在各靶点家族间的分布	无显著富集，分布均一

悬崖在靶点家族间分布均一的发现说明：配体-靶点相互作用的特异性差异并不显著影响悬崖的形成倾向，活性悬崖是药物化学数据集的普遍特征。

6.2 分子构建块层面的分析

具有诱导悬崖倾向的结构特征：

• ~200种R基团替换（通过matched molecular pair分析鉴定）在不同化合物类别和靶点家族中持续诱发悬崖；
• ~100种含杂原子的分子骨架（Bemis-Murcko骨架）在多靶点活性数据中优先出现于悬崖形成化合物中。

启示：先导优化策略不仅应关注给定类似物系列内的关键取代模式，还应考察替代高优先级骨架的可能性，以充分利用SAR迁移潜力。

七、活性山脊：从孤立悬崖到信息富集数据结构

7.1 活性山脊的定义

作者在系统分析中观察到，活性悬崖极少孤立存在，而常以多化合物群集的方式出现。为定量描述这种结构，提出活性山脊（Activity Ridge）概念：

形式化定义（严格版本）：

• "纳摩尔层"：≥5个化合物，活性值在一个数量级内；
• "低活性层"：≥5个化合物；
• 两层间活性差≥100倍；
• 每层中每个化合物均与另一层所有化合物形成两两活性悬崖（组合式悬崖形成）。

挖掘结果：在242个化合物数据集中发现125个活性山脊，涉及71个活性类别，最多含70个活性化合物。放宽标准后可发现更多多重悬崖群集。

7.2 活性山脊的结构表征

活性山脊研究引入了层次化结构关系作为相似性标准，取代计算的Tanimoto相似度：

• 杂原子骨架（Bemis-Murcko scaffold）：保留骨架的杂原子信息；
• 环状骨架（cyclic skeleton）：进一步抽象，仅保留拓扑连接，忽略键级和杂原子位置；
• 拓扑等价的骨架及其所代表的类似物视为结构相似。

优势：该直觉性相似度标准具有化学可解释性，可作为计算相似度的可靠替代，尤其在大型多样化数据集中。

7.3 活性山脊的实践价值

活性山脊在SAR分析中的信息含量远高于孤立活性悬崖：

• 多对悬崖的比较可将悬崖信息转化为具体的化合物设计建议；
• 可评估关键取代效应是否在不同骨架上具有可迁移性（SAR transfer）；
• 是先导优化项目中多层次SAR信息的主要来源之一。

八、实践指南：如何在药物化学项目中应用活性悬崖分析

8.1 标准化分析流程

1. 数据准备
   └─ 优先使用 Kᵢ 值；对多值数据进行置信度评级
   
2. 结构相似度计算
   └─ 推荐：ECFP4（Tanimoto ≥ 0.55）或 MACCS（Tanimoto ≥ 0.85）
   └─ 确认计算相似度与化学直觉一致
   
3. 悬崖识别
   └─ 应用离散化标准（活性差≥100倍，至少一方纳摩尔级）
   └─ 使用 SALI 评分或不连续性评分系统排序
   
4. 可视化与分析
   └─ SALI图 / NSG 可视化
   └─ 优先分析活性邻域（而非孤立悬崖）
   └─ 识别活性山脊等多重悬崖结构
   
5. SAR解读
   └─ 结合骨架分析和R基团分析
   └─ 有条件时结合配体-靶点复合物结构
   └─ 评估关键取代效应在不同骨架上的可迁移性

8.2 核心注意事项

1. 明确报告分析参数：任何活性悬崖分析均须清晰说明相似度指纹类型、相似度阈值、活性度量方式和活性差阈值；
2. 保守对待相似度：对化学直觉无法理解的高相似度值，不应作为悬崖判断依据；
3. 避免孤立分析：单个悬崖的信息往往不足以指导化合物设计，应探索其结构邻域；
4. 重视数据质量：使用高置信度活性数据，避免将数据变异误判为真实SAR不连续性；
5. SAR连续性同样有价值：在活性悬崖邻域内往往可以观察到SAR连续性区域，两者结合提供更完整的信息图景。

九、局限性与开放性问题

尽管活性悬崖概念直觉吸引力强，作者也明确指出以下尚未完全解决的问题：

局限	说明
无普适标准	目前无公认的悬崖判断参数标准，导致不同研究结果难以直接比较
表征依赖性	描述符选择决定悬崖的识别结果，存在系统性假阴性和假阳性风险
数据质量依赖	活性测量误差直接影响悬崖检出，公开数据库数据质量参差不齐
结构-活性因果推断困难	识别悬崖≠理解悬崖形成机制；大多数悬崖仍缺乏结构层面的解释
实际设计转化率有限	活性悬崖信息需要结合更广泛的SAR背景才能转化为可操作的设计策略

十、总结与展望

活性悬崖是药物化学和化学信息学领域的核心研究主题，其重要性体现在以下几个层面：

理论层面：活性悬崖的存在标志着QSAR范式的适用边界，推动了活性景观理论的发展；

数据挖掘层面：系统性的悬崖分析揭示了SAR不连续性在药物化学数据集中的普遍性（>10%化合物涉及悬崖）及其在靶点家族间的均匀分布规律；

药物设计层面：活性悬崖的识别——尤其是在活性山脊、多靶点悬崖等富信息结构背景下——为先导化合物优化、骨架跃迁策略和选择性设计提供了重要的SAR线索；

方法论层面：ISAC等将靶点结构信息引入悬崖分析的方法代表了该领域的重要发展方向。

作者预判，随着多靶弹（polypharmacology）和化学基因组学（chemogenomics）研究的兴起，活性悬崖概念将在更高维度的靶点空间分析中发挥越来越重要的作用，并在指导化合物选择性设计方面持续产生实践价值。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-02，如有侵权请联系 cloudcommunity@tencent.com 删除

设计

本文分享自 DrugIntel 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度