

文献来源: Stumpfe D, Bajorath J. Exploring Activity Cliffs in Medicinal Chemistry. J. Med. Chem. 2012, 55, 2932–2942. DOI: 10.1021/jm201706b 作者单位: 德国波恩大学
在药物化学研究中,"相似结构→相似活性"是构效关系(SAR)分析的基础直觉,也是QSAR建模的理论前提。然而实验室中一个令人困惑却屡见不鲜的现象是:对先导化合物进行微小结构修饰后,活性可能骤降数个数量级——或意外飙升。这种现象被称为活性悬崖(Activity Cliff),是SAR不连续性(SAR discontinuity)的最极端表现形式。
活性悬崖概念自1990年代初进入药物化学文献以来,已从定性描述演变为一套系统化的计算分析框架。本文基于Stumpfe与Bajorath于2012年发表的综述,对活性悬崖的定义、识别方法、影响因素、概念扩展及实践指导进行全面深入的梳理,供药物化学和计算化学领域研究者参考。
活性景观是整合化合物结构相似性与活性关系的图形化表达体系。从活性景观模型中可提取两类关键SAR特征:
活性悬崖是SAR不连续性的最突出形式,也是活性景观分析的核心焦点。
活性悬崖 = 一对结构相似但活性差异显著的化合物
这一定义看似简洁,实则暗含两个需要精确量化的核心参数:
参数 | 问题 | 常用操作标准 |
|---|---|---|
结构相似性 | 相似度阈值如何设定?用何种指纹? | ECFP4 Tanimoto ≥ 0.55;或MACCS Tanimoto ≥ 0.85 |
活性差异 | 差多少才算"大"?以何种活性值衡量? | ≥ 100倍(2个数量级);至少一个化合物活性在纳摩尔级别 |
关键认识:活性悬崖的识别结果对上述参数的选择高度敏感。不同研究若未明确报告这些标准,结果间的横向比较将失去意义。

对于单一类似物系列,可通过R基团表(R-group table)进行逐一比对。而对于大型、结构多样的化合物数据集,需借助图形化活性景观表达:

SALI图的构建逻辑:以阈值筛选化合物对,有向边由低活性指向高活性化合物,可视化呈现悬崖的方向性与强度梯级。
分析模式 | 优点 | 缺点 |
|---|---|---|
连续谱(SALI评分连续变化) | 灵活扫描不同强度悬崖;适合大规模bioassay数据探索 | 低分值悬崖可能是化学意义不大的"伪悬崖";无法跨数据集直接比较 |
离散化(明确阈值定义) | 便于统计分布分析;支持跨靶点/数据集比较 | 阈值选择有一定主观性 |
离散化标准必须包括:相似度指纹类型与阈值、活性度量类型与差值要求、活性绝对值范围。
分子指纹的选择是活性悬崖分析中最重要但常被忽视的变量。核心问题在于:计算相似度是否与化学直觉一致?
错误类型分析:
描述符特征 | 典型错误 | 解决建议 |
|---|---|---|
化学分辨率过低 | 假阳性(将结构迥异的分子判为相似) | 避免使用高度抽象的描述符 |
描述符强调细节差异 | 假阴性(遗漏真实悬崖) | 优先选用ECFP4或MACCS等标准指纹 |
计算相似度与直觉不符 | 结果不可解释 | 结合2D结构人工确认 |
核心原则:任何无法通过2D分子图直观理解的相似度,均不适用于大规模SAR分析。
基于BindingDB公开数据集的系统研究(Stumpfe & Bajorath, J. Chem. Inf. Model. 2011)揭示了活性数据选取方式对悬崖识别的深远影响:
多值活性数据处理策略的影响:
IC₅₀ vs. Kᵢ的系统性差异:
实践建议:在条件允许时,优先使用Kᵢ或其他平衡常数;分析前对多值数据进行置信度分级;避免混合使用IC₅₀和Kᵢ值。

定义:在多种分子表征方式下均能被识别的活性悬崖。
意义:对分子描述符的选择最不敏感,代表最可靠的SAR不连续性信号;是验证新型描述符、研究特定化合物类别SAR特征的优质测试集。
定义:将类似物系列按各取代位点的R基团替换进行系统组织,在每个取代位点单独识别的活性悬崖。
优势:与经典R基团表直接挂钩,方便合成化学家在单一类似物系列内定位关键修饰位点。
定义:一对化合物对于某一靶点对(target pair)表现出显著不同的选择性谱,即构成选择性悬崖。
关键特性:化合物可能对单一靶点均不形成活性悬崖,但二者对靶点对的选择性差异极大时仍可形成选择性悬崖——这代表单靶点分析所不能提供的额外信息增益。
典型案例:diclofenac对COX-1/COX-2均高活,lumiracoxib对COX-1高活而对COX-2几乎无活——二者构成显著的COX-2选择性悬崖,但对COX-1单靶点不构成活性悬崖。

将悬崖概念延伸至生物活性空间(bioactivity space),考察化合物对蛋白家族中一系列靶点的活性谱差异。
分类:
类型 | 特征 | 意义 |
|---|---|---|
定向(Directed) | 一个化合物对所有靶点均高活,另一个均低活 | 反映类别选择性 |
非定向(Undirected) | 两个化合物对部分靶点高活,对其余靶点活性不同 | 反映靶点内选择性模式 |
重要统计发现:在全部活性悬崖中,仅约 4% 属于多靶点悬崖,且几乎全部为定向型。这意味着:对某一靶点高活的化合物,极可能对家族内相关靶点也高活——高度选择性化合物极为罕见,设计难度极大。

定义:类似物系列中,微小结构改变引发作用机制转变(如完全激动剂→部分激动剂→反向激动剂→拮抗剂)的化合物对。
适用背景:GPCR等存在多种激活模式的靶点;结合SAR网络分析,可系统绘制"机制跳变"(mechanism hop)图谱。

绝大多数活性悬崖研究从配体集出发,通过结构相似度和活性差值识别悬崖,不依赖靶点三维结构信息。
探索活性悬崖形成的分子机制,寻找导致SAR不连续性的关键受体-配体相互作用(关键氢键、离子相互作用、疏水口袋的互补性等)。
局限性:X射线复合物结构仅反映静态短程相互作用,熵效应和去溶剂化能等动态贡献无法直接体现。
ISAC(Identification of Structure-Based Activity Cliffs) 是一种将靶点结构信息引入SALI框架的创新方法:
核心优势:将活性悬崖分析与结合模式分析直接挂钩,可为结构导向药物设计提供原子级别的优化线索。
基于BindingDB和ChEMBL系统挖掘的主要统计发现:
指标 | 数值 |
|---|---|
参与至少一个≥2个数量级悬崖的活性化合物比例 | ~12% |
形成悬崖的化合物对占所有相似对的比例 | ~2% |
多靶点悬崖占全部悬崖的比例 | ~4% |
多靶点悬崖中定向型的比例 | ~100% |
悬崖在各靶点家族间的分布 | 无显著富集,分布均一 |
悬崖在靶点家族间分布均一的发现说明:配体-靶点相互作用的特异性差异并不显著影响悬崖的形成倾向,活性悬崖是药物化学数据集的普遍特征。
具有诱导悬崖倾向的结构特征:
启示:先导优化策略不仅应关注给定类似物系列内的关键取代模式,还应考察替代高优先级骨架的可能性,以充分利用SAR迁移潜力。
作者在系统分析中观察到,活性悬崖极少孤立存在,而常以多化合物群集的方式出现。为定量描述这种结构,提出活性山脊(Activity Ridge)概念:
形式化定义(严格版本):
挖掘结果:在242个化合物数据集中发现125个活性山脊,涉及71个活性类别,最多含70个活性化合物。放宽标准后可发现更多多重悬崖群集。

活性山脊研究引入了层次化结构关系作为相似性标准,取代计算的Tanimoto相似度:
优势:该直觉性相似度标准具有化学可解释性,可作为计算相似度的可靠替代,尤其在大型多样化数据集中。
活性山脊在SAR分析中的信息含量远高于孤立活性悬崖:
1. 数据准备
└─ 优先使用 Kᵢ 值;对多值数据进行置信度评级
2. 结构相似度计算
└─ 推荐:ECFP4(Tanimoto ≥ 0.55)或 MACCS(Tanimoto ≥ 0.85)
└─ 确认计算相似度与化学直觉一致
3. 悬崖识别
└─ 应用离散化标准(活性差≥100倍,至少一方纳摩尔级)
└─ 使用 SALI 评分或不连续性评分系统排序
4. 可视化与分析
└─ SALI图 / NSG 可视化
└─ 优先分析活性邻域(而非孤立悬崖)
└─ 识别活性山脊等多重悬崖结构
5. SAR解读
└─ 结合骨架分析和R基团分析
└─ 有条件时结合配体-靶点复合物结构
└─ 评估关键取代效应在不同骨架上的可迁移性尽管活性悬崖概念直觉吸引力强,作者也明确指出以下尚未完全解决的问题:
局限 | 说明 |
|---|---|
无普适标准 | 目前无公认的悬崖判断参数标准,导致不同研究结果难以直接比较 |
表征依赖性 | 描述符选择决定悬崖的识别结果,存在系统性假阴性和假阳性风险 |
数据质量依赖 | 活性测量误差直接影响悬崖检出,公开数据库数据质量参差不齐 |
结构-活性因果推断困难 | 识别悬崖≠理解悬崖形成机制;大多数悬崖仍缺乏结构层面的解释 |
实际设计转化率有限 | 活性悬崖信息需要结合更广泛的SAR背景才能转化为可操作的设计策略 |
活性悬崖是药物化学和化学信息学领域的核心研究主题,其重要性体现在以下几个层面:
理论层面:活性悬崖的存在标志着QSAR范式的适用边界,推动了活性景观理论的发展;
数据挖掘层面:系统性的悬崖分析揭示了SAR不连续性在药物化学数据集中的普遍性(>10%化合物涉及悬崖)及其在靶点家族间的均匀分布规律;
药物设计层面:活性悬崖的识别——尤其是在活性山脊、多靶点悬崖等富信息结构背景下——为先导化合物优化、骨架跃迁策略和选择性设计提供了重要的SAR线索;
方法论层面:ISAC等将靶点结构信息引入悬崖分析的方法代表了该领域的重要发展方向。
作者预判,随着多靶弹(polypharmacology)和化学基因组学(chemogenomics)研究的兴起,活性悬崖概念将在更高维度的靶点空间分析中发挥越来越重要的作用,并在指导化合物选择性设计方面持续产生实践价值。