Reader

Nature子刊 | 预测完全未知的化合物-蛋白质相互作用:药物研发突破性新工具GraphBAN

| 机器之心 | Default

编辑丨coisini

药物研发往往是一个筛选、修饰化学分子并将其开发为治疗制剂的过程。发现靶向疾病潜在候选药物的关键在于:识别出能与疾病相关靶蛋白相互作用并结合的化合物,从而理解其治疗效应。因此理解化合物 - 蛋白质相互作用对于早期药物研发至关重要。

通过实验鉴定化合物 - 蛋白质相互作用(CPI)通常成本高昂且耗时,因此学界开发了计算机模拟预测方法来优化发现流程,包括分子对接和分子动力学模拟。分子对接通过估算化合物与靶蛋白的结合亲和力来研究 CPI;分子动力学模拟则通过模拟分子随时间运动来解析动态相互作用。

但这些方法存在固有局限:从大型化合物库中筛选候选药物时计算资源消耗巨大,且依赖高质量分子结构作为输入 —— 这对于缺乏实验验证结构的分子构成显著挑战,从而限制了这些计算机方法在大规模分子库中筛选目标 CPI 及鉴定候选药物的实用性。

近期,来自曼尼托巴大学(University of Manitoba)等机构的研究者提出了一种专为 CPI 预测设计的归纳式模型 GraphBAN,可处理二分网络输入,实现域内 / 跨域测试集的转导与归纳链接预测。研究论文以《GraphBAN: An inductive graph-based approach for enhanced prediction of compound-protein interactions》为题发表在《Nature Communications》上。

图片

论文地址:https://www.nature.com/articles/s41467-025-57536-9

GraphBAN 简介

GraphBAN 采用知识蒸馏(KD)架构:教师模块(teacher block)通过图自编码器(Graph Autoencoder,GAE)学习网络拓扑特征以处理链接未知的数据集,并通过 KD 损失函数将知识迁移至学生模块(student block),确保从化合物 / 蛋白质初始特征中有效学习模式(pattern)。

如图 1a 所示,GraphBAN 接收 SMILES 格式的化合物与氨基酸序列的蛋白质,构建以化合物 / 蛋白质为节点、活性相互作用为边的二分网络(含节点特征)。

图片

图 1:GraphBAN 架构(来源:论文)

如图 1b 所示,化合物与蛋白质的特征是通过融合四种不同方法(两种针对化合物,两种针对蛋白质)生成的:化合物特征采用结构图卷积网络(GCN)与预训练 LLM——ChemBERTa;蛋白质特征通过 CNN 层与 ESM 进行提取,随后提取教师模块中的网络结构特征,并将这些知识蒸馏到学生模块中。  

学生模块通过双线性注意力网络(BAN)学习节点特征的联合表征及编码后的局部相互作用,最终引入条件域对抗网络(CDAN)模块(图 1c),增强模型处理跨域化合物 - 蛋白质对的能力。

GraphBAN 通过二元分类(活性 / 非活性)判定相互作用,这种模式对生物医药应用至关重要。正如论文第一作者 Hamid Hadipour 所说:「药物研发中一个行之有效的方法是锁定在疾病中起关键作用或帮助有害微生物存活的蛋白质。若能通过合适的小分子靶向这些蛋白质,我们就能阻断疾病发展进程。」

实验验证

为了验证 GraphBAN 在药物发现实际场景中的实用性,该研究聚焦于一种参与细胞周期调控、发育及信号通路等多种关键细胞进程的必需酶 —— 肽基脯氨酰顺反式异构酶 NIMA 相互作用蛋白 1(Pin1)。鉴于 Pin1 在细胞周期中的核心作用,它已成为各类癌症治疗的重要靶点。

为预测与 Pin1 相互作用的化合物,该研究使用 ZINC-250K 数据集中的约 25 万种化合物,通过 GraphBAN 模型筛选潜在结合化合物。由于 ZINC-Pin1 数据集缺乏 CPI 标注值,因此模型采用归纳推理方式预测相互作用。  

GraphBAN 通过无监督域适应模块,在 ZINC-Pin1 数据集无 CPI 标注的条件下实现了 CPI 预测。具体来说,该研究选用三个高质量训练数据集(BioSNAP、BindingDB 和 KIBA),同时排除小规模数据集以规避欠拟合风险。

如图 2 所示,经过训练并部署 Pin1 与 ZINC 化合物配对预测后,GraphBAN 识别出 134 种与 Pin1 相互作用概率高于 0.5 的化合物。

图片

图 2:过滤和可视化 Pin1 结合位点(来源:论文)

总的来说,GraphBAN 能有效处理未知节点的归纳式链接预测,为完全未知的化合物与蛋白质之间相互作用的预测提供了稳健解决方案,从而突破了传统方法仅适用于已知场景的局限。

相关报道:https://phys.org/news/2025-04-graphban-drug-discovery-faster-artificial.html