引言
分子对接(Molecular Docking)是用于预测小分子(Ligand)如何与目标蛋白质(Protein)结合的计算方法,旨在预测蛋白-分子结合之后所形成复合体的3D结构,用以评估和分析蛋白-分子之间的相互作用和亲和力,在药物发现中扮演重要角色。
当前分子对接方法从场景角度可以分为刚性对接(Rigid Docking)和灵活对接(Flexible Docking),其中刚性对接假设蛋白质结构呈刚性,在对接过程中不发生变化。其简化了分子对接任务,与实际对接过程中蛋白质结构动态变化的情况不符。灵活对接放松了蛋白质刚性假设,更具一般性。
从技术角度可以分为基于回归的方法(Regression-based)和基于采样(Sampling-based)的方法。基于回归的方法通过设计神经网络直接预测对接分子的坐标,具有计算效率高的优点,但是性能往往一般。基于采样的方法通常采样扩散模型在平移、旋转、扭转角三个方面变换来生成构象,在通过多次计算进行采样,进一步提升预测性能,但其往往存在计算效率低、速度慢的缺点。
我们分别从场景角度和技术角度对现有工作进行了总结,如下:
方法 | 场景角度 | 技术角度 |
EquiBind [1] | Rigid Docking | Regression-based |
TankBind [2] | Rigid Docking | Regression-based |
E3Bind [3] | Rigid Docking | Regression-based |
FABind [4] | Rigid Docking | Regression-based |
FABind+ [5] | Rigid Docking | Regression-based |
DiffDock [6] | Rigid Docking | Sampling-based |
DiffDock-L [7] | Rigid Docking | Sampling-based |
NeuralPlexer [8] | Flexible Docking | Sampling-based |
ReDock [9] | Flexible Docking | Sampling-based |
DynamicBind [10] | Flexible Docking | Sampling-based |
我们发现现有灵活分子对接工作在技术层面都采用了基于采样的方法,而没有研究探索基于回归的范式在灵活分子对接场景下的潜力。对此,我们针对盲式灵活分子对接(Blind Flexible Docking)场景,即缺少对接口袋先验信息的同时,又放松了蛋白质刚性假设,提出了FABFlex模型,一个多任务的基于回归的网络模型,旨在探索回归范式在灵活对接场景下的潜力,实现更快更准的灵活分子对接。论文已在ICLR 2025发表:
论文标题:Fast and Accurate Blind Flexible Docking
论文链接:https://arxiv.org/abs/2502.14934
代码链接:https://github.com/tmlr-group/FABFlex
数据集链接:https://zenodo.org/records/14875959
术语和盲式灵活分子对接任务定义
在分子对接领域,初始化的分子和蛋白质称为Apo Ligand和Apo Protein,对接发生的蛋白质区域称为口袋(Pocket),对接之后的分子和蛋白质称为Holo Ligand和Holo Protein。
盲式灵活分子对接任务需要在给定Apo Ligand和Apo Protein的情况下,同时预测对接Pocket区域所在,以及对接后Holo Ligand和Holo Pocket的3D结构。
图 1FABFlex模型示意图
本文提出的方法:FABFlex
我们提出的FABFlex模型主要由三个模块构成,分别对应盲式分子对接任务分解出的三个子任务:
1. 口袋预测模块(Pocket Prediction Module):预测蛋白质中哪些残基构成对接口袋。
2. 配体对接模块(Ligand Docking Module):预测分子对接后结构的坐标。
3. 口袋对接模块(Pocket Docking Module):预测蛋白质口袋部分对接后的坐标。
此外,在配体对接模块和口袋对接模块之间有一个迭代更新机制(Iterative Update Mechanism)交换两个模块的预测,进一步改进预测坐标。我们FABFlex工作的整个流程是:给定AlphaFold2 [11]预测初始化的Apo Protein的结构和RDKit随机初始化的Apo Ligand的结构,FABFlex首先通过二分类预测蛋白质中哪些残基构成对接的口袋区域。然后,将Apo Ligand放置到预测的口袋中央,组成Ligand-Pocket异构图,通过第二阶段的两个对接模块,分别预测对接后Holo Ligand和Holo Pocket的结构坐标。再通过迭代更新机制促进两个模型预测交换和坐标调整。
实验设置
我们在分子对接常用的公开数据集PDBBind v2020上进行实验,其中记录于2019年以前的Protein-Ligand复合体作为训练和验证集,记录于2019年之后的复合体作为测试集。统计信息如下:
图 2数据集统计信息
我们的对比算法包括:传统的对接软件Vina、Glide、Gnina,基于深度学习的刚性对接方法TankBind、FABind、FABind+、DiffDock、DiffDock-L,基于深度学习的灵活对接方法DynamicBind。
实验结果
图 3Ligand RMSD性能对比
图 4PocketRMSD性能对比
Ligand结构方面:我们的FABFlex在所有测试案例上几乎取得了最好的性能指标,通常当Ligand RMSD < 2时,被认为是一个成功的分子对接预测,我们的Ligand RMSD < 2比例达到了40.59%,超过了所有的对比算法。同时,对于那些训练过程中没有见过的Protein,我们的方法也能实现不错的性能,这反映了我们方法的泛化性。此外,我们方法的单次运行平均时间为0.49s,是现有灵活对接方法DynamicBind的大约208倍。Pocket结构方面:我们的FABFlex对改善口袋部分结构起到正向作用,降低了Pocket RMSD。
图 5口袋区域预测性能
我们FABFlex预测的口袋位置比外部口袋检测工具P2Rank更加准确,反映了将口袋预测任务整合到分子对接模型中一起预测的方案的合理性。
图 6迭代更新机制的效果
我们可视化了迭代更新机制中Ligand构象变化,发现迭代更新机制模拟了分子对接的过程,随着迭代次数增加,Ligand的构象在逐步接近真正的Holo Ligand的构象。
图 7案例可视化
从案例中可以看出,FABFlex能够准确地定位出口袋的位置所在,并更加接近真实的Holo Ligand构象。FABFlex能够取得几乎和真实Holo Ligand完全一致的构象预测。
课题组介绍
香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信表征学习、可信基础模型、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 GitHub (https://github.com/tmlr-group)。
课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 ([email protected])。
参考文献
[1] Stärk H, Ganea O, Pattanaik L, et al. Equibind: Geometric deep learning for drug binding structure prediction. ICML, 2022.
[2] Lu W, Wu Q, Zhang J, et al. Tankbind: Trigonometry-aware neural networks for drug-protein binding structure prediction. NeurIPS, 2022.
[3] Zhang Y, Cai H, Shi C, et al. E3bind: An end-to-end equivariant network for protein-ligand docking. ICLR, 2023.
[4] Pei Q, Gao K, Wu L, et al. Fabind: Fast and accurate protein-ligand binding. NeurIPS, 2023.
[5] Gao K, Pei Q, Zhu J, et al. Fabind+: Enhancing molecular docking through improved pocket prediction and pose generation. KDD, 2025.
[6] Corso G, Stärk H, Jing B, et al. DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking. ICLR 2023.
[7] Corso G, Deng A, Fry B, et al. Deep confident steps to new pockets: Strategies for docking generalization. ICLR, 2024.
[8] Qiao Z, Nie W, Vahdat A, et al. State-specific protein–ligand complex structure prediction with a multiscale deep generative model[J]. Nature Machine Intelligence, 2024, 6(2): 195-208.
[9] Huang Y, Zhang O, Wu L, et al. Re-dock: towards flexible and realistic molecular docking with diffusion bridge. ICML 2024.
[10] Lu W, Zhang J, Huang W, et al. DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model[J]. Nature Communications, 2024, 15(1): 1071.
[11] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. nature, 2021, 596(7873): 583-589.