基于结构的药物设计中的深度学习

Original 智药邦智药邦 2022-06-15

本文为《Artificial Intelligence in Drug Design》一书第11章的内容，作者是Evotec公司的Andrew Anighoro。

摘要

计算方法在药物发现中发挥着越来越重要的作用。特别是基于结构的药物设计（Structure-Based Drug Design，SBDD），包括能将大分子靶点结构考虑在内的技术，可以预测可能与结合位点建立最佳相互作用的化合物。目前，人们对基于深度神经网络（Deep Neural Networks，DNNs）的机器学习算法很有兴趣，这将鼓励深度学习应用于SBDD的相关问题。本章涵盖了这一活跃研究领域的部分工作。

1 引言

计算方法被广泛地应用于药物发现，以合理地设计具有所需特性和生物活性的化合物。基于感兴趣的生物靶点（通常是蛋白质或核酸）的三维结构的方法被归类为基于结构的药物设计（SBDD）。SBDD的目的是预测在靶点结合位点产生最佳相互作用的化合物。其中，典型的SBDD方法包括对接和基于分子力学（molecular mechanics, MM）力场的分子动力学（molecular dynamics, MD）模拟。此外，基于量子力学（Quantum Mechanics ，QM）的方法和混合（QM/MM）的方案也正在被应用。

如今，机器学习已经成为计算化学家武器库中传统方法的一个越来越流行的替代方法。特别是深度学习，一类基于深度神经网络（DNNs）的模型，正受到高度关注，这是因为大量数据集和强大的计算资源的可及性增加。长期以来，机器学习算法被应用于建立定量结构-活性/性能关系（Quantitative Structure-Activity/Property Relationship ，QSAR/QSPR）模型，旨在根据不同类型的描述符来预测化合物的生物活性或性能。最近，深度学习也通过深度生成模型被应用于新药设计。此外，DNN在SBDD中也找到了应用，这个想法本身并不新鲜。然而，结构信息的增加和技术的进步，是最近利用深度学习提取相关特征和预测蛋白质配体复合物的应用数量激增的基础。该领域的研究通常旨在实现高精确度，同时避免昂贵的QM计算或模拟，如热力学积分或自由能微扰法（Free-Energy Perturbation）。

基于结构的虚拟筛选（Structure-Based Virtual Screening, SBVS）的目的是及时处理大型化合物库。小分子被对接并根据其结合亲和力进行排序。DNN已被应用于SBVS。在这种情况下，DNN的作用是进行预测，使对接计算集中在最有希望的化合物。

本文不追求对SBDD中深度学习领域的文献进行详尽的综述。相反，我们将讨论一些选定的例子。

2 评分函数

在分子对接中，应用评分函数来预测结合模式和估计配体与大分子靶点的结合亲和力。典型的评分函数采用近似值，使它们足够快以适用于 SBVS。传统的评分函数分为基于力场的、经验的和基于知识的。现在，基于机器学习的评分函数（表1）也很流行。有经验的计算化学家经常依靠自查（Visual inspection）来估计对接姿势的质量。这一观察激发了将DNN应用于同一目的的想法，DNN的灵感来自于大脑的松散性。一般来说，神经网络可以采用三维蛋白质-配体复合物的表示形式，并被训练以预测结合亲和力，或者作为从非结合物中区分结合物的二元分类器，或提供一个连续值，例如，预测解离常数(Dissociation Constant，Kd）。这一概念的示意图见图1。为此目的人们设计了不同的架构。在下面的章节中，将对基于DNN的选定评分函数进行概述。

表1：基于深度神经网络的选定评分函数

图1：预测三维蛋白质-配体复合物的神经网络示意图。

网络可以由一个输入层(青色)、多个隐藏层(绿色)和一个输出层(洋红色)组成。在不同的架构中，这些层的性质可能有很大的不同。最终，该模型提供一种预测，用来对有希望的复合物进行优先排序。

2.1 卷积神经网络

卷积神经网络 (CNN) 是一类用于对图像进行分类的 DNN。特别是，CNN通过对输入的图像数据进行一系列的卷积和池化操作（Pooling operations）来学习特征的层次结构。这类算法大约在30年前由Yann LeCun首次提出。最近，AlexNet使CNN越来越受欢迎，它在imageNET比赛中取得了前所未有的成绩。

最近，CNN被重新用于预测三维蛋白质-配体复合物。在图像分类中，CNN通常将二维图像的像素及其RGB颜色通道作为输入。相应的，应用于SBDD的CNN处理三维网格中的立体像素，包括配体和结合点残基。RGB颜色通道被旨在表示蛋白质-配体复合物的物理化学特性的描述符取代。文献中描述的CNN对SBDD的不同应用因输入特征化和结构细节而不同。

Wallach等人在2015年发表了第一篇关于CNN应用于SBDD中预测结合亲和力的报告。他们的模型被命名为AtomNET，利用原子类型和不同的蛋白质-配体相互作用指纹（Protein–Ligand Interaction Fingerprint，PLIF）方案来描述输入的复合物。AtomNET的结构包括一个输入层、四个三维卷积层和两个全连接层，然后是一个logistic-cost层，用于分配活跃和不活跃类别的可能性。在所有的隐藏层中都实现了整流线性单元（Rectifified Linear Unit，ReLU）激活函数。这种基于CNN的评分功能在虚拟筛选基准和包括来自ChEMBL的实验性非活性物质的数据集上的表现优于传统评分方法。

Ragoza等人开发了一个CNN模型，根据smina方案使用34种不同的原子类型，包括16种受体和18种配体原子类型。不同的训练集被用于姿势预测和虚拟筛选任务。值得注意的是，在有晶体结构坐标的情况下，也使用了重新对接的姿势，而不是晶体结构坐标，以避免让CNN单纯地学习模型和实验之间的差异。在独立的测试集上，该CNN在姿势选择和虚拟筛选方面的表现都超过了传统方法。

与许多以前的模型在两类（结合物和非结合物，Binder and nonbinder）上进行预测相反，Gomes等人提出的原子卷积神经网络（Atomic Convolutional Neural Network, ACNN）直接预测了结合自由能。这个模型受到以前报道的原子指纹神经网络的启发。ACNN引入了原子类型卷积和径向池化作为新的卷积操作。原子类型卷积层将原子类型和笛卡尔坐标作为输入，以提取编码局部化学环境的特征。而径向池化通过应用降维操作对原子类型卷积的输出进行降维处理。径向池化提供了一个更抽象的表示，减少了参数的数量，从而有助于防止过度拟合。

RosENet（Rosetta Energy Neural Networks）引入了MM能量作为描述蛋白质-配体复合物的策略。MM能量是通过Rosetta全原子力场获得的。考虑了非键合原子的吸引、排斥、静电和溶化能量项。这样得到的能量与用AutoDock Vina提取的分子描述符相结合，其中包括芳香碳、氢键接受体、可正电离和可负电离。然后，能量和描述符在一个三维网格中被体素化。CNN的结构是基于深度残差神经网络（Deep Residual Neural Network，ResNet）。RosENet在PDBBind v2016核心集上实现了1.24的均方根误差（Root Mean Square Error，RMSE）。

其他基于CNN的评分函数的相关例子包括TopologyNet, KDeep, OnionNet和Pafnucy。

2.2 其他架构

一些不同的架构，包括简单的全连接网络和图神经网络，也被探索作为蛋白质-配体复合物的评分解决方案。

NNScore代表了一个基于DNN的早期评分功能的例子。在这个模型中，蛋白质-配体复合物由紧密接触的原子类型对、静电作用能量、配体原子类型和配体可旋转键的数量来描述。这样得到的输入被送入一个全连接的NN。隐蔽层和输出层的所有神经元使用对数西格玛激活函数。通过使用25μM的Kd值作为阈值，NNScore被训练为区分结合物和非结合物。作者表明，通过使用单一的或用不同数据集训练的网络集合，NNScore能够与传统的方法相媲美或更优胜。在接下来的工作中，评分功能NNScore 2.0将会被描述。这个模型扩大了描述符的数量，以进一步描述分子间相互作用的物理化学性质。此外，NNScore 2.0直接预测Kd值，而不是作为一个二元分类器。

DLScore使用BINding ANAlyzer（BINANA）提取的348个描述符。计算出的描述符旨在代表蛋白质-配体复合物的特性，包括静电相互作用、结合口袋的灵活性、氢键、盐桥、可旋转的键、π-相互作用等等。该模型由10个完全连接的NN组合而成，每个NN都有不同的结构。最终的预测结果是通过对组合中每个网络的预测结果进行平均而得出的。这一策略的目的是利用各个架构的能力来学习不同的有用特征。

最近，一个利用原子环境向量（Atomic Environment Vectors，AEVs）的评分方案被描述为AEScore。AEVs是从原子中心对称函数（ACSFs）中获得的，旨在捕捉蛋白质-配体结合位点中每个原子的局部化学环境。相对于基于网格的方法，如用于CNN的方法，AEVs在翻译、旋转和镜像操作下是不变的。CNN的这一缺点通常是通过应用大量的数据增强来解决的，这增加了计算的负担。AEScore的灵感来自于Accurate NeurAl networK engINe for Molecular Energie (ANI)的NN势能的启发。该架构由一个原子NN组合组成（数据集中的每个元素都有一个）。原子网络是标准的前馈网络，具有ReLU激活功能和dropout层。最终的结合亲和力预测是由各个原子NN的输出相加得到的。

图形神经网络（Graph Neural Networks，GNNs）也被提议作为评估结合亲和力的方法。顾名思义，图形神经网络将由节点和边组成的图作为输入。已经探索了不同类型的GNN。例如，PotentialNet是基于图形卷积网络（GCN）架构。Lim等人提出了一个不需要启发式化学规则的GNN，通过设计距离感知的图注意（GAT）机制来处理非共价相互作用。

3 基于结构的虚拟筛选

3.1 分数预测

在SBVS中，一个小分子数据库被虚拟地对接在感兴趣的靶点的结合部位。值得注意的是，现在已经可以对接超过数亿的虚拟化合物的超大型库了。在对接1.7亿个化合物的库的研究中，发现了AmpC β-内酰胺酶的纳摩尔级别的抑制剂和多巴胺D4受体的皮摩尔级别的抑制剂。此外，最近还发布了一个开源库，可以在16万个CPU上在大约15小时内对接10亿个化合物。通过云计算，大型SBVS系统正变得越来越可行。然而，使计算尽可能的高效可以潜在的节省计算资源。文献中提出了基于ML的方法，将明确的对接计算集中在最有希望的配体上，从而使所需的计算资源量能够得到限制。例如，Gentile等人提出了一个名为Deep Docking的DL平台，它允许用户通过对接分数训练的DNN QSAR模型来浏览超大型库。Deep Docking管道允许根据简单的二维描述符（如分子指纹）快速预测对接分数。然后，只对被预测为更有可能获得好分数的化合物运行标准对接计算。

3.2 结合模式的预测

Jastrzębski等人应用DNN将对接姿势预测为PLIFs。PLIFs是一个位串（bit string），每个位代表配体和蛋白质结合位点的残基之间建立的非共价接触（如氢键、芳香族接触、盐桥）。这项工作测试了不同的ML模型。GCNs给出了最有希望的结果。Chupakhin等人以前曾报道过一项相关的研究。他们的模型是一个较简单的具有一个隐藏层的前馈NN。PLIF预测可以在VS中应用，将明确的对接计算集中在更有可能发生关键相互作用的化合物上。

4展望

DNNs为训练评分函数提供了一个多功能的工具箱。随着可用结构信息的增加，它们的适用性可能会增加。DNN评分函数通常是在已知结合亲和力的晶体复合物和虚拟筛选基准的数据集上训练和验证的。然而，应该谨慎行事。比如当使用包含诱饵（decoys）作为negatives的虚拟筛选基准时。分子诱饵通常是按照一套规则选择的，以匹配已知活性物的物理化学特性。然而，这样的数据集仍然可能包括一些偏见，这些偏见可以被强大的DNN模型所利用，导致人为地提高活性物质的富集度。

事实上，一些模型广泛地依赖于从配体中提取的信息，而不是从蛋白质-配体的相互作用中提取的信息。可以使用基于真实HTS数据的虚拟筛选基准，避免由选定的诱饵引入的偏差。此外，有研究表明，将活性配体的错误结合模式作为反面例子进行采样，可以鼓励模型考虑配体的环境。将DNN模型作为评分工具的研究显示了一个有趣的影响，即突出显示对预测贡献更大的原子或片段的可能性。这可以用于可视化，并有可能用于模型诊断或化合物优化。

在SBVS中，计算化学家通常会对所选择的评分函数提供的排名进行分析，同时对预测的结合模式进行自查。应用ML模型来预测既可能得分高又可能对接好的化合物的可能性，例如重现已知活性物质的相互作用模式，对于节省计算时间是非常有价值的。

值得注意的是，除了本章讨论的主题外，与SBDD相关的深度学习方法的应用还包括从相关配体构象的生成到蛋白质结构预测，以及结合点预测。

参考资料

https://link.springer.com/book/10.1007/978-1-0716-1787-8

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。

- 历史文章推荐 -

【Artificial Intelligence in Drug Design】

●全书介绍及目录

●第4章人工智能和机器学习在药物发现中的应用

●第8章用机器学习预测GPCR配体的结合持续时间

●第18章从组学数据中进行机器学习