查看原文
其他

J. Chem. Inf. Model. | 增强指纹图注意力网络(FinGAT)模型用于抗生素发现

DrugAI DrugAI 2024-04-16

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自JunJie Wee和Kelin Xia团队的一篇关于抗生素发现的论文。人工智能(AI)技术在改变抗生素发现行业方面具有巨大潜力。高效和有效的分子特征化是实现高准确性学习用于抗生素发现的模型的关键。作者提出了一种通过结合基于序列的2D指纹和基于结构的图表示的指纹增强的图注意力网络(FinGAT)模型。在特征学习过程中,序列信息转化为指纹向量,结构信息通过GAT模块编码为另一个向量。这两个向量被连接并输入到多层感知机(MLP)进行抗生素活性分类。模型经过广泛的测试并与现有模型进行比较。研究发现, FinGAT在抗生素发现中可以胜过各种最先进的GNN模型。

传统上,大多数抗生素发现项目涉及对大量化合物库进行筛选,以寻找能够引发感兴趣表型的候选物。实验筛选过程不仅耗时,而且由于需要使用实验室设备测试大量化合物,也非常昂贵。迫切需要能够减少抗生素发现时间和成本的新方法。随着计算能力的增强和实验数据的积累,机器学习和深度学习模型已经开始展示在生物数据分析方面的强大能力。


机器学习方法的性能在很大程度上取决于分子特征化和表示。由于结构与功能之间存在着密切的关系,传统的分子描述符主要基于分子的结构特性进行设计。特别是各种二维(2D)指纹已被提出,包括基于亚结构关键的指纹、基于拓扑或路径的指纹、环形指纹和药效指纹。最近,基于先进数学的分子表示和特征化方法已得到发展,并且相关的学习模型在药物设计的各个环节取得了巨大成功,包括蛋白质-配体结合亲和力预测、蛋白质-蛋白质结合亲和力变化预测、毒性预测、溶剂自由能预测、分配系数和水溶解度、结合口袋检测以及药物发现等。


几何深度学习模型在非欧几里得数据分析中变得越来越受欢迎,例如网络、图形、网格等。特别是图神经网络(GNN)已被用于生物分子数据分析,并在药物设计和发现的各个环节取得了很好的性能,包括药物-靶标亲和力预测、蛋白质-蛋白质结合亲和力变化预测、分子性质预测等。图注意力网络(GAT)在信息传递过程中为节点之间的信息共享提供了更好的方式。具体而言,GAT利用注意力模块为不同的邻居节点分配不同的权重,并聚合加权节点特征以更新节点表示。GAT模型已被用于各种生物分子性质预测。


基本架构

图 1


表 1


指纹增强的图注意力网络(FinGAT)。FinGAT架构。图1显示了FinGAT模型的架构。它利用了两种类型的分子表示,即二维指纹和基于图的表示。对于二维指纹,作者考虑使用2048位的Morgan指纹(MorganFP),它可以从分子的SMILES序列生成。对于GAT部分,使用了一个具有5个头的GAT层来训练基于图的表示。图1B展示了5个头的图注意力机制的示意图。图形特征,即GAT的输入,存储在节点特征矩阵和邻接矩阵中。对于每个分子,根据RDKit中的分子图使用SMILES序列生成节点特征矩阵和邻接矩阵。需要注意的是,边表示分子中的共价键。邻接矩阵指示了分子图中的任意两个原子是否共享一个共价键。节点特征矩阵的每一行是一个大小为133的向量。节点和边特征的详细信息如表1所示。由于每个节点具有固定数量的邻居节点,因此可以利用这些特征进行图注意力机制的训练和更新。每个节点代表一个原子,节点特征是基于其对应的基于原子的属性使用RDKit构建的。通过将表1中的所有基于原子的属性组合起来,形成了一个大小为133的节点特征。类似地,边特征矩阵的每一行是一个大小为4的向量,包含了键类型、共轭性、环成员资格和立体化学等信息。这些信息也是从RDKit中计算得出的。


实验部分

表 2


作者评估了模型,该模型使用基于SMILES的Morgan指纹和基于结构的图注意机制来预测抗生素活性。由于实验数据集由2335个分子结构组成,在抗生素类别中表现出高度的不平衡,负类有2215个,正类有120个,因此进行了欠采样,即在负类中每5个样本中采样1个正类样本,以获得表2中所有模型的真正预测能力。在这项工作中,使用AUC、准确度、精确度、召回率和F1分数等性能指标来评估性能。考虑到5折交叉验证,表2列出了结果。可以看到,FinGAT模型获得了最佳性能。对于所有性能指标,FinGAT的结果约高出2%至10%。可以观察到标准差值显著降低,即大约降低2倍至5倍。这表明了FinGAT模型的优势。


在模型比较中,首先,作者系统评估了基于分子指纹的机器学习模型。作者使用了梯度提升树(GBT)模型,并研究了来自RDKit软件的八种不同类型的广泛使用的2D指纹,包括Avalon、Daylight、Estate1、Estate2、MACCS、Pharm2D、ERG和Morgan。结果显示,与其他7种2D指纹相比,Morgan指纹获得了最佳的AUC得分。


此外,我们评估了GNN模型的性能。作者考虑了图分类中的最先进的GNN模型,包括Chemprop、GraphSAGE、Graph Isomorphism Network(GIN)和Edge-Conditioned Convolution(ECC)。可以看到,这五个模型都能够提供相当好的抗生素活性分类结果,但是我们的FinGAT模型表现更好。这意味着基于SMILES的Morgan指纹和基于GAT的结构能够有效提升分类性能。此外,还考虑将Morgan指纹与GraphSAGE、GIN和ECC结合起来,即FinGraphSAGE、FinGIN和FinECC。表2中FinGraphSAGE、FinGIN和FinECC的结果显示,FinGAT模型表现最佳。


结论

由于抗生素耐药菌的迅速出现,对于抗生素发现这一重要的药物发现领域的需求不断增长。作者将Morgan指纹和基于图的表示相结合,形成了更强大的分子特征化方法,用于抗生素活性分类。作者的FinGAT模型优于最先进的GNN模型。在FinGAT模型中,作者提出了基于SMILES的Morgan指纹和基于GAT的结构相结合的方法,用于抗生素活性预测。在指纹研究中,作者首先使用梯度提升树比较了八种2D指纹的性能。结果显示,Morgan指纹在AUC得分方面优于其他所有指纹。


进一步地,作者系统地研究了指纹和基于图的表示的组合。结果发现,Morgan指纹与GAT相结合的模型优于其他所有组合模型。所有的配置都优于其他最先进的GNN模型。这再次证明了将2D和基于图的表示相结合的特征化方法的强大能力。总而言之,FinGAT通过结合2D指纹和分子的几何结构展示了预测能力。结果显示,这两种特征化方法对于分子性质鉴定,尤其是抗生素活性,至关重要。


参考资料

Choo, H. Y., Wee, J., Shen, C., & Xia, K. (2023). Fingerprint-Enhanced Graph Attention Network (FinGAT) Model for Antibiotic Discovery. Journal of Chemical Information and Modeling.

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存