下载此文档

基于图神经网络的抗结核杆菌...物虚拟筛选模型的建立及应用 顾耀文.pdf


文档分类:医学/心理学 | 页数:约22页 举报非法文档有奖
1/22
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/22 下载此文档
文档列表 文档介绍
该【基于图神经网络的抗结核杆菌...物虚拟筛选模型的建立及应用 顾耀文 】是由【迎春文档】上传分享,文档一共【22】页,该文档可以免费在线阅读,需要了解更多关于【基于图神经网络的抗结核杆菌...物虚拟筛选模型的建立及应用 顾耀文 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:.
数据分析与知识发现
DataAnalysisandKnowledgeDiscovery
ISSN2096-3467,CN10-1478/G2
《数据分析与知识发现》网络首发论文
题目:基于图神经网络的抗结核杆菌药物虚拟筛选模型的建立及应用
作者:顾耀文,郑思,杨丰春,李姣
网络首发日期:2022-06-14
引用格式:顾耀文,郑思,杨丰春,
模型的建立及应用[J/OL].数据分析与知识发现.
.
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN2096-4188,CN11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
:.
췸싧쫗랢쪱볤ꎺ2022-06-1416:42:26
췸싧쫗랢뗘횷ꎺ.
基于图神经网络的抗结核杆菌药物虚拟筛
选模型的建立及应用
顾耀文,郑思,杨丰春,李姣
(中国医学科学院/北京协和医学院医学信息研究所北京100020)
摘要:
[目的]构建和比较抗结核杆菌药物虚拟筛选模型,助力抗结核药物的研发。
[方法]本研究提出一种基于课程式学****优化的图神经网络模型GNN-MTB,用于抗结核杆菌
抑制剂的虚拟筛选。进一步,从开放数据库中收集整理抗结核杆菌药物筛选相关基准数据集,
将GNN-MTB与四种常规机器学****模型和两种图神经网络模型在基准数据集上进行性能比
较。
[结果]在包含10,789条抗结核杆菌药物虚拟筛选实验数据中的分析结果显示,GNN-MTB
模型的预测性能(AUC:,AUPR:)优于传统的机器学****模型和图神经网络模型
的性能表现(平均AUC:-,平均AUPR:-),平均AUC和AUPR的
%%。同时,本研究开源GNN-MTB模型并构建了抗结核杆菌
药物虚拟筛选预测工具以供广大抗结核杆菌药物研究者使用(-
yaowen/GNN-MTB)。
[局限]抗结核杆菌药物虚拟筛选模型建模可进一步纳入药物敏感性和菌株耐药性相关分析。
[结论]本研究提出的抗结核杆菌药物虚拟筛选模型GNN-MTB取得了良好性能,可进一步
探索将其应用于抗结核病药物研发。同时,本研究框架也可为其它疾病药物的虚拟筛选提供
参考。
关键词:图神经网络;课程式学****结核杆菌;虚拟筛选
中图分类号:R961;
GNN-MTB:AnAnti-MycobacteriumDrug
VirtualScreeningMethodbasedonGraph
NeuralNetwork
GuYaowen,ZhengSi,YangChunfeng,LiJiao
(InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100020,China)
Abstract::.
[Objective]Thisstudyaimstoconstructananti-tuberculosisdrugvirtualscreeningmodelforthe
researchanddevelopmentofanti-tuberculosisdrugs.
[Methods]Weproposedacurriculumlearning-optimizedgraphneuralnetworkmodelforanti-
tuberculosisinhibitorsvirtualscreening,whichcalledGNN-,abenchmark
datasetforanti-tuberculosisdrugswascollectedfromthepublicdatabase,thenwecomparedthe
performanceofGNN-MTBwithfourclassicmachinelearningmodelsandtwographneural
networkmodelsonthebenchmarkdataset.
[Results]Wecollectedandintegrated10,789availableanti-tuberculosisdrugscreening
-MTBmodelachievedthearea
underthereceiveroperatingcharacteristiccurve(AUC)-
recallcurve(AUPR),whichwerehigherthanmachinelearningandgraphneural

%%.Moreover,weopen-resourcedtheGNN-MTBandananti-
tuberculosisdrugvirtualscreeningtoolfortheuseofanti-tuberculosisdrugresearchers
(-yaowen/GNN-MTB).
[Limitations]Themodelingofvirtualscreeningmodelforanti-tuberculosiscanbefurther
integratedtheanalysisofdrugsensitivityandbacterialresistance.
[Conclusions]TheGNN-MTBproposedinourstudyachievedconsiderableperformanceinthe
anti-tuberculosisinhibitorpredictions,whichcanbeappliedtotheprocessofanti-tuberculosisdrug
,thismethodcanalsoprovidesupportfortheconstructionofother
disease/target-specificdrugvirtualscreeningmodels.
Keywords:GraphNeuralNetwork;CurriculumLearning;MycobacteriumTuberculosis;Virtual
Screening
1引言
结核病(Tuberculosis,TB)是一种由结核分枝杆菌(Mycobacterium
Tuberculosis,MTB)引起的传染病。据世界卫生组织统计,2017年估计有超过
1000万人新感染结核病[1];同时,结核病也是全世界传染病的主要死因[2],估计
每年有130万人死于肺结核。尽管利福平、异烟肼、吡嗪酰***等抗结核药物的产
生在一定程度上减缓了结核病的发展,%的速度
缓慢下降,但近年来耐多药结核病和广泛耐药结核病的出现给结核病防治带来了
新的威胁[3]。耐药性的出现显著降低了当前抗结核药物的治疗效果,造成了四分
之一的结核病死亡事件[2]。虽然目前出现了一些可用于治疗耐药性结核杆菌的药
物如贝达喹啉,但是因其价格高昂,仅有不到20%的患者能够获得药物治疗[4]。
因此,以快速高效的方式发现更经济实用的新型抗结核药物是非常必要的。
为了加快药物研发,计算方法已被广泛应用于药物研发的各个流程之中。药
物虚拟筛选(VirtualScreening,VS)是一种使用计算技术在药物发现过程的早期:.
阶段搜索小分子库,从而识别可能与靶标结合的化合物的技术。近年来,随着可
开放获取药物实验数据集的积累和人工智能技术的发展,形成了大量基于深度学体抑制剂[5]、广谱抗生素[6]等药物发现方面具有实际应用,但其在抗结核杆菌药
物虚拟筛选中的应用较少。为此,本研究基于课程式学****CurriculumLearning,
CL)和图神经网络(GraphNeuralNetwork,GNN)方法实现并构建了抗结核杆菌
抑制剂预测模型GNN-MTB,并在从开放获取的药物实验数据中收集了10,789种
化合物数据来开展抗结核杆菌药物虚拟筛选模型的训练和验证。在内外部验证集
上的模型性能表现结果表明,本研究提出的GNN-MTB模型具有良好的预测性
能,可用于大规模抗结核杆菌药物虚拟筛选之中,从而助力创新抗结核药物研发。
2研究现状
当前的药物虚拟筛选模型构建主要包括分子对接方法、统计方法、机器学****br/>方法和深度学****方法。
分子对接方法是通过空间匹配、能量匹配等算法模拟化学分子与受体作用位
点的相互作用并计算其结合亲和力的一种方法。它可以模拟得到分子与受体结合
的作用模式及三维构象,在药物虚拟筛选领域应用广泛。然而,该类方法的计算
复杂度较高、耗时较久,不利于大规模药物虚拟筛选实践。同时,部分研究认为
该类方法的准确度不高[7]。
统计方法是基于药效团、定量构效关系、结构相似性等理论发展而来的药物
虚拟筛选方法。该方法认为若待预测分子与已知的活性分子具有共同活性基团、
相似理化性质或高结构相似度,则该分子也具有较高的潜在活性。然而,该类方
法的筛选方式较为单一,且不能发现具有新颖结构的新型活性分子。
机器学****方法从分子结构中提取结构和理化性质特征,并构建稳定、传统的
机器学****模型用于药物虚拟筛选预测。如Kong等使用随机森林(RandomForest,
RF)[8]。然而,机器学****方法受分子
表征方法影响,而常用的高维、稀疏分子特征会造成分子结构信息损失,表征能
力受限。
深度学****方法使用卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循
环神经网络(RecurrentNeuralNetwork,RNN)、GNN等方法以端到端的方式学****br/>分子数据特征的高阶表征从而用于药物筛选预测。其中,GNN是一种被广泛应
用于图结构数据的神经网络[9]。对于药物分子数据,GNN以二维分子结构作为输
入并在非欧几里得空间内学****分子结构的高维表征,这种方法无需进行专家知识
依赖性强的特征工程,同时也大幅减少了分子结构信息损失[10],因此在药物虚拟
筛选中应用最为广泛。如Sakai等使用图卷积神经网络(GraphConvolutional
Network,GCN)构建化合物-靶蛋白结合活性预测模型,并发现了一种血清素转
运蛋白抑制剂[11]。以上最新研究证明了深度学****方法,尤其是图神经网络在药物
虚拟筛选中的有效性和应用价值。
在抗结核杆菌药物虚拟筛选方面,多数研究使用机器学****方法构建药物虚拟
筛选模型。如Prathipati等在包含3,779种化合物的数据集上构建了贝叶斯模型,
[12];Lane等在18,886种化合物的数据集上
评估6种机器学****模型的性能表现,[13];Ye
等使用极端梯度提升(ExtremeGradientBoosting,XGBoost)构建结核杆菌抑制
剂预测模型,[14]。这些以
往研究证明了利用机器学****模型构建抗结核杆菌药物预测模型的可行性,而对于
深度学****方法,有部分研究针对结核杆菌的药物耐药性构建深度学****模型[15,16],
但目前尚无研究使用图神经网络方法用于抗结核杆菌药物虚拟筛选模型构建。
3材料与方法
本研究的方法学流程如图1所示,包括数据获取、数据预处理、课程式学****br/>优化及GNN-MTB模型构建。:.
图1抗结核杆菌药物虚拟筛选模型构建流程
-tuberculosisDrugVirtualScreeningModel

本研究从开放数据库ChEMBL[17]收集得到ID为CHEMBL2111188的人型
结核杆菌H37Rv株的药物筛选实验数据,该原始数据包含23,509种使用分子线
性输入规范(SimplifiedMolecularInputLineEntrySpecification,SMILES)表示的
小分子化合物及最小抑菌浓度(MinimalInhibitConcentration,MIC)、生长抑制率
(GrowthInhibition)、MIC99、MIC90、半抑制浓度(IC50)、抑制率(Inhibition)
等10个测量终点,数值单位涉及nmol/L、μg/ml等,该数据集不同测量终点的
数据占比情况如图2所示。为了统一数据集的数值意义及单位,以及规范化化合
物结构表示,需要对该数据集进行清洗及预处理。:.
图2抗结核杆菌数据集各测量终点占比
-tuberculosisDataset

对于实验数值,在数据量最多的前3个测量终点中(MIC、GI、MIC90),GI
的数值单位为百分比,与MIC单位不符;而MIC90表示抑菌90%及99%所需要
的药物浓度,与MIC的指标意义不同,若强行对其进行数据合并会造成较大数
据偏倚。因此,为了得到高质量的药物筛选数据,本研究仅取测量终点为MIC的
13,371条数据进行进一步处理。之后,本研究将包含nmol/L和μg/ml的数值单
位统一转换为μmol/L,而由于不同化合物的MIC差距巨大(见图3),构建直接
用于预测MIC的模型具有很大难度。因此,根据先前抗结核杆菌药物虚拟筛选
建模研究[13,14,18],本研究以1μmol/L作为阈值识别有/无抗结核杆菌活性的潜在药
物,在完成阈值划分后,得到1,418种抗结核杆菌阳性药物及9,371种抗结核杆
菌阴性药物,用于构建抗结核杆菌药物筛选分类模型。:.
图3抗结核杆菌MIC数值核密度估计分布图
-tuberculosisMICValues
对于分子化合物,使用MolVS()进行结
构标准化,过程包括官能团标准化、中和电荷、过滤盐和溶剂碎片、互变异构及
立体化学异构规范化、过滤金属原子。最终从13,371条数据中清洗得到10,789
条经过分子标准化的可用数据。
在完成分子化合物结构预处理及实验数值预处理后,得到用于虚拟筛选建模
的数据集如表1所示,每条数据包含一个以SMILES表示的化合物及一个表示
抗结核杆菌阳/阴性的标签。
表1抗结核杆菌基准数据集示例表
Table1DiagramofAnti-tuberculosisDataset
SMILES标签
CC(C)c1csc(C(=O)NN)n10
COc1cc2ccc(=O)oc2cc1O0
NNC(=O)c1ccncc11
Cc1sc(N)nc1C(=O)O1
NC(=O)c1cnccn10

本研究所提出的模型GNN-MTB包括分子图表征层及分类层。对于分子图
表征层,本研究使用GCN构建并学****分子图数据的高阶表示向量。图卷积神经
网络的输入为包含节点和边的图结构数据,并通过聚合节点周围信息完成节点表
示更新从而学****到图数据的高维表征。给定分子图结构𝒢=(𝒱,ℰ),其中𝒱表示该:.
分子的节点集合,ℰ表示该分子的边集合。根据GCN分类模型的标准计算过程
(公式1-3)[19],给定该分子图的邻接矩阵𝑨及度矩阵𝑫,神经网络层,模型的
更新表示为:
−1−1
𝒉+1=𝜎(𝑫̃2𝑨̃𝑫̃2𝒉𝑾)(1)
其中𝒉+1为第+1的隐藏层中的节点表示,𝑾为第层的参数矩阵,𝜎=
max⁡(0,)为ReLU非线性激活函数。将两个GCN进行堆叠,使模型可以学****分
子图结构的高阶表征。之后,使用一个读出函数将分子图结构中的所有节点表示
加权聚合作为分子图表示向量𝒉𝒢:
𝒉=sum{𝜎(𝑎(𝒉))|∈𝒱}(2)
𝒢
其中𝜎为Sigmoid非线性激活函数。在学****得到分子图数据的表征后,本研
究使用多层感知机作为分类层,从而输出抗结核杆菌抑制剂预测概率:
output=𝑎(𝐵𝑎ℎ(𝜎(𝑎(𝐷(𝒉𝒢))))(3)
其中𝜎为ReLU非线性激活函数。至此,GNN-MTB的主体模型构建完毕。
之后,本研究使用课程式学****对GNN-MTB进行训练优化。
课程式学****是一种深度学****模型训练优化策略,它以人类“由易到难”地学****br/>课程知识为启发,通过设计、安排深度学****模型的模型训练过程,从而起到加速
模型收敛速度、提高模型泛化性的作用[20]。形式上,课程式学****使用难度评估器
将训练样本根据样本难度排序,并利用训练调度器调整训练次序,从而使神经网
络模型由易到难地训练[21]。
然而,由于多数课程式学****方法[22,23]的研究目标(文本、图像等数据)与药
物分子结构有较大差异,或研究任务与药物虚拟筛选相关性低,并不能应用于抗
结核杆菌药物虚拟筛选之中。而CurrM[24,25]是专用于分子图数据的课程式学****方
法,实验表明搭配CurrMG的GNN模型在多个药物属性预测基准数据集取得了
显著的性能提升。然而,CurrMG仅聚焦于药物属性预测任务,其在药物虚拟筛
选中的应用效果仍待探索。为此,本研究采用CurrMG方法建立用于抗结核杆菌:.
药物虚拟筛选模型的最适课程式学****训练过程(公式4-7),给定第个分子,难
度评估器()使用分子中环结构内的sp3碳原子在总碳原子的含量表示训练难
度:
3⁡
𝑁
𝐹3()=(4)
𝑁
3⁡
其中和分别为该分子的总碳原子数量和sp3碳原子数量。
在得到分子难度后,使用累积分布函数(CumulativeDistributionFunction,CDF)
进行归一化:
̂=⋃𝑁()=⋃𝑁𝑃(≤)(5)
=1𝐹=1
由此得到训练集的分子训练难度集合̂∈(0,1]。
训练调度器()仅与当前训练次数相关,使用一单调递增曲线(Competence
function)[26]作为样本难度阈值,从而控制当前的数据采样空间。给定总训练次
数,()表示为:
21−022
()=min(1,√+0)(6)
𝑇
𝑁ℎ
其中0=为一初始化参数用于保证首次训练能采样到足够数据,而
𝑁
∈(0,1]。易知̂与具有相同数值区间,因此可以将代表模型状态
的对应到̂从而控制当前训练次数下对应的训练样本采样空间。采样过
程可以表示为:
𝒟ℎ()=𝑎⁡𝑎𝑔(𝒟𝑒()),∀⁡̂𝑒≤()(7)
其中𝒟𝑒表示为当前训练次数下课程式学****得到的训练数据采样空间,之
后使用随机采样方法生成最终的训练数据𝒟ℎ。通过该方法,可以将训练样本:.
与模型状态进行交互,从而在模型训练过程中控制训练样本有序输入模型,逐渐
学****到更优的模型参数。
此外,为了保证模型训练过程的数值稳定性,本研究使用带有logits项的交
叉熵作为GNN-MTB的损失函数,该损失函数是用于分类任务训练的常用损失
函数,表示为:
(,)=∑𝑁−[∙log⁡(𝜎())+(1−)∙log(1−𝜎())(8)
=1
其中为数据集大小,为第个分子的预测结果,为第个分子的真实标签,
𝜎为Sigmoid激活函数。

为了比较基于课程学****的图卷积神经网络与其他已有方法的优势,根据先前
研究,本研究构建了4种基于分子指纹特征表示的机器学****模型及基于分子图结
构表示的图神经网络模型作为基线模型,从而进行比较。
分子指纹是一种将分子化学结构分解为子结构、并进行哈希编码从而向量化
的分子特征表示方法,可以将分子结构按照特定子结构表示为稀疏的高维离散向
量,已被大量研究用于分子性质预测、药物靶点亲和力预测、虚拟筛选等任务中。
本研究采用枚举半径为2的扩展连通性指纹(ExtendedConnectivityFingerprints,
ECFP)对抗结核杆菌数据集中的化合物结构进行编码,用于机器学****模型训练。
本研究所使用的机器学****基线模型包括随机森林(RandomForest,RF)、支
持向量机(SupportVectorMachine,SVM)、多层感知机(MultilayerPerceptron,
MLP)及梯度提升决策树(GradientBoostingDecisionTree,GBDT),以上模型被
广泛用于抗结核杆菌药物虚拟筛选的建模之中[13,18]。以上4种机器学****模型分别
使用ECFP4分子指纹特征训练,输出抗结核杆菌预测概率值。
本研究同时使用两种经典图神经网络模型作为基于图神经网络的基线方法,
包括图注意力网络(GraphAttentionNetwork,GAT)和消息传递神经网络(Message
PassingNeuralNetwork,MPNN)。
GAT是一种将多头注意力机制融入图神经网络的方法[27]。它的更新表示为:
+11𝐾
𝒉=𝜎(∑=1∑∈𝒩𝛼𝑾𝒉)(9)
𝐾:.
其中𝛼为第个注意力头中原子对原子的注意力系数,𝑾为模型参数矩阵,
𝜎为非线性激活函数。而𝛼注意力系数可以表示为:
exp(𝜎(𝑇∙[𝐖𝒉‖𝐖𝒉]))
𝛼=𝑇(10)
∑∈𝒩exp(𝜎(∙[𝐖ℎ‖𝐖𝒉]))
其中𝑎和W为模型参数矩阵,𝜎为非线性激活函数。
MPNN包含消息传递模块、节点更新模块和聚合模块,是一种通用的图神经
网络模型[28]。MPNN的更新可以表示为:
𝒉+1=(𝒉,∑(𝒉,𝒉,))(11)
∈𝒩
其中为节点更新模块、为消息传递模块,为原子和原子之间的边。

本研究按照8:1:1比例将数据集随机分割为训练集、验证集和测试集,用
于预测抗结核杆菌药物的分类模型在训练集数据上训练,在验证集上选择最优表
现模型,并在测试集上评估模型最终表现。同时,使用不同随机种子重复5次数
据集分割及训练过程,从而避免数据集偏倚。
为了全面评估模型表现,本研究使用AUC、精确率-召回率曲线下面积AUPR
(AreaUnderPrecision-RecallCurve)和F1-分数(F1-Score)作为模型评估指标,
其中AUC用于评估模型绝对性能表现,而AUPR和F1-Score用于评估抗结核杆
菌抑制剂分类预测模型对于不平衡数据集的预测性能表现。
-MTB的抗结核杆菌药物筛选工具
为了增强GNN-MTB的易用性和可及性,本研究将预训练的GNN-MTB模
型开源,并使用tkinterPythonAPI构建了基于GNN-MTB的抗结核杆菌药物虚
拟筛选工具(工具界面展示见图4),该工具可在本地直接运行,输入包含
“SMILES”-MTB模型输出抑制剂预测结果文件。:.
图4基于GNN-MTB的抗结核杆菌药物虚拟筛选工具界面展示
-MTBBasedAnti-tuberculosisDrugVirtualScreeningTool
4结果

本研究将GNN-MTB分别与四种机器学****模型(RF、SVM、MLP、GBDT)
和两种图神经网络模型(GAT、MPNN)进行对比,在测试集上的模型表现如表
2所示。模型结果显示本研究提出的模型取得了最优的AUC、AUPR及F1-Score
表现,相比于机器学****和图神经网络模型,GNN-MTB的平均AUC、AUPR及
F1-%,%%,提升较为明显。同时,
以上7种模型的受试者-工作特征(Receiver-OperatingCharacteristic,ROC)曲线
和召回率-精确率(Precision-Recall,PR)曲线(见图5、6)结果表明,GNN-MTB
的总体预测性能良好,可以作为一种有竞争力的方法用于抗结核杆菌的药物虚拟
筛选流程。
表2模型表现对比结果表
Table2ComparisonofModelPerforman

基于图神经网络的抗结核杆菌...物虚拟筛选模型的建立及应用 顾耀文 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数22
  • 收藏数0 收藏
  • 顶次数0
  • 上传人迎春文档
  • 文件大小1.45 MB
  • 时间2022-11-25