机器学习在蛋白质疏水相互作用模型研究中的应用
Application of machine learning in the study of the hydrophobic interaction model of proteins
Received: 2023-09-27
关键词:
Keywords:
本文引用格式
冯晨博, 马维强, 程润, 王骏.
Feng Chenbo, Ma Weiqiang, Cheng Run, Wang Jun.
蛋白质是地球生命体系中重要的功能高分子,在新陈代谢、物质运输、形成细胞骨架、催化反应、免疫反应等过程中都发挥着积极的作用.在蛋白质结构形成过程和功能运动中,分子内相互作用是决定这些行为的核心物理要素,而在各种分子内相互作用中,疏水相互作用有十分重要的作用和意义.据估计,在单域球蛋白中,疏水相互作用占总体折叠自由能的70%~80%,这一现象启发了多种简化模型,如HP模型等,这些模型为蛋白质折叠物理理论的研究提供了基本物理基础和典型物理模型.然而,疏水相互作用不同于经典相互作用等微观相互作用,它来源于蛋白质分子与溶剂水分子的相互作用、水分子之间的相互作用以及水分子部分的熵效应,要把这些效应唯象定义为蛋白质自身自由度的函数,常用的方法是通过对所有溶剂坐标积分来定义平均力势.但事实上,在微观时间和空间尺度上,还存在来自动力学的更多复杂性.在这种情况下,蛋白质体系中的疏水相互作用一定是蛋白质原子坐标的复杂多体函数,这使得描述疏水相互作用具有内秉的复杂性,成为一件非平凡的工作,
其中,系数
近年来,人工智能技术发展迅猛,其不仅在图像/视频识别[6-9]、自然语言分析[10-13]、游戏博弈[14-17]等经典领域发挥十分重要的作用,还在疾病诊断[18-19]、药物设计[20-21]、结构生物学[22-23]、材料计算[24-25]乃至高能物理[26-27]等众多领域也发挥了十分积极的作用.这归因于深度学习(深度神经网络)方法在因果推断、模型表示等方面的突出弹性,也为研究复杂多体关联提供新的手段和工具.本文尝试运用深度神经网络的方法,基于深度势能架构,以解析计算结果为标记,对SASA这一物理量进行学习,实现高精度的SASA预测,相应的计算速度也显著高于解析计算.这一模型实现了对蛋白质体系多体相互作用的重构,给出了一种准确且高效的计算手段,为提升蛋白质模拟效率提供支撑.
1 方法
监督学习是一种机器学习范式,是从成对的样本和与其相关联的标签中尝试学习一个函数,将输入的特征向量映射为输出,从而基于任意的可能输入来推断问题的答案.对于蛋白质SASA的预测问题,本文借鉴了基于深度神经网络的分子动力学模拟方案——深度势能分子动力学(Deep Potential Molecular Dynamics,DPMD)[28].
1.1 模型
为了降低问题的复杂度,将蛋白质的总SASA拆分为单个原子的SASA之和,而单原子SASA的预测依赖于原子的自身性质和其近邻环境.对于每个待计算的中心原子,首先提取与其相交的所有近邻原子,并求出近邻原子与中心原子的相对坐标,保证系统的平移对称性.然后,将近邻原子按照与中心原子的距离排序,保证系统的置换对称性.最后,使用两个最近邻原子建立坐标轴的参考向量(如图1所示,图中原子j和k为原子i的最近邻和次近邻原子,l为任意待旋转的近邻原子.
其中,
图1
图1
原子i的局域坐标系示意图
Fig.1
The schematic diagram of the local coordinate related to the Atom i
最后,将旋转后的近邻坐标除以其与中心原子的距离,以分开输入角度和距离信息.据此,每个近邻原子与三条局域坐标轴夹角的余弦值、与中心原子的距离倒数以及自身半径,共计5维向量作为近邻的描述符被输入网络.为了保证输入向量定长,只有离中心原子最近的固定个数的近邻信息得到保留.图2展示了不超过一定近邻数的原子SASA之和占全部原子SASA的比例(SASA ratio)与近邻数M的关系.这一比例在近邻数小于40时快速增长,近邻数为56时对应比例已超过99%(如图中红色虚线所示),即包含更多近邻的原子SASA之和不超过数据集中所有样本SASA总和的1%,可以忽略,这反映了空间堆积的饱和性,此时即使选取更大的近邻数阈值,对SASA的影响也很小.故选取截断近邻数
图2
图2
一定近邻数以内的原子SASA之和所占比例与近邻数M的关系
Fig.2
The ratio of SASA with an assigned number of neighbors
1.2 神经网络结构和训练过程
得到的近邻信息被输入一个全连接的前馈网络,数据从输入层到输出层单向传播.该神经网络共有七个隐层,每层节点数分别为
图3
图3
SASA预测方法和神经网络架构示意图
Fig.3
Schametic diagram of SASA prediction work⁃flow (a) and the related neural network architecture (b)
网络的损失函数由两部分组成:
比例函数
losssingle为输出值与标签的均方误差(Mean⁃Square Error,MSE),losssum考察批次的整体误差.训练前期
训练过程中使用Adam优化器调整权重,每次从数据集中随机抽取1000个数据组成一个批次(batch)输入网络,训练100个周期.每个周期调整权重的次数为训练集的样本数除以每个批次中的样本数,即
使网络倾向于选择参数值分布的熵更小的简单模型,从而限制模型的复杂度.
1.3 数据集
图4
2 结果与讨论
2.1 模型训练
使用Nvidia RTX 2070训练约16 h后得到的学习曲线如图5所示,图中对应训练集的结果用红线表示,对应验证集的结果用蓝线表示,包括训练集和验证集的平均绝对误差
图5
图5
使用蛋白质全原子结构训练的模型的学习曲线
Fig.5
The learning curve during the training processes with all⁃atomic protein structures
2.2 对SASA的预测
图6
图6
(a)单原子SASA的预测值和解析值对比;(b)单原子SASA预测值的平均绝对误差与SASA的关系
Fig.6
(a) The comparison between the predicted and actual SASA for a single atom,(b) the MAE of predicted atomic SASA for the cases with various atomic SASA
图7
图7
(a)蛋白质总SASA的预测值
Fig.7
(a) The comparison between the predicted and actual SASA for proteins,(b) the predicted relative error for the proteins with various numbers of atoms
2.3 对解折叠蛋白质的预测
以上的预测蛋白质处于天然的折叠态,为了进一步验证网络对蛋白质SASA的预测能力,将其应用到训练集中未曾出现的解折叠态蛋白质中,对测试集中被加热解折叠的三个蛋白质进行了测试,得到的结果如表1所示.比较网络对这三个蛋白在折叠态和解折叠态的预测误差,可以看出,和折叠态相比,解折叠态的蛋白质SASA都有升高,这符合折叠态是蛋白质自由能极小状态的观点.但其预测的相对误差都有显著增大,从0.5%扩大到1%左右,说明解折叠态中的原子环境与训练集中的折叠态存在较大差异,表明该网络对未曾接触的数据的可迁移性还有欠缺.
表1 折叠和解折叠态蛋白预测误差比较
Table 1
蛋白ID | 折叠态 解析值 | 折叠态 预测值 | 相对 误差 | 解折叠态 解析值 | 解折叠态 预测值 | 相对 误差 |
---|---|---|---|---|---|---|
dlsr4b_ | 11837 | 11892 | 0.459% | 14070 | 14241 | 1.21% |
dlssxa_ | 7844 | 7885 | 0.523% | 12938 | 13037 | 0.765% |
dlu8fo2 | 8973 | 8944 | 0.323% | 10577 | 10679 | 0.965% |
2.4 网络精度及效率
图8
图8
神经网络预测精度和训练集容量Nsample的关系
Fig.8
The relations between the predicted accuracy and the size of training set
图9
图9
不同方法对不同大小蛋白质SASA的预测用时对比
Fig.9
The time to calculate SASA for various sizes of proteins by different algorithms
2.5 拓展应用
图10
图10
亲水残基(a)和疏水残基(b) SASAres的直方图统计
Fig.10
Histograms of SASA for the hydrophilic (a) and hydrophobic (b) residues
完整结构中的4120万个原子包含520万个α碳原子,选取
图11
图11
(a)基于α碳结构的蛋白质总SASA预测值与解析值对比;(b)预测相对误差
Fig.11
(a) The comparison between the predicted and actual SASA of proteins,(b) the predicted relative error for the proteins with various sizes
3 结论
深度学习的发展为研究多体相互作用带来了新范式,将神经网络方法应用到蛋白质SASA的计算是一种新尝试.本文提取单个原子环境信息并转换到满足对称性要求的局域坐标系中,将数据集输入深度神经网络,通过最小化损失函数来优化网络权重参数,使其自行学习多体相互作用.将训练稳定的网络预测的结果与使用解析工具ARVO计算的SCOPe数据集中蛋白质所含原子的各自暴露面积进行比较,发现在对单原子SASA预测时,MAE和整体误差分别为
参考文献
ARVO:A Fortran package for computing the solvent accessible surface area and the excluded volume of overlapping spheres via analytic equations
,
Optimizing the affinity and specificity of ligand binding with the inclusion of solvation effect
,
Continuum solvation models:A new approach to the problem of solute's charge distribution and cavity boundaries
,
Solvation energy in protein folding and binding
,
The interpretation of protein structures:Estimation of static accessibility
,
Object detection in 20 years:A survey
,
Adversarial attacks on neural network policies
A comprehensive survey of deep learning for image captioning
,
Computer vision for autonomous vehicles:Problems,datasets and state of the art
,
Recent trends in deep learning based natural language processing
,
Deep learning⁃based text classification:A comprehensive review
,
Neural language generation:Formulation,methods,and evaluation
Mastering the game of Go with deep neural networks and tree search
,
Mastering the game of go without human knowledge
,
Deep learning for video game playing
,
Grandmaster level in StarCraft II using multi⁃agent reinforcement learning
,
Deep learning and medical diagnosis:A review of literature
,
Clinically applicable deep learning for diagnosis and referral in retinal disease
,
The rise of deep learning in drug discovery
,
Deep learning in drug discovery:Opportunities,challenges and future prospects
,
Highly accurate protein structure prediction with AlphaFold
,
A review of deep learning in the study of materials degradation
,
Deep materials informatics:Applications of deep learning in materials science
,
Searching for exotic particles in high⁃energy physics with deep learning
,
Deep learning and its application to LHC physics
,
Deep potential molecular dynamics:A scalable model with the accuracy of quantum mechanics
,
SCOPe:Structural Classification of Proteins⁃extended,integrating SCOP and ASTRAL data and classification of new structures
,
SCOPe:Improvements to the structural classification of proteins⁃extended database to facilitate variant interpretation and machine learning
,
A new analytical method for computing solvent‐accessible surface area of macromolecules and its gradients
,
Exact and efficient analytical calculation of the accessible surface areas and their gradients for macromolecules
,
FreeSASA:An open source C library for solvent accessible surface area calculations Version 1
:2 approved. F1000Research,
Accessible surface area and accessibility calculation for protein
,
Numba:A LLVM⁃based python JIT compiler
∥.
Dropout:A simple way to prevent neural networks from overfitting
,
/
〈 | 〉 |