基于蛋白质序列的氨基酸字母表简化
Simplification of amino acid alphabet based on protein sequences
通讯作者:
收稿日期: 2021-07-12
基金资助: |
|
Received: 2021-07-12
关键词:
Keywords:
本文引用格式
张鑫鹏, 王骏, 王炜.
Zhang Xinpeng, Wang Jun, Wang Wei.
与AlphaFold等端到端方法不同[2],我们希望从序列中获得更多可解释的信息.要得到蛋白质的各种表示,第一步通常是对氨基酸的描述.从历史上看,氨基酸是通过其物理化学性质或生物学观察来表示,如同源分类.人们尝试了一系列的简化氨基酸方法,包括基于遗传密码对称性破缺的研究、氨基酸间的物理化学相互作用、同源相似性等[9-15],由此产生的简化字母表是氨基酸的另一种表示形式.这些研究结果表明,氨基酸表示的简化存在一个下界,这也为进一步的表示提供了提示和检验:相关信息通常基于序列之外的知识.仅仅根据序列信息可以得出氨基酸的特征吗?事实上,在这个方向有许多尝试.例如,采用Skip⁃gram算法可以得到氨基酸三元组的嵌入式表示,这种表示有助于预测蛋白质的一系列性质(如家族识别、膜定位、热稳定性等)[16-19].此外,利用LSTM (Long Short⁃Term Memory)和transformers工具,也可以从大量序列中提取氨基酸的性质和结构特征[20].这些研究证明从天然蛋白质序列中读取氨基酸性质的可能性.然而,氨基酸的最小表示是什么?最小表示可以包括表示氨基酸和蛋白质的最小信息集.这个问题的答案对于建立蛋白质系统的物理图像是有价值但仍未知的,我们的工作将基于蛋白质序列来解决这个问题.
本文基于对自然语言的模仿建立了一个氨基酸的表示,然后采用一个生成模型(AA2Vec)将表示压缩到一定的维度
1 研究方法
1.1 氨基酸和近邻的共现矩阵
作为对自然语言的模仿,氨基酸被认为与它们在序列中的近邻密切相关.这不仅是对自然语言逻辑的外推,也是前人氨基酸三元组表示研究的提示.我们认为氨基酸与其近邻序列之间的关系反映了物理性质在序列上的连续性,因为局部物理性质的快速变化会给能量面带来更多阻挫,并且在进化过程中可能被抑制.基于这些考虑,通过扫描蛋白质序列,生成了20种氨基酸与400种相邻氨基酸(即氨基酸对)之间的共现矩阵.在矩阵中,
1.2 序列数据库
显然,共现矩阵可以仅基于序列信息来确定.因此,序列的选择是一个重要因素.原则上预期选择的序列在蛋白质序列空间中应该均匀分布,然而现有的序列库一般只是整个蛋白质体系的一小部分,由于现有的序列往往是特定生物学研究的对象,因此不能保证序列库的一致性.为了解决这个问题,根据蛋白质数据库Protein DataBank中的蛋白质生成数据集.具体地,采用序列集SCOPe10,SCOPe40,SCOPe70,SCOPe95,SCOPe100[21].我们相信结构的多样性可能有助于研究蛋白质序列空间的各个部分.为了保证分布均匀性和序列冗余性的一致性,SCOPe40可能是一个很好的数据集.下文中若无特定声明,都是使用SCOPe40数据集.事实上,序列范围的选择将研究限制在球状蛋白(Globular Proteins,GP)中.因此,对于内禀无序蛋白(Intrinsically Disordered Protein,IDP),使用基于DirProt数据库[22]的序列库.考虑到GP和IDP中显性相互作用的差异,这两种蛋白质可能具有不同的局部序列模式,本研究也进行了比较.AA2Vec模型的示意图如图1所示.
图1
图1
AA2Vec模型的示意图
The figure exemplifies the training process of the model. The orange and green blocks represent the amino acid matrix
Fig.1
Schematic overview of AA2Vec model
1.3 嵌入式表示的生成模型:AA2Vec
本研究期望得到一个氨基酸的嵌入表示,其中每个氨基酸都可以用一个
假设氨基酸
矩阵
在这种相互作用的描述下,期望相关三元组的概率可以由玻尔兹曼分布来估计.这是基于三元组的出现概率是独立的假设,并且这种假设是把周围其他相互作用看成是一种平均场.考虑到局域相互作用由化学键链接,侧链相互作用较强,这里局域作用和环境相互作用的分离是合理的.这种假设在很多蛋白质统计势研究中使用.这种特征的出现有物理的来源,因为蛋白质链柔性较强,紧邻残基间有较强的相互作用,因此相互间会表现出关联,也反映序列上属性特征的某种局域连续性特征,这和蛋白质二级结构一些统计分析方法的思路一致.模型预测分布:
其中,
参数
其中,
1.4 表示的鲁棒性
为了量化表示的酉不变性的满足程度,采用配对内积(Pairwise Inner Product,PIP)损失作为验证:
其中,
1.5 基于嵌入表示的多肽聚类
使用层次聚类算法对多肽向量进行聚类,以相关性作为距离度量,并设置阈值
2 结果和讨论
2.1 不同维度表示的确定
基于研究方法中描述的方法需要确定具有不同维度的嵌入表示,计算从1到30维的表示.对于维度为3的情况,可以得到一个典型的学习曲线(图2a).由图可见,经过35个周期后损失函数的值下降到4.在接下来的迭代中,损失函数逐渐饱和,表明优化的收敛性.还可以观察到,在学习过程(优化)的多次试验中,损失函数的收敛值几乎相同.此外,基于收敛处的表示还计算了概率
图2
图2
模型的训练结果:(a)在SCOPe40数据集上维度为3的训练曲线,插图为更小的x和y轴;(b)平均偏差
Fig.2
The training results of the model:(a) the training curve of the model with dataset SCOPe40 at dimension 3,while inset shows a smaller x⁃ and y⁃axis of the training curve,(b) the deviation
对于各种表示维度
2.2 关键表示的验证
基于对共现矩阵的重构,三维表示表现为共现矩阵的临界表示.与其他表示方法相比,这种表示方法特殊吗?聚焦于此表示,相互作用矩阵
表1
Table 1
Eigenvalue 1 | Eigenvalue 2 | Eignvalue 3 |
---|---|---|
矩阵
对于其他表示维度,可以执行类似的步骤.矩阵
如1.4所述,PIP损失的涨落是另一个评估表示鲁棒性的量.对于各种维度的表示,计算PIP损失(图3a).PIP损失值用黑点表示,平均值及其涨落用彩色的方块表示.由图可见,维数
图3
图3
在不同数据集上嵌入维度上PIP损失的标准差:(a) SCOPe40数据集;(b) SCOPe数据集;(c) DisProt数据集
There are 20 different embedding matrix for each dimension and each gray dot represents one PIP loss (194 dots in total). Each dimension's loss data is drawn with a box representing the lower bound,the first quartile,median,the third quartile and the upper bound of the data. Different color bars represent different dimension.
Fig.3
The standard deviation of all PIP losses for different embedding dimensions:(a) SCOPe40 dataset,(b) SCOPe datasets,(c) DisProt dataset
还可以观察到,上述特征对于不同的序列数据集都是鲁棒的.例如,对于各种基于作用域的序列数据,PIP损失在维度3处都具有最小的波动(图3b),进一步证明维度3对于氨基酸表示至关重要.作为对比,还对IDP序列进行同样的计算(图3c),其临界维度从3变为5.这可能是因为与GP系统相比,IDP系统中的相互作用更复杂,这两种蛋白质的比较将在以后的研究中进行.维度3反映了原有的共现矩阵可以被压缩为更为简单的矢量进行表示,反映了蛋白质体系内禀的简单性.其中,相似氨基酸的邻域氨基酸共现概率往往也较为相似,这反映了氨基酸之间的关联,这一关联意味着氨基酸特性的某种光滑性,这和氨基酸相邻氨基酸之间较强的局域相互作用有联系.这种关联造成了共现矩阵的可约化性.数据反映的三维极小也意味着最近邻相互作用主要由三种组成.通过投影和关联分析,发现这些属性和疏水性等指标存在明显的联系(图4),这反映了蛋白质体系中几种关键的相互作用,包括疏水、静电和芳香等近邻侧链相互作用.这种维度3的现象展示了蛋白质体系相互作用的基本特征.
图4
图4
氨基酸的三维嵌入空间:(a) 20种氨基酸均以红球的方式表示,每个字母代表氨基酸的缩写;(b)和(c)为同一个空间的二维投影
Fig.4
The three dimensional embedding space of amino acids:(a) 20 amino acids represented with red balls and each letter representing each amino acid,(b) and (c) the two dimensional projection of the space
除了序列上的最近邻,本文的方法也可以运用于空间上的最近邻.若要在方法上加入空间最近邻,需要建立蛋白质的接触图,并且统计接触图中每个氨基酸最近邻氨基酸,此时很有可能就是序列上的最近邻氨基酸.不过若加入空间上的最近邻(或者从最近邻提升到次近邻级别),可能会包含更多的长程相互作用信息.最佳嵌入维度可能会大于3,同时对称的相互作用矩阵W或许会有更多的线性无关的本征向量.
值得注意的是,共现矩阵可以用各种方法压缩.例如,可以用
2.3 三维嵌入空间
图5
图5
AA2Vec和非取整BLOSUM62的相似性对比:(a) x轴为BLOSUM相似性,y轴为AA2Vec表示空间的相似性,每个蓝色点代表一个氨基酸对;(b) BLOSUM62和AA2Vec相似性的分布直方图
(b) the histogram of BLOSUM62 and AA2Vec distribution
Fig.5
Similarity distribution difference between AA2Vec and non⁃rounded BLOSUM62:(a) all the similarity pairs with x⁃axis being BLOSUM62 and y⁃axis being AA2Vec,each blue dot represents one pair of amino acids,
图6
图6
20个氨基酸的层次聚类图
Cluster algorithm is based on euclidean distance. Rows and columns denote dimension indexes and amino acid type
respectively. Colors in each cell of the map stands for the value of the vector on that dimension. Green boxes circle 4 major clusters in hierarchical clustering.
Fig.6
The hierarchical cluster map of 20 embedding representations
2.4 与氨基酸其他性质的相关性
在蛋白质的相关研究中有许多基于各种实验和统计方法的氨基酸表示,前人的结果和本文的结果之间的定量比较可以检验本文表示的有效性.这里重点比较AAIndex数据库[28]中的各种疏水性指数.使用线性判别分析(Linear Discriminant Analysis,LDA)来进行比较,即需要找出三维表示空间中的最佳投影方向,并将得到的投影值与疏水指数进行比较.具体操作如下.
考虑到氨基酸侧链的疏水性,将带电氨基酸(DHREK)和疏水氨基酸(ILMVYWF)作为两个标记基团来计算投影方向.在三维嵌入空间中,DHREK有一个平均向量
图7
图7
LDA投影和相关系数:(a) LDA投影值和一个实验结果的对比[29],相关系数为0.91,每个字母为氨基酸的缩写,红色字母和蓝色字母为两组标记的氨基酸,绿色和黄色的氨基酸为未标记的氨基酸,是根据不同的物理化学性质分别标记的颜色;(b) LDA投影值和AAIndex数值的相关系数统计直方图,共35种亲疏水相关的实验值
Fig.7
The LDA projection and the corresponding correlations:(a) the LDA projection value against one experimental hydrophobicity value[29]. The corresponding correlation coefficient is 0.91. Each letter represents the corresponding amino acid's abbreviation. The letters in red and the letters in blue are the two groups of labeled amino acids. The letters in green and yellow are unlabeled amino acids and are colored differently because of their different physicochemical properties. (b) The LDA projection value's histogram of the correlation with AAIndex's indices. There are 35 different hydrophobic⁃related indices.
2.5 二级结构中的序列结构域的发现
本文的表示可以用于蛋白质研究中更复杂的任务.例如,通过沿着序列拼接氨基酸的表示向量可以用高维向量来描述蛋白质序列,这为序列引入了新的视角.简单地将重点集中在具有特定二级结构的含有六个氨基酸的短肽序列,短肽序列可以用
图8
图8
短肽层次聚类图
Four typical peptides and the corresponding proteins are shown on the left. The clustering table is shown on the right with three types of pattern. The first column is HP pattern with "H" standing for {AVLIMFW},"P" standing for
{STNQYKRHDE} and "_" standing for the others ({GCP}). The second column is positive and negative pattern with "P" standing for positive amino acids {RHK},"N" standing for {DE} and "_" standing for the others. The last column is aromatic and aliphatic amino acids pattern. We use "F" represents aromatic amino acids {HYWF},"Z" represents aliphatic amino acids {ILV} and "_" represents the others.
Fig.8
The hierarchical clustering result of the peptides
3 结论
天然蛋白质序列是自然进化的结果.这些序列编码了很多信息.在这项工作中,我们引入AA2Vec模型,仅从序列信息出发来提取氨基酸的嵌入表示,并得到了氨基酸的最小表示集.研究发现,氨基酸的三维表示反映了氨基酸的许多物理性质以及最近邻氨基酸相互作用,并且这一结果在多个数据集上表现鲁棒.我们的研究对于氨基酸字母表、特异二级结构片段、定量表示氨基酸物理化学性质等方面都有帮助.氨基酸属性的刻画和简化可以帮助建立更为合适的蛋白质物理模型,从而帮助和推进对蛋白质折叠的研究.当前的结果和针对蛋白质折叠中相互作用的一些特征是自洽的.局部属性和相互作用的平滑性也为蛋白质建模和简化预测模型提供了支撑,例如我们可以构建适当的粗粒化模型,这些对于蛋白折叠的研究有积极的意义.另外,我们的工作还可以在蛋白质功能位点预测、蛋白质结构预测和蛋白质功能预测等工作中为氨基酸表示或者表示维度的选取提供帮助.的确,蛋白质序列上有许多的中程与长程关联相互作用.我们也相信,氨基酸的嵌入表示可能为蛋白质的定量表示提供新方法,这将是今后研究的方向.
参考文献
Uniprot:The universal protein knowledgebase in 2021
,
Improved protein structure prediction using potentials from deep learning
,
Improved protein structure prediction using predicted interresidue orientations
,
Improved protein structure prediction by deep learning irrespective of co⁃evolution information
,
Analysis of distance⁃based protein structure prediction by deep learning in CASP13
,
Predicting protein⁃protein interactions through sequence⁃based deep learning
,
Accurate de novo prediction of protein contact map by ultra⁃deep learning model
,
Getting to know your neighbor:Protein structure prediction comes of age with contextual machine learning
,
Simplification of complexity in protein molecular systems by grouping amino acids:A view from physics
,
Amino acid classes and the protein folding problem
,
Distance⁃dependent classification of amino acids by information theory
,
A computational approach to simplifying the protein folding alphabet
,
Reduction of protein sequence complexity by residue grouping
,
Simplifying amino acid alphabets by means of a branch and bound algorithm and substitution matrices
,
Grouping of amino acid types and extraction of amino acid properties from multiple sequence alignments using variance maximization
,
Continuous distributed representation of biological sequences for deep proteomics and genomics
,
Distributed representations for biological sequence analysis
Learned protein embeddings for machine learning
,
Identifying antimicrobial peptides using word embedding with deep recurrent neural networks
,
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
,
SCOP:A structural classification of proteins database for the investigation of sequences and structures
,
Disprot:The database of disordered proteins
,
Learning atoms for materials discovery
,
Cultural shift or linguistic drift? Comparing two computational measures of semantic change
∥
Learning principled bilingual mappings of word embeddings while preserving monolingual invariance
∥
Offline bilingual word vectors,orthogonal transformations and the inverted softmax
Amino acid substitution matrices from protein blocks
,
AAindex:Amino acid index database,progress report 2008
,
Development of hydrophobicity parameters to analyze proteins which bear post⁃or cotranslational modifications
,
/
〈 | 〉 |