南京大学学报(自然科学), 2022, 58(1): 103-114 doi: 10.13232/j.cnki.jnju.2022.01.011

基于蛋白质序列的氨基酸字母表简化

张鑫鹏, 王骏,, 王炜,

南京大学物理学院,南京,210093

Simplification of amino acid alphabet based on protein sequences

Zhang Xinpeng, Wang Jun,, Wang Wei,

School of Physics,Nanjing University,Nanjing,210093,China

通讯作者: E⁃mail:wangj@nju.edu.cnwangwei@nju.edu.cn

收稿日期: 2021-07-12  

基金资助: 国家自然科学基金.  11774157.  11934008

Received: 2021-07-12  

摘要

蛋白质的结构和功能特性由其氨基酸序列编码,控制序列结构映射的规则被认为是二级遗传密码,氨基酸字母表的简化可以减少蛋白质序列中的冗余,有助于揭示编码规则.基于氨基酸的单体特征、成对相互作用和相似性,可以简化氨基酸字母表.目前,仅基于蛋白质的序列信息,根据最近邻氨基酸的出现频率构建了一个氨基酸的嵌入表示.在此基础上,提出一种通过重构最近邻氨基酸的出现频率来压缩嵌入表示的模型,将此方法命名为AA2Vec.实验结果表明,与其他表示维相比,特定表示维(三维)具有显著的鲁棒性.提取的信息捕捉了氨基酸的物理化学和生化特性以及最近邻氨基酸之间的相互作用.值得注意的是,提出的方法对于具有不同序列标识的序列数据集(SCOPe)是稳定的.这种方法给出了氨基酸的最简表示,有助于生成蛋白质序列的简化表示和建立蛋白质的简化模型.

关键词: 序列信息 ; 氨基酸相互作用 ; AA2Vec ; 氨基酸字母表

Abstract

The Structural and functional properties of proteins are encoded in their amino acid sequences. The rules governing the sequence⁃structure mapping are believed as the secondary genetic code. The simplification of the amino acid alphabet is a way to reduce the redundancy in the protein sequences and to help to disclose the coding rules. Based on the monomeric features as well as pairwise interactions and similarity of the amino acids,the amino acid alphabet can be simplified. Now,based on solely the sequence information of proteins,we construct an embedded representation of amino acids based on the occurrence frequency of the nearest neighbor amino acids. Based on this representation,we propose a model to compress the embedded representation by reconstructing the occurrence frequency of the nearest neighbor amino acids. We name this method AA2Vec. It is observed that the specific representation dimension (the three dimension) has a significant robustness comparing with the others. The extracted information captures the physicochemical and biochemical properties of amino acids and nearest neighbor amino acids' interaction. It is worth noting that our method is stable for sequence dataset (SCOPe) with different sequence identities. Our method proposes the minimal representation of amino acids and this kind of characterization may help to generate simplified representations for protein sequences and to build simplified models for proteins.

Keywords: sequence information ; amino acid interaction ; AA2Vec ; amino acid alphabet

PDF (1579KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张鑫鹏, 王骏, 王炜. 基于蛋白质序列的氨基酸字母表简化. 南京大学学报(自然科学)[J], 2022, 58(1): 103-114 doi:10.13232/j.cnki.jnju.2022.01.011

Zhang Xinpeng, Wang Jun, Wang Wei. Simplification of amino acid alphabet based on protein sequences. Journal of nanjing University[J], 2022, 58(1): 103-114 doi:10.13232/j.cnki.jnju.2022.01.011

天然蛋白质是具有重要生物学功能的线性大分子,蛋白质的结构和功能信息大部分被编码于氨基酸序列中,其映射关系受基本物理定律的控制这一观点已被广泛接受.随着蛋白质序列的快速增长,如何从序列中挖掘信息是生物物理学的核心问题之一(如蛋白质折叠问题)1.近年来,借助机器学习方法,人们可以直接通过序列预测蛋白质天然态结构2.蛋白质的许多性质,如二级结构、接触点和生物活性等,都可以看作是基于监督学习的序列信息提取2-8.这些结果证明仅仅基于序列信息理解蛋白质系统中的物理的有效性,并提出了一种基于序列信息重建蛋白质理解的新范式.

与AlphaFold等端到端方法不同2,我们希望从序列中获得更多可解释的信息.要得到蛋白质的各种表示,第一步通常是对氨基酸的描述.从历史上看,氨基酸是通过其物理化学性质或生物学观察来表示,如同源分类.人们尝试了一系列的简化氨基酸方法,包括基于遗传密码对称性破缺的研究、氨基酸间的物理化学相互作用、同源相似性等9-15,由此产生的简化字母表是氨基酸的另一种表示形式.这些研究结果表明,氨基酸表示的简化存在一个下界,这也为进一步的表示提供了提示和检验:相关信息通常基于序列之外的知识.仅仅根据序列信息可以得出氨基酸的特征吗?事实上,在这个方向有许多尝试.例如,采用Skip⁃gram算法可以得到氨基酸三元组的嵌入式表示,这种表示有助于预测蛋白质的一系列性质(如家族识别、膜定位、热稳定性等)16-19.此外,利用LSTM (Long Short⁃Term Memory)和transformers工具,也可以从大量序列中提取氨基酸的性质和结构特征20.这些研究证明从天然蛋白质序列中读取氨基酸性质的可能性.然而,氨基酸的最小表示是什么?最小表示可以包括表示氨基酸和蛋白质的最小信息集.这个问题的答案对于建立蛋白质系统的物理图像是有价值但仍未知的,我们的工作将基于蛋白质序列来解决这个问题.

本文基于对自然语言的模仿建立了一个氨基酸的表示,然后采用一个生成模型(AA2Vec)将表示压缩到一定的维度d,氨基酸就被表示为一系列的d维向量,可以观察到三维表示是最小的且具有足够表示精度的表示.此外,基于表示的多态性,检验了d维表示的鲁棒性.也就是说,在多次模型的参数优化后,可以得到任意两个表示空间旋转后表示结果之间的最小重叠,然后计算了重叠的涨落以量化嵌入表示的鲁棒性.令人惊讶的是,三维表示具有最强的鲁棒性(即表示之间的重叠存在最小涨落),这意味着三维表示提供了氨基酸的正确描述.三维表示在氨基酸的分组、疏水性的关联、二级结构序列的发现等方面有广泛的应用.这些证明了蛋白质研究中三维表示的潜在能力.

1 研究方法

1.1 氨基酸和近邻的共现矩阵

作为对自然语言的模仿,氨基酸被认为与它们在序列中的近邻密切相关.这不仅是对自然语言逻辑的外推,也是前人氨基酸三元组表示研究的提示.我们认为氨基酸与其近邻序列之间的关系反映了物理性质在序列上的连续性,因为局部物理性质的快速变化会给能量面带来更多阻挫,并且在进化过程中可能被抑制.基于这些考虑,通过扫描蛋白质序列,生成了20种氨基酸与400种相邻氨基酸(即氨基酸对)之间的共现矩阵.在矩阵中,Mij元素记录了氨基酸i1i20)具有上下文对j1j400)的情况数.为了消除自然界中氨基酸丰度的影响,共现矩阵可以沿行或列进行归一化,分别为PijR=Mij/k=1400MikPijC=Mij/k=120Mkj.模型使用列归一化PC.三元组扫描的步长幅度为1.例如对于一个短序列EFCDA,从左开始记录EFC,FCD,CDA各一次.并在统计时忽略头部氨基酸E和尾部氨基酸A.对于整个序列,末端氨基酸的数目是很少的,末端氨基酸的忽略不会引起统计结果的偏倚.

1.2 序列数据库

显然,共现矩阵可以仅基于序列信息来确定.因此,序列的选择是一个重要因素.原则上预期选择的序列在蛋白质序列空间中应该均匀分布,然而现有的序列库一般只是整个蛋白质体系的一小部分,由于现有的序列往往是特定生物学研究的对象,因此不能保证序列库的一致性.为了解决这个问题,根据蛋白质数据库Protein DataBank中的蛋白质生成数据集.具体地,采用序列集SCOPe10,SCOPe40,SCOPe70,SCOPe95,SCOPe10021.我们相信结构的多样性可能有助于研究蛋白质序列空间的各个部分.为了保证分布均匀性和序列冗余性的一致性,SCOPe40可能是一个很好的数据集.下文中若无特定声明,都是使用SCOPe40数据集.事实上,序列范围的选择将研究限制在球状蛋白(Globular Proteins,GP)中.因此,对于内禀无序蛋白(Intrinsically Disordered Protein,IDP),使用基于DirProt数据库22的序列库.考虑到GP和IDP中显性相互作用的差异,这两种蛋白质可能具有不同的局部序列模式,本研究也进行了比较.AA2Vec模型的示意图如图1所示.

图1

图1   AA2Vec模型的示意图

The figure exemplifies the training process of the model. The orange and green blocks represent the amino acid matrix Uand the neighboring matrix V. The table on the top right is the normalized co⁃occurrence matrix M. Entries of the co⁃occurrence matrix M denote the probability that amino acids appear in the neighbor.

Fig.1   Schematic overview of AA2Vec model


1.3 嵌入式表示的生成模型:AA2Vec

本研究期望得到一个氨基酸的嵌入表示,其中每个氨基酸都可以用一个d维向量来表示(通常假定为 d).显然,基于归一化共现矩阵PijR,每个氨基酸a可以由400维向量PajR表示,用奇异值分解算法压缩这种表示是可能的.然而,在目前的情况下,这种描述不能反映共现矩阵的某些特征;另外,近邻也是由氨基酸组成的氨基酸对,因此,400维向量的分量之间存在复杂的相关性.矩阵的线性分解不能捕捉这种相关性,应该考虑更复杂的方法.

假设氨基酸a有一个压缩表示,即一个d维向量ua=uka1kd).对于相邻的一对氨基酸bc,能用氨基酸向量(即ubuc)来表示这对氨基酸吗?考虑到氨基酸ab/c之间不可忽略的相互作用,相邻对的表示应该反映氨基酸与其相邻氨基酸之间的差异.将氨基酸a与其邻域b/c之间的有效相互作用定义为:

Ea;b,c=-vaWvb+vc/2-uavb+vc/2

矩阵W反映近邻氨基酸相互作用,vbc

W-1ubc+v¯表示相邻氨基酸bc的特征.v¯是矩阵V的质心,V是相邻氨基酸矩阵(V20×d).这也表示氨基酸感受到的近邻氨基酸的属性有所变化,这来源于氨基酸链内部的化学键约束.值得注意的是,常量v¯不会影响AA2Vec模型.这个常数可以看作相互作用E的强度.另外,忽略多肽序列的方向也暗示矩阵W的对称性,这对于短肽链是合理的.这种定义与自然语言处理中的连续词袋(Continuous Bag⁃of⁃Words Mode,CBOW)模型有相似之处.

在这种相互作用的描述下,期望相关三元组的概率可以由玻尔兹曼分布来估计.这是基于三元组的出现概率是独立的假设,并且这种假设是把周围其他相互作用看成是一种平均场.考虑到局域相互作用由化学键链接,侧链相互作用较强,这里局域作用和环境相互作用的分离是合理的.这种假设在很多蛋白质统计势研究中使用.这种特征的出现有物理的来源,因为蛋白质链柔性较强,紧邻残基间有较强的相互作用,因此相互间会表现出关联,也反映序列上属性特征的某种局域连续性特征,这和蛋白质二级结构一些统计分析方法的思路一致.模型预测分布:

P̃b,cCa=exp-Ea;b,c/Z

其中,Z模仿配分函数即Z=aexp-Ea;b,c.因此,一个好的模型需要保证预测分布P̃jCa和基于共现矩阵确定的预期分布PjCa=PajC的一致性.

参数θ(即uavb,c)的优化可以写成:

θ̂=argminθj=1400DKLPjCaP̃jCaθ=argmaxθj=1400i=120PijClgexp-Ei;ji=120exp-Ei;j

其中,DKL定义了相关分布的KL散度,这是机器学习中用来描述分布差异的典型损失函数.优化采用随机梯度下降算法,相应的学习率设置为0.1,在第150和300个时期分别下降为0.2倍.

1.4 表示的鲁棒性

以往对自然语言和化学元素的研究表明,嵌入表示的压缩过程中可以保持不同词(元素)之间的关系23,这表明嵌入表示应该是酉不变的24-26.酉不变意味着多次训练出来的嵌入空间中向量的几何结构是不变的.我们期望在适当的酉变换(例如旋转变换)之后,不同的氨基酸表示结果可以重叠,这种变换不会影响内积结果(共现概率).在实践中需要考虑的问题更多,对于某个具体问题,表示通常有一个有效的维度来量化问题的复杂性,当表示的维数与有效维数明显不同时可能会引入一些随机因素,造成酉不变性破缺.因此,验证不同维度表示结果之间的酉不变性可以提供一种选择临界表示的方法.

为了量化表示的酉不变性的满足程度,采用配对内积(Pairwise Inner Product,PIP)损失作为验证:

DV1,V2=V1V1T-V2V2T=i,jvi1,vj1-vi2,vj22

其中,Vm是第m个嵌入矩阵.模型每次训练时会随机初始化(均匀分布)氨基酸的表示矩阵,并在每次训练迭代过程中优化模型参数(即表示矩阵数值),因此每次训练都会得到不同的氨基酸表示矩阵V.用下标m表示第m次训练结果下的嵌入表示矩阵Vm,向量vkm是第m个表示中残基k的表示向量,表示内积(通常定义为相应分量的乘积之和).配对内积DV1,V2类似蛋白质结构比较中的基于距离的均方根偏差(D⁃RMSD).对于一组表示Vi,计算两两表示之间的PIP损失,并计算所有PIP损失的标准差σD来量化表示的鲁棒性.一个小的涨落σD表明相关表示中保持了酉不变性.否则,这个维度下的表示是不可靠的.

1.5 基于嵌入表示的多肽聚类

使用层次聚类算法对多肽向量进行聚类,以相关性作为距离度量,并设置阈值ϵ=0.58.经过聚类后,每个聚类簇包含多个多肽向量,然后平均每个簇中的肽向量,并将所有向量重新拼接成d×n矩阵,n代表多肽长度.对于一个α螺旋,选取多肽长度n=6.接下来对每个簇的多肽向量做平均,并在原始嵌入空间中找到每个平均向量在相关性距离下最近的氨基酸向量,从而得到每个位置的氨基酸模式.为了避免每个簇中多肽数量的差异,将每个位置的模式与背景频率进行比较,并只考虑那些大幅偏离背景频率的位置,即定义每个位置的模式概率和背景概率为pobservepbackground,只考虑pobserve-pbackground/pbackground>0.8的情况.例如,假设平均向量在第一个位置最近的氨基酸是天冬氨酸(D),它属于带负电荷的基团“N”DE.此时,观测概率pobserve为该簇内当前位置带负电氨基酸组“N”DE出现的概率.背景概率pbackground为所有簇中当前位置处带负电氨基酸组“N”DE出现的概率.如果“N”的观测概率pobserve与背景概率pbackground的相对偏差为0.8,则此模式标记为“N”,否则标记为“_”.

2 结果和讨论

2.1 不同维度表示的确定

基于研究方法中描述的方法需要确定具有不同维度的嵌入表示,计算从1到30维的表示.对于维度为3的情况,可以得到一个典型的学习曲线(图2a).由图可见,经过35个周期后损失函数的值下降到4.在接下来的迭代中,损失函数逐渐饱和,表明优化的收敛性.还可以观察到,在学习过程(优化)的多次试验中,损失函数的收敛值几乎相同.此外,基于收敛处的表示还计算了概率PijC的平均偏差σP.对于多个学习过程,σP几乎没有波动.这些观察结果都暗示了学习过程的稳定性.

图2

图2   模型的训练结果:(a)在SCOPe40数据集上维度为3的训练曲线,插图为更小的xy轴;(b)平均偏差σP在不同维度的结果

Fig.2   The training results of the model:(a) the training curve of the model with dataset SCOPe40 at dimension 3,while inset shows a smaller x⁃ and y⁃axis of the training curve,(b) the deviation σPat different dimensions


对于各种表示维度d可以计算出概率的偏差σP图2b).容易观察到偏差从d=1开始迅速减小,当d3时达到3.56.维度3对应一个临界维度,该临界维度表示是基于氨基酸特征的共现矩阵表示的最小表示空间.值得注意的是,重构的共现矩阵元素的偏差相对较小(平均相对偏差约为10%),当维数变大时偏差不会继续变小.这表明模型抓住了共现矩阵的本质特征.

2.2 关键表示的验证

基于对共现矩阵的重构,三维表示表现为共现矩阵的临界表示.与其他表示方法相比,这种表示方法特殊吗?聚焦于此表示,相互作用矩阵W可以通过拟合ubcvb之间的关系来确定.通过最小化vu之间的偏差,可以确定矩阵W的数值.然而,矩阵W在多次优化训练后的结果是不同的,因为得到的嵌入矩阵可能具有酉变换.因此,对于一组不同的矩阵Wi,它们都应该是具有相同特征值的相似矩阵.矩阵W的相应特征值和偏差如表1所示.

表1   W矩阵本征值和标准差

Table 1  The eigenvalue and corresponding deviations of matrix W

Eigenvalue 1Eigenvalue 2Eignvalue 3
λ1=0.90±0.01λ2=0.0569±0.0002λ3=-0.93±0.01

新窗口打开| 下载CSV


矩阵W特征值的不变性表明了向量uv之间的强相关性,并暗示可以单独使用向量集v来表示氨基酸,矩阵W反映了相邻氨基酸之间相互作用的特征.此外,还可以观察到矩阵W是大致对称的矩阵.这与对矩阵W的假设是一致的,它支持在计算有效能量E时忽视相邻氨基酸对顺序的操作.

对于其他表示维度,可以执行类似的步骤.矩阵W可以根据相应的拟合过程来确定.然而,矩阵W在多次优化训练后的结果并不相似,尽管拟合误差可能很小,表明这些表示除了氨基酸间的相邻相互作用外,还包含更多的信息.这反映了其他维度表示的冗余或不足,并表明三维表示是至关重要的.

如1.4所述,PIP损失的涨落是另一个评估表示鲁棒性的量.对于各种维度的表示,计算PIP损失(图3a).PIP损失值用黑点表示,平均值及其涨落用彩色的方块表示.由图可见,维数d=3时涨落最小,维更小或更大时,涨落显然更大.对于非常大的维度,PIP损失和涨落都有减小的趋势,但下界仍然大于三维.这些结果表明三维表示具有最强的鲁棒性,这些三维的表示空间在进行酉变换后几乎相同.对于维数较小的情况,在模型学习优化后只能在有效空间中选择一个子空间.多次优化训练可能产生不同的子空间,这些子空间在酉变换后不能相互重叠,导致PIP损失的大幅涨落.对于维数较大的情况,引入的附加维度由学习过程的随机性决定,因此在简单的旋转变换之后不能实现表示的重叠,因为附加的维度是随机分配的.实际上,当维数足够大时,附加维数的随机性可能形成一定的分布,可以观察到PIP损失的减小(图3a).

图3

图3   在不同数据集上嵌入维度上PIP损失的标准差:(a) SCOPe40数据集;(b) SCOPe数据集;(c) DisProt数据集

There are 20 different embedding matrix for each dimension and each gray dot represents one PIP loss (194 dots in total). Each dimension's loss data is drawn with a box representing the lower bound,the first quartile,median,the third quartile and the upper bound of the data. Different color bars represent different dimension.

Fig.3   The standard deviation of all PIP losses for different embedding dimensions:(a) SCOPe40 dataset,(b) SCOPe datasets,(c) DisProt dataset


还可以观察到,上述特征对于不同的序列数据集都是鲁棒的.例如,对于各种基于作用域的序列数据,PIP损失在维度3处都具有最小的波动(图3b),进一步证明维度3对于氨基酸表示至关重要.作为对比,还对IDP序列进行同样的计算(图3c),其临界维度从3变为5.这可能是因为与GP系统相比,IDP系统中的相互作用更复杂,这两种蛋白质的比较将在以后的研究中进行.维度3反映了原有的共现矩阵可以被压缩为更为简单的矢量进行表示,反映了蛋白质体系内禀的简单性.其中,相似氨基酸的邻域氨基酸共现概率往往也较为相似,这反映了氨基酸之间的关联,这一关联意味着氨基酸特性的某种光滑性,这和氨基酸相邻氨基酸之间较强的局域相互作用有联系.这种关联造成了共现矩阵的可约化性.数据反映的三维极小也意味着最近邻相互作用主要由三种组成.通过投影和关联分析,发现这些属性和疏水性等指标存在明显的联系(图4),这反映了蛋白质体系中几种关键的相互作用,包括疏水、静电和芳香等近邻侧链相互作用.这种维度3的现象展示了蛋白质体系相互作用的基本特征.

图4

图4   氨基酸的三维嵌入空间:(a) 20种氨基酸均以红球的方式表示,每个字母代表氨基酸的缩写;(b)和(c)为同一个空间的二维投影

Fig.4   The three dimensional embedding space of amino acids:(a) 20 amino acids represented with red balls and each letter representing each amino acid,(b) and (c) the two dimensional projection of the space


除了序列上的最近邻,本文的方法也可以运用于空间上的最近邻.若要在方法上加入空间最近邻,需要建立蛋白质的接触图,并且统计接触图中每个氨基酸最近邻氨基酸,此时很有可能就是序列上的最近邻氨基酸.不过若加入空间上的最近邻(或者从最近邻提升到次近邻级别),可能会包含更多的长程相互作用信息.最佳嵌入维度可能会大于3,同时对称的相互作用矩阵W或许会有更多的线性无关的本征向量.

值得注意的是,共现矩阵可以用各种方法压缩.例如,可以用SoftmaxVW=PC定义一个模型,V是1.3中定义的相同氨基酸矩阵,W是权重矩阵.该模型的压缩表示与概率PijR有明显的较小偏差(对于大于25的维度,小于1%).然而,PIP损失却比基于AA2Vec的要大得多,说明表示敏感地依赖于学习过程.这进一步支持了AA2Vec方法的合理性.这种差异反映了内在逻辑在描述三元组氨基酸关系中的重要性.

2.3 三维嵌入空间

在三维嵌入空间中,所有氨基酸都显示为红色球(图4).如前所述,期望氨基酸(球)之间的相似性在AA2Vec模型压缩后可以保留,尽管这是一个非线性操作.使用欧几里得距离来衡量氨基酸之间的相似性.值得注意的是,与BLOSUM矩阵27相比,基于AA2Vec模型表示的相似性看起来像是上界(图5a).在这个比较中,基于BLOSUM矩阵的相似性被定义为da,b=Smax-SijSmax-Smin.这可能是由于突变在一定程度上可以耐受氨基酸理化性质的变化.BLOSUM中基于变异统计的相似性通常比基于本文的表示的相似性要大,这表明本文的表示可能有更广泛的应用领域来发现蛋白质系统中的弱相似性.

图5

图5   AA2Vec和非取整BLOSUM62的相似性对比:(a) x轴为BLOSUM相似性,y轴为AA2Vec表示空间的相似性,每个蓝色点代表一个氨基酸对;(b) BLOSUM62和AA2Vec相似性的分布直方图

(b) the histogram of BLOSUM62 and AA2Vec distribution

Fig.5   Similarity distribution difference between AA2Vec and non⁃rounded BLOSUM62:(a) all the similarity pairs with x⁃axis being BLOSUM62 and y⁃axis being AA2Vec,each blue dot represents one pair of amino acids,


基于本文的相似性度量对氨基酸进行了无监督的层次聚类分组(图6).结果表明,在二分组的情况下,疏水性/亲水性氨基酸显著分开.这一结果与以往的研究结果基本一致11-13.这种一致性表明,本文的表示捕获了氨基酸的物理特征.在嵌入空间中,第一维和第三维清楚地显示了疏水性氨基酸和极性氨基酸之间的差异(图4b).说明了本文表示向量的组成部分的意义,对于更精细的分组还可以识别具有带电侧链或芳香侧链的氨基酸(图6),这些分组说明氨基酸在表示空间中的组织.表示向量根据氨基酸的性质给出了一个适当的映射,这证明了本文的表示的有效性.

图6

图6   20个氨基酸的层次聚类图

Cluster algorithm is based on euclidean distance. Rows and columns denote dimension indexes and amino acid type

respectively. Colors in each cell of the map stands for the value of the vector on that dimension. Green boxes circle 4 major clusters in hierarchical clustering.

Fig.6   The hierarchical cluster map of 20 embedding representations


2.4 与氨基酸其他性质的相关性

在蛋白质的相关研究中有许多基于各种实验和统计方法的氨基酸表示,前人的结果和本文的结果之间的定量比较可以检验本文表示的有效性.这里重点比较AAIndex数据库28中的各种疏水性指数.使用线性判别分析(Linear Discriminant Analysis,LDA)来进行比较,即需要找出三维表示空间中的最佳投影方向,并将得到的投影值与疏水指数进行比较.具体操作如下.

考虑到氨基酸侧链的疏水性,将带电氨基酸(DHREK)和疏水氨基酸(ILMVYWF)作为两个标记基团来计算投影方向.在三维嵌入空间中,DHREK有一个平均向量μ1,ILMVYWF有一个平均向量μ2.带电氨基酸和疏水氨基酸的协方差分别为Σ1Σ2.LDA使用损失函数Jw=wSwwwSbw来获得嵌入空间中的投影向量wSwSb是组内和组间散射矩阵,分别用Sw=Σ1+Σ2Sb=μ1-μ2μ1-μ2计算.找到投影向量w后,将带电和疏水基团的标记氨基酸以及其他八种未标记氨基酸(TNQSGPAC)投影到这条线上.疏水指数29与基于LDA方法的投影值的相关性如图所示(图7a),由图可观察到明显的线性相关(相关系数为0.91).值得注意的是,未标记的极性氨基酸TNQS和非极性氨基酸GPAC投影在本文用于计算的标记氨基酸之间,这表明本文的表示可以与疏水指数定量一致.进一步对AAIndex数据库中所有疏水性相关指标进行比较,相关系数的直方图如图所示(图7b).其中,约75%的指数的相关系数大于0.7.这进一步支持了这样一种观点,即本文的表示提供了疏水相互作用的定量刻画.

图7

图7   LDA投影和相关系数:(a) LDA投影值和一个实验结果的对比[29],相关系数为0.91,每个字母为氨基酸的缩写,红色字母和蓝色字母为两组标记的氨基酸,绿色和黄色的氨基酸为未标记的氨基酸,是根据不同的物理化学性质分别标记的颜色;(b) LDA投影值和AAIndex数值的相关系数统计直方图,共35种亲疏水相关的实验值

Fig.7   The LDA projection and the corresponding correlations:(a) the LDA projection value against one experimental hydrophobicity value[29]. The corresponding correlation coefficient is 0.91. Each letter represents the corresponding amino acid's abbreviation. The letters in red and the letters in blue are the two groups of labeled amino acids. The letters in green and yellow are unlabeled amino acids and are colored differently because of their different physicochemical properties. (b) The LDA projection value's histogram of the correlation with AAIndex's indices. There are 35 different hydrophobic⁃related indices.


2.5 二级结构中的序列结构域的发现

本文的表示可以用于蛋白质研究中更复杂的任务.例如,通过沿着序列拼接氨基酸的表示向量可以用高维向量来描述蛋白质序列,这为序列引入了新的视角.简单地将重点集中在具有特定二级结构的含有六个氨基酸的短肽序列,短肽序列可以用3×6=18维的向量表示.使用1.5所述的聚类方法,在18维空间中聚类具有α螺旋结构的6128个短肽序列,这些短肽序列是从CB6133数据集中提取的.此外,在某些簇中可以观察到存在多个带负电侧链的氨基酸,例如,蛋白质1MW3和6UG0中的片段DEDAAY,QEEMKD(图8).这种模式反映了蛋白质系统中电荷相关的堆积现象,而且与经典的疏水堆积是不同的.此外,还可观察到苯环堆积的模式(蛋白质4OPX中的SKEWKK以及3IGE中的FEIYSN).在没有任何先验知识的情况下,仅基于无监督聚类可以发现更多的序列基序,这证明了本文的表示在蛋白质研究中的作用.

图8

图8   短肽层次聚类图

Four typical peptides and the corresponding proteins are shown on the left. The clustering table is shown on the right with three types of pattern. The first column is HP pattern with "H" standing for {AVLIMFW},"P" standing for

{STNQYKRHDE} and "_" standing for the others ({GCP}). The second column is positive and negative pattern with "P" standing for positive amino acids {RHK},"N" standing for {DE} and "_" standing for the others. The last column is aromatic and aliphatic amino acids pattern. We use "F" represents aromatic amino acids {HYWF},"Z" represents aliphatic amino acids {ILV} and "_" represents the others.

Fig.8   The hierarchical clustering result of the peptides


3 结论

天然蛋白质序列是自然进化的结果.这些序列编码了很多信息.在这项工作中,我们引入AA2Vec模型,仅从序列信息出发来提取氨基酸的嵌入表示,并得到了氨基酸的最小表示集.研究发现,氨基酸的三维表示反映了氨基酸的许多物理性质以及最近邻氨基酸相互作用,并且这一结果在多个数据集上表现鲁棒.我们的研究对于氨基酸字母表、特异二级结构片段、定量表示氨基酸物理化学性质等方面都有帮助.氨基酸属性的刻画和简化可以帮助建立更为合适的蛋白质物理模型,从而帮助和推进对蛋白质折叠的研究.当前的结果和针对蛋白质折叠中相互作用的一些特征是自洽的.局部属性和相互作用的平滑性也为蛋白质建模和简化预测模型提供了支撑,例如我们可以构建适当的粗粒化模型,这些对于蛋白折叠的研究有积极的意义.另外,我们的工作还可以在蛋白质功能位点预测、蛋白质结构预测和蛋白质功能预测等工作中为氨基酸表示或者表示维度的选取提供帮助.的确,蛋白质序列上有许多的中程与长程关联相互作用.我们也相信,氨基酸的嵌入表示可能为蛋白质的定量表示提供新方法,这将是今后研究的方向.

参考文献

Consortium UniProt.

Uniprot:The universal protein knowledgebase in 2021

Nucleic Acids Research,202149(D1):D480-D489.

[本文引用: 1]

Senior A WEvans RJumper Jet al.

Improved protein structure prediction using potentials from deep learning

Nature,2020577(7792):706-710.

[本文引用: 3]

Yang J YAnishchenko IPark Het al.

Improved protein structure prediction using predicted interresidue orientations

Proceedings of the National Academy of Sciences of the United States of America,2020117(3):1496-1503.

Xu J BMcpartlon MLi J.

Improved protein structure prediction by deep learning irrespective of co⁃evolution information

bioRxiv,2020doi:10.1101/2020.10.12.336859.

Xu J BWang S.

Analysis of distance⁃based protein structure prediction by deep learning in CASP13

Proteins:Structure,Function,and Bioinformatics,201987(12):1069-1081.

Hashemifar SNeyshabur BKhan A Aet al.

Predicting protein⁃protein interactions through sequence⁃based deep learning

Bioinformatics,201834(17):i802i810.

Wang SSun S QLi Zet al.

Accurate de novo prediction of protein contact map by ultra⁃deep learning model

PLoS Computational Biology,201713(1):e1005324.

Hanson JPaliwal K KLitfin Tet al.

Getting to know your neighbor:Protein structure prediction comes of age with contextual machine learning

Journal of Computational Biology,202027(5):796-814.

[本文引用: 1]

Wang JWang W.

Simplification of complexity in protein molecular systems by grouping amino acids:A view from physics

Advances in Physics:X,20161(3):444-466.

[本文引用: 1]

Cieplak MHolter NMaritan Aet al.

Amino acid classes and the protein folding problem

The Journal of Chemical Physics,2001114(3):1420-1423.

Pape SHoffgaard FHamacher K.

Distance⁃dependent classification of amino acids by information theory

Proteins:Structure,Function,and Bioinformatics,201078(10):2322-2328.

[本文引用: 1]

Wang JWang W.

A computational approach to simplifying the protein folding alphabet

Nature Structural Biology,19996(11):1033-1038.

Li T PFan KWang Jet al.

Reduction of protein sequence complexity by residue grouping

Protein Engineering,200316(3):323-330.

[本文引用: 1]

Cannata NToppo SRomualdi Cet al.

Simplifying amino acid alphabets by means of a branch and bound algorithm and substitution matrices

Bioinformatics,200218(8):1102-1108.

Wrabl J QGrishin N V.

Grouping of amino acid types and extraction of amino acid properties from multiple sequence alignments using variance maximization

Proteins:Structure,Function,and Bioinformatics,200561(3):523-534.

[本文引用: 1]

Asgari EMofrad M R K.

Continuous distributed representation of biological sequences for deep proteomics and genomics

PLoS One,201510(11):e0141287.

[本文引用: 1]

Kimothi DSoni ABiyani Pet al.

Distributed representations for biological sequence analysis

2016,arXiv:.

Yang K KWu ZBedbrook C Net al.

Learned protein embeddings for machine learning

Bioinformatics,201834(15):2642-2648.

Hamid M NFriedberg I.

Identifying antimicrobial peptides using word embedding with deep recurrent neural networks

bioRxiv,2018doi:10.1101/255505.

[本文引用: 1]

Rives AMeier JSercu Tet al.

Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences

Proceedings of the National Academy of Sciences of the United States of America,2021118(15):e2016239118.

[本文引用: 1]

Murzin A GBrenner S EHubbard Tet al.

SCOP:A structural classification of proteins database for the investigation of sequences and structures

Journal of Molecular Biology,1995247(4):536-540.

[本文引用: 1]

Sickmeier MHamilton J ALegall Tet al.

Disprot:The database of disordered proteins

Nucleic Acids Research,200735(S1):D786-D793.

[本文引用: 1]

Zhou QTang P ZLiu S Xet al.

Learning atoms for materials discovery

Proceedings of the National Academy of Sciences of the United States of America,2018115(28):E6411-E6417.

[本文引用: 1]

Hamilton W LLeskovec JJurafsky D.

Cultural shift or linguistic drift? Comparing two computational measures of semantic change

Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Austin,TX,USAAssociation for Computational Linguistics20162116-2121.

[本文引用: 1]

Artetxe MLabaka GAgirre E.

Learning principled bilingual mappings of word embeddings while preserving monolingual invariance

Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Austin,TX,USAAssociation for Computational Linguistics20162289-2294.

Smith S LTurban D H PHamblin Set al.

Offline bilingual word vectors,orthogonal transformations and the inverted softmax

2017,arXiv:.

[本文引用: 1]

Henikoff SHenikoff J G.

Amino acid substitution matrices from protein blocks

Proceedings of the National Academy of Sciences of the United States of America,199289(22):10915-10919.

[本文引用: 1]

Kawashima SPokarowski PPokarowska Met al.

AAindex:Amino acid index database,progress report 2008

Nucleic Acids Research,200836(S1):D202-D205.

[本文引用: 1]

Black S DMould D R.

Development of hydrophobicity parameters to analyze proteins which bear post⁃or cotranslational modifications

Analytical Biochemistry,1991193(1):72-82.

[本文引用: 3]

/