南京大学学报(自然科学), 2024, 60(1): 1-11 doi: 10.13232/j.cnki.jnju.2024.01.001

基于多视图矩阵补全的蛋白受体功能预测

黄玮翔1, 丁季1, 刘夏栩1, 殷勤2, 兰闯闯1, 吴建盛,1

1.南京邮电大学地理与生物信息学院,南京,210023

2.南京邮电大学通信与信息工程学院,南京,210023

Predicting functions of protein receptors through multi⁃view matrix completion

Huang Weixiang1, Ding Ji1, Liu Xiaxu1, Yin Qin2, Lan Chuangchuang1, Wu Jiansheng,1

1.School of Geographic and Biological Information,Nanjing University of Posts and Telecommunications,Nanjing,210023,China

2.School of Telcommunication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing,210023,China

通讯作者: E⁃mail:jansen@njupt.edu.cn

收稿日期: 2023-08-20  

基金资助: 国家自然科学基金.  61872198.  61971216
江苏省科技厅基础研究计划.  BK20201378

Received: 2023-08-20  

摘要

蛋白受体是细胞信号转导的重要组成部分,也是人类最重要的药物靶点,其中G蛋白偶联受体(G Protein Coupled Receptors,GPCRs)占绝大部分,目前市场上大约34%的药物都以GPCRs作为靶点.准确地注释GPCR蛋白的生物学功能对于理解它们涉及的生理过程及靶向药物发现至关重要,其中基因本体学(Gene Ontology,GO)是描述蛋白质功能最常用的方式,GPCR蛋白和GO都包含多个视图信息,有效利用这些信息可有效提升蛋白质功能的预测性能.因此,提出一种基于多视图的归纳矩阵补全方法MVIMC(Multi⁃View Inductive Matrix Completion)来预测GPCR蛋白的GO生物学功能.MVIMC有效利用了GPCR蛋白和GO标记视图信息,其中GPCR包含文本信息和结构域信息,GO包含文本信息.实验结果表明,MVIMC在分子功能和生物过程两方面的预测概率分别达到68%和69%,优于目前最好的矩阵补全方法以及CAFA蛋白质功能预测比赛中的常用方法.

关键词: G蛋白偶联受体 ; 基因本体 ; 矩阵补全 ; 多视图学习

Abstract

Protein receptors are important component of cellular signal transduction and the most important drug targets in humans,with G Protein Coupled Receptors (GPCRs) accounting for the vast majority. GPCRs involve the most important drug targets in humans,accounting for about 34% of drugs on the market. Accurately annotating biological functions of GPCR proteins is vital to understand physiological processes involved and for targeted drug discovery,with Gene Ontology (GO) being the most commonly used way to describe protein function. Both GPCR proteins and GO contain multiple view information,and effectively utilizing this information improves protein function prediction performance. Therefore,this paper proposes a multi⁃view inductive matrix completion method MVIMC (Multi⁃View Inductive Matrix Completion) for predicting GO functions of GPCR proteins. MVIMC effectively utilizes GPCR protein and GO label view information,with GPCR containing textual and domain information,and GO containing textual information. Experimental results show that MVIMC achieves prediction probabilities of 68% and 69% for molecular function and biological process,respectively,which are better than the best current matrix completion methods and common methods in the CAFA protein function prediction competition.

Keywords: G Protein⁃Coupled Receptors (GPCRs) ; Gene Ontology ; inductive matrix completion ; multi⁃view learning

PDF (1728KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

黄玮翔, 丁季, 刘夏栩, 殷勤, 兰闯闯, 吴建盛. 基于多视图矩阵补全的蛋白受体功能预测. 南京大学学报(自然科学)[J], 2024, 60(1): 1-11 doi:10.13232/j.cnki.jnju.2024.01.001

Huang Weixiang, Ding Ji, Liu Xiaxu, Yin Qin, Lan Chuangchuang, Wu Jiansheng. Predicting functions of protein receptors through multi⁃view matrix completion. Journal of nanjing University[J], 2024, 60(1): 1-11 doi:10.13232/j.cnki.jnju.2024.01.001

蛋白受体是细胞信号转导和基因调控的重要组成部分,也是人类主要的药物靶点,其中G蛋白偶联受体(G Protein Coupled Receptors,GPCRs)占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体1,是细胞信号转导的重要组成部分,可以激活细胞内信号转导通路,最终激活细胞反应2.目前,市场上大约34%的药物都以GPCRs作为靶点3-4,因此,准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式5,而且蛋白质的生物学功能有多种描述方法,其中基因本体学(Gene Ontology,GO)6-7的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体,它包含三个方面:分子功能(Molecular Function,MF)、生物过程(Biological Process,BP)和细胞成分(Cellular Component,CC).

过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能,主要分四类.第一类是基于序列同源性搜索的方法,即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al8开发了BAR3.0,描述了一个新的具有严格度量的非层次聚类过程,该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al9提出一个基于序列的蛋白质功能预测方法SPROF⁃GO,通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA310冠军方法GoLabeler11被提出,该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al12指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu13提出GAT⁃GO方法,利用预测的结构信息和蛋白质序列嵌入,大大改善了蛋白质功能预测.同年,Dhanuka et al14提出一种基于深度学习的蛋白质功能预测方法,利用一组自动编码器以半监督的方式用蛋白质序列进行训练,得出每个自动编码器对应的蛋白质功能,该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法,旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al15提出一个端到端可训练的深度学习模型PersGNN,结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al16提出QAUST方法,利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al17提出DomFun,通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能,关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法,主要基于蛋白质⁃蛋白质相互作用(PPI)、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin18将蛋白质特征和基因邻域信息与系统发育联系起来,提出一个基于树的邻域和域探索新平台TREND,使基于进化的蛋白质功能分析更加有效.2021年Barot et al19提出一种基于多物种网络的深度学习方法NetQuilt,有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al20提出一种用于蛋白功能分析的生物网络集成方法BraneMF,有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al21提出PFP⁃GO方法,结合序列相似性、PPI网络和结构域预测的信息,并利用功能富集得出GO术语的共识预测,还可以识别功能活跃的蛋白质.2023年Wu et al22提出CFAGO方法,通过多头注意机制将PPI网络和蛋白质生物学属性结合,用于蛋白质功能预测.

虽然基于计算学的蛋白质生物学功能预测方法已经取得很大进展,但还有些问题需要改进.

(1)蛋白质的GO功能预测中往往只能得到正样本,很难得到经过实验验证的负样本,数据中大量的负样本更适合理解为未标记样本,因此蛋白质的GO功能预测实质上更偏向是一个Positive⁃Unlabeled学习问题(PU⁃Learning),而不是传统的监督学习问题,适合用矩阵补全方法来进行解决.

(2)从蛋白质可以提取各种类型的属性信息,这些属性信息都会对蛋白质的功能预测有贡献.多视图学习23-24可以从不同视图来融合这些属性信息,从而更加全面地对蛋白质特征进行描述,提高模型预测性能.

(3)传统的矩阵补全或机器学习方法往往更多地考虑蛋白质视图中的样本信息,容易忽略GO标记视图中的信息,在矩阵补全中融合GO标记空间的视图信息,有利于提升模型预测性能.

(4)目前存在大量的GPCR蛋白质和GO术语的文本描述信息,在矩阵补全中有效融合这些文本信息有利于提升模型的预测性能.

因此,本文提出一种基于多视图归纳矩阵补全(Multi⁃View Inductive Matrix Completion,MVIMC)的方法对GPCR蛋白质的GO生物学功能进行预测.MVIMC算法将多视图特征表示方法与归纳矩阵补全技术进行结合,在模型中加入GPCR蛋白质的多个视图信息以及GO术语的视图信息.在收集到的所有GPCR蛋白质的GO生物学功能数据集上进行测试,结果显示,MVIMC对于GPCR蛋白质的分子功能和生物过程的GO生物学功能的预测概率分别达到68%和69%,明显优于目前最好的矩阵补全方法以及CAFA蛋白质功能预测比赛中的常用方法.

1 数据集和方法

1.1 数据集

首先,从Uniprot生物数据库(https://www.uniprot.org/)下载所有GPCRs的Fasta格式序列25,用NCBI的blastclust程序去冗余(相似度小于90%)26,得到最终的样本数据集.然后,从UniProt数据库下载“gene_association.goa_ ref_uniprot”.该文件包含蛋白质具有的生物学功能,文件中P表示生物学过程,F表示分子功能.GPCR蛋白均匀分布于细胞膜上,所以本文不考虑GO的细胞组分预测.从该文件得到GPCR蛋白质的分子功能和生物学过程的GO条目(不考虑Evidence code为IEA的).最后,从基因本体学网站(http://geneontology.org/page/download-ontology)下载文件“go.obo”,运行网站提供的obo2csv.py程序,得到文件“go.obo.F.is_a”和“go.obo.P.is_a”,得到GPCR的GO条目的父节点GO,即得到GPCR对应的GO标记空间.删除样本个数特别多和特别少的GO条目.对于分子功能,最终得到GPCR蛋白质样本1167个,GO标记192个;对于生物学过程,最终得到GPCR蛋白质样本1277个,GO标记1203个.

1.2 特征

本文的多视图属性包括GPCR蛋白的视图和GO标记的视图.GPCR蛋白的视图分为GPCR文本信息和GPCR结构域信息,其中结构域信息包括三联氨基酸信息、氨基酸关联信息、进化信息、二级结构关联信息、物化信息、无序残基信息、信号肽信息以及结构域文本信息.GO标记的视图从GO术语的文本信息获得.

1.2.1 GPCR蛋白视图
1.2.1.1 GPCR文本信息

从UniProt数据库中提取的GPCR蛋白的文本信息包括蛋白质名称(Protein Name)、物种信息(Organism)、分子功能关键字信息(Keywords for Molecular Function)和相关文献的标题信息(Titles of Related Publications),在生物医学文献数据库PubMed中以“receptor(受体)”为关键词进行搜索,得到100多万篇文献.以这些文献的摘要作为比对数据库,使用基于深度神经网络的Word2Vec27工具,对GPCR蛋白质的文本信息进行向量化表示25.对于一个GPCR得到的多个向量,采用多示例学习方法miFV28将其转变为一个示例向量,其维度为84.

1.2.1.2 GPCR蛋白的结构域特征

将去除多余信息的GPCRs氨基酸序列的文件上传至NCBI的Batch CD⁃Search服务器2629,得到其相关的结构域信息.对于蛋白质的每个结构域,提取以下特征信息.

(1)三联氨基酸信息.按照其偶极矩和侧链体积,可将20种氨基酸分为A,B,C,D,E和F30-31六类.对于每个结构域,计算其三联体出现频率(Conjoint_triad)31

Conjoint_triad=Mabcl-2

其中,a,b,cA,B,,FMabcl分别表示样本三联氨基酸的个数和长度.最终得到的三联氨基酸信息特征维度为216.

(2)氨基酸关联信息.氨基酸关联信息描述结构域中氨基酸间的相关性.依据上面的六类氨基酸,可以得到氨基酸关联信息(Amino Acid Correlation,AAC2633为:

AACk=Pmmklog2PmmkPmPn

其中,m,nA,B,,FPm表示第m类氨基酸出现的概率,Pn表示第n类氨基酸出现的概率;Pmmk k2,4,8,16是联合概率,表示这两个氨基酸残基在序列上间隔的残基数量.最终得到的氨基酸关联信息特征维度为144.

(3)进化信息,用psiblast软件33获得的结构域的位置特异性得分矩阵(Position⁃Specific Scoring Matrics,PSSMs)来表示:

fx=11+exp-x

对于每个结构域,Consortium阵包含的元素为42×l,其中,l是氨基酸序列的长度.设定42个元素组成的向量为一个示例,则每个结构域的进化信息PSSM矩阵为l个示例组成的示例包.采用多示例学习方法miFV28将其转变为一个示例向量,最终得到一个84维的特征向量.

(4)二级结构关联信息.蛋白质的二级结构通常包含螺旋、折叠和转角三种状态,利用PSIPRED在线分析工具34得到结构域的每个残基的预测二级结构.计算结构域的二级结构关联信息(Secondary Structure Element Correlation,SSC)如下:

SSCk=Pmmklog2PmmkPmPn

其中,m,nH,E,C,为氨基酸的二级结构;k2,4,8,16,为两个氨基酸残基在序列上间隔的残基数量.

(5)物化属性.采用SciDBMaker(SDK)35软件得到结构域的各种物化属性,并利用logistic函数进行归一化处理,其维度为59.

(6)无序残基信息.采用DISOPRED36软件对结构域的无序残基信息进行预测,并将结构域中的每个氨基酸残基的特征向量当作一个示例,采用多示例单示例化方法miFV28将其转换为单个示例向量,其特征维度为84.

(7)信号肽信息.采用SignalP37软件对结构域的信号肽信息进行预测,并将结构域中的每个氨基酸残基的特征向量当作一个示例,采用多示例学习方法miFV28将其转换为单个示例向量,得到的信号肽信息特征维度为84.

1.2.2 GO标记视图

以“gene function”为关键字搜索PubMed数据库,得到约180万篇文献,以这些文献的摘要作为比对数据库.从Gene Onto⁃logy网站下载的go.obo文件中得到每个GO条目对应的文本描述信息,包括name,def,synonym信息.最后,利用Word2Vec27将GO条目的文本信息转化成向量,即每个GO条目表示为由多个示例向量组成的包,采用多示例学习方法miFV28将其转换为单个示例向量,其特征维度为84.

1.3 MVIMC

给定样本集合X=x1,x2,,

xM,其中,M表示样本个数,样本的视图特征空间为𝒯v=𝒯1v,,𝒯Mv,其中v=1,,m,𝒯ivR1×dv

i=1,,M表示第i个样本在第v个视图上的特征向量,dv表示第v个视图的维度.Y=y1,

,yN表示标记集合,N表示标记个数,标记的特征空间为Q=Q1,,QN,其中QjR2cj=

1,,N表示第j个标记的特征向量.

假设样本⁃标记关系矩阵为SRM×NM表示样本个数,N表示标记个数.Si,j=1表示第i个样本与第j个标记的关系已知,Si,j=0表示关系未知.MVIMC算法利用新型的归纳矩阵补全方法,根据观测到的关系矩阵 S 在第v个视图上补全潜在的真实关系矩阵Zv=WvHvT,其中,WvHv为分解后的两个子矩阵,ZvRdv×2cWvRdv×kHvR2c×k.假设关系矩阵 S 是低秩的,MVIMC算法的目标函数如下:

minWvRdv×k,HvR2c×ki,jΩlSi,j,𝒯ivTWvHvTQj+λ2Wv2F+Hv2F

其中,Ω表示具有已知关系的样本⁃标记对的集合;l·是损失函数,用来衡量预测值与真实值之间的误差.通常采用均方误差作为损失函数,即la,b=a-b2.第二项为正则化项,用来控制模型复杂度及避免过度拟合,其中参数λ用来平衡损失函数和正则化约束.

式(5)是一个非凸函数,为了求解目标函数,首先,随机初始化 WH 矩阵,然后使用交替最小化(即固定 W 求解 H再固定 H 求解 W )方法求解 WH 矩阵,直至达到收敛或局部最优.具体更新步骤如下.

固定Hv,更新Wv式(5)等价于:

minWvRdv×ki,jΩlSij,𝒯ivTWvQj̃+λ2Wv2F

其中,Qj̃=HvT×QjRk.

固定Wv,更新Hv式(5)等价于:

minHvR2c×ki,jΩlSij,𝒯iṽTHvTQj+λ2Hv2F

其中,𝒯iṽT=WvT×HvTRk.

通过固定求解的方法得到的式(6)和式(7)都是凸函数,可以采用共轭梯度法来求解.解得WvHv后,对于任意的a,bΩ,都可以通过𝒯avTWvHvTQb求解得到,即可预测关系矩阵 S 中的未知值.

MVIMC首先得到模型在各个单视图上的预测结果,对各个视图上的预测性能进行排序,并对视图进行不同组合作为模型的特征输入,不断进行优化求解,得到最优的视图组合和模型.

1.4 评价指标

采用矩阵补全中常用的预测概率(Probability,P)和相关错误率(Relative Error,rel.err)来对模型进行评价.

预测概率P指一个真实的样本⁃标记关系对在得分前r位的预测中被发现的概率.P越大,说明预测越准确.

rel.err=X-MFMF

其中, X 为预测的关系矩阵, M 为真实的关系矩阵.rel.err越小,预测越准确.

采用三倍交叉验证来评估模型的性能,即在构建模型的过程中,将数据集(即样本⁃标记关系对)随机分为三等份,每次使用二等份进行训练,剩下的一等份进行测试.重复执行三次,保证每个关系对都被预测一次.

2 实验与结果

2.1 不同视图上的性能比较

采用归纳矩阵补全算法(Inductive Matrix Completion,IMC)对GPCR结构域的各个视图进行单视图建模,再进行视图组合,并根据模型性能好坏对各视图的性能进行排序.结果如图1所示.

图1

图1   不同的单视图和组合视图下GPCR蛋白的GO功能预测的比较:(a)分子功能;(b)生物学过程

A.三联氨基酸信息;B.氨基酸关联信息;C.进化信息;D.GPCR文本信息;E.二级结构关联信息;F.物化属性;G.无序残基信息;H.信号肽信息;I.结构域文本

Fig.1   Performance of various views:(a) molecular function,(b) biological process


图1展示了不同的单视图和组合视图下的GPCR蛋白的GO功能预测的比较,图中横坐标表示预测得分最高的前r位样本.由图可见,当r一定时,基于三联氨基酸信息(A)的GPCR⁃MF和GPCR⁃BP关系矩阵预测模型的性能明显优于其他视图.对于分子功能(MF),基于三联氨基酸信息(A)的预测概率为60%,基于其他视图的模型性能从高到低的排序为:氨基酸关联信息(B),进化信息(C),二级结构关联信息(E),物化属性(F),GPCR文本信息(D),无序残基信息(G),信号肽信息(H),结构域文本信息(I).对于生物学过程(BP),基于三联氨基酸信息(A)的预测概率为51%,其他特征模型的性能从高到低的排序分别为:GPCR文本信息(D),氨基酸关联信息(B),进化信息(C),二级结构关联信息(E),物化属性(F),结构域文本信息(I),无序残基信息(G),信号肽信息(H).

图2展示了不同的组合实现的GPCR蛋白的GO功能预测的比较,图中横坐标表示预测得分最高的前r位样本.由图可见,r=100时,对于分子功能(MF),最优视图组合为A+B+C+E,预测概率近67%.对于生物学过程(BP),最优视图组合为A+D+B+C+E+F+G,预测概率近68%.以上两个最优视图组合的预测性能均优于所有单视图的预测性能.

图2

图2   IMC组合视图方法的预测概率比较(生物过程)

A.三联氨基酸信息;B.氨基酸关联信息;C.进化信息;D.GPCR文本信息;E.二级结构关联信息;F.物化属性;G.无序残基信息;H.信号肽信息;I.结构域文本

Fig.2   Prediction probabilities of IMC combined view method (biological process)


根据已知的关系矩阵与补全的关系矩阵,得到加入各个不同视图样本特征的相关错误率,如图3所示.由图可见,当加入的特征信息为三联氨基酸信息(A)时,模型预测的相关错误率最小,但整体上,各个视图模型的相关错误率相差不大.

图3

图3   各视图的相关错误率比较

A.三联氨基酸信息;B.氨基酸关联信息;C.进化信息;D.GPCR文本信息;E.二级结构关联信息;F.物化属性;G.无序残基信息;H.信号肽信息;I.结构域文本

Fig.3   Relative error among different views


图4表明,对于分子功能(MF),当加入的视图组合信息为A+B+C+E时,模型预测的性能最好,相关错误率为1.0732.对于生物学过程(BP),各种视图的组合,其模型的相关错误率差异不大.

图4

图4   各组合视图模型的相关错误率比较

A.三联氨基酸信息;B.氨基酸关联信息;C.进化信息;D.GPCR文本信息;E.二级结构关联信息;F.物化属性;G.无序残基信息;H.信号肽信息;I.结构域文本

Fig.4   Relative error among different combined view models


综上,可以得到基于IMC的最优视图组合:对于分子功能(MF),最优视图组合为A+B+C+E,预测概率近67%.对于生物学过程(BP),最优视图组合为A+D+B+C+E+F+G,预测概率近68%.说明在蛋白质生物学功能的预测中,采用多视图方法,组合多个单视图,多角度加入样本的特征信息,可以提高模型的预测性能.

2.2 不同矩阵补全算法的比较

将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较,包括Catapult38,katz38,ALM39,FPCA40,LmaFit41,SVT42-43和Maxide44.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法,用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数.

图5展示了MVIMC与对比算法的预测概率的比较,图中横坐标表示预测得分值最高的前r位样本.由图可见,对于GPCR的GO分子功能和生物学功能过程的关系预测,MVIMC性能最优.对于GO分子功能,在前100位样本中,MVIMC的预测概率达到68%,比第二位的的LmaFit高17%,比Catapult高27%,比排名最末的FPCA高52%.对于GO生物学功能的预测,在前100位样本中,MVIMC的预测概率达69%,比katz和Catapult高30%左右,比排名最末的ALM算法高59%.

图5

图5   不同矩阵补全算法的预测概率的比较

Fig.5   Prediction probabilities of different matrix completion algorithms


图6展示了不同的矩阵补全算法的相关错误率的比较.由图可见,对GPCR的GO分子功能和生物学过程的预测,MVIMC的相关错误率最低,约为1,第二位的Catapult的相关错误率约为1.2,第三位的katz的相关错误率约为1.3,最差的FPCA的相关错误率为9左右,约为MVIMC的9倍.证明本文提出的MVIMC算法对于GPCR的GO分子功能和生物学功能过程的关系预测明显优于其他的矩阵补全方法,这是因为和传统的矩阵补全方法相比,MVIMC不仅加入了样本和标记的特征进行模型训练,同时还考虑了多视图的特征,提高了预测性能.

图6

图6   不同矩阵补全算法的相关错误率比较

Fig.6   Relative error of different matrix completion algorithms


2.3 视图组合方法的比较

对三种经典的视图组合方法Concate,Max和Ave_score进行了比较,其中,Concate将最优视图组合连接成一个长向量,Max使用最优的单个视图来表示,Ave_score使用所有视图的平均值来进行衡量.

图7展示了不同的多视图方法的预测概率的比较,图中横坐标表示预测得分值最高的前r位样本.由图可见,对于分子功能(MF)和生物过程(BP)的预测,Concate性能均最优,预测概率分别为68%和69%.

图7

图7   不同多视图方法的预测概率比较

Fig.7   Prediction probabilities of different multi⁃view methods


图8展示了不同的多视图方法的相关错误率的比较.由图可见,这三种多视图方法的相关错误率相差不大,均在1左右.

图8

图8   不同多视图方法的相关错误率比较

Fig.8   Relative error of different multi⁃view methods


综上,在相关错误率均较低的情况下,Concate比Max和Ave_score具有更高的预测概率.本文提出的MVIMC算法正是采用了Concate多视图方法,将最优视图组合的特征拼接成一个长向量,然后利用神经网络学习融合这些特征.在这个过程中信息不会损失,因而该方法的预测概率也就高于其他两种多视图方法.

2.4 与CAFA蛋白质功能预测方法的比较

功能注释关键评估(Critical Assessment of Functional Annotation,CAFA1045)挑战是国际上最权威的蛋白质功能注释比赛,已经举办了四届.CAFA中用于预测蛋白质功能的三种基本方法为Naive45,BLAST45和PSI⁃BLAST45.为了验证本文提出的MVIMC算法对于GPCR蛋白质功能预测的有效性,将MVIMC算法与这些方法进行了比较.GO性能主要通过所有阈值的精度和召回之间的最大谐波平均值来评估,其值越大越好.计算如下:

Fmax=maxt2prtrctprt+rct

其中,t是判定阈值,范围在0~1;prtrct分别表示阈值t处的精度和召回值.

图9展示了本文提出的MVIMC算法与CAFA预测平台的性能比较.由图可见,对于GPCR的GO分子功能(MF)和生物学过程(BP)的预测,MVIMC表现出更好的性能,Fmax分别达到31%和38%,均远高于其他三种预测蛋白质功能的基本方法,证明了MVIMC算法对于GPCR蛋白的GO功能预测的优越性.

图9

图9   MVIMC算法与CAFA预测平台的性能比较

Fig.9   Performance of MVIMC algorithm and CAFA prediction platform


3 结论

本文提出一种基于多视图的归纳矩阵补全方法MVIMC,将多视图表示与归纳矩阵补全技术相结合,并加入样本多个视图的特征以及标记的特征信息,实现了对分子功能和生物过程两方面的GPCR蛋白的GO功能预测.在包含1167个GPCR的GO生物学功能预测数据集上进行了测试,结果证明MVIMC优于目前的矩阵补全算法.对于分子功能的预测,与排名第二的LmaFit相比,在前100位样本中,MVIMC的预测概率平均提升17%;对于生物功能的预测,与排名第二的katz相比,在前100位样本中,MVIMC的预测概率平均提升29%.MVIMC算法的预测结果还优于CAFA挑战赛中用于预测蛋白质功能的三种基本方法,对于分子功能和生物过程,MVIMC的预测概率分别提高24%和31%.但MVIMC模型的训练时间较长,下一步将改进归纳矩阵补全模型,在保证性能的同时提高训练速度.

参考文献

Miller W ELefkowitz R J.

Expanding roles for β⁃arrestins as scaffolds and adapters in GPCR signaling and trafficking

Current Opinion in Cell Biology,200113(2):139-145.

[本文引用: 1]

Heng B CAubel DFussenegger M.

An overview of the diverse roles of G⁃protein coupled receptors (GPCRs) in the pathophysiology of various human diseases

Biotechnology Advances,201331(8):1676-1694.

[本文引用: 1]

Wu J SHuang S JZhou Z H.

Genome⁃wide protein function prediction through multi⁃instance multi⁃label learning

IEEE/ACM Transactions on Compu⁃tational Biology and Bioinformatics,201411(5):891-902.

[本文引用: 1]

Folts C JGiera SLi Tet al.

Adhesion g protein⁃coupled receptors as drug targets for neurological diseases

Trends in Pharmacological Sciences,201940(4):278-293.

[本文引用: 1]

Huang G H.

Computational models or methods for protein function prediction

Current Proteomics,201916(5):352-353.

[本文引用: 1]

Ashburner MBall C ABlake J Aet al.

Gene ontology:Tool for the unification of biology

Nature Genetics,200025(1):25-29.

[本文引用: 1]

Zhao Y WWang JChen Jet al.

A literature review of gene function prediction by modeling gene ontology

Frontiers in Genetics,202011400.

[本文引用: 1]

Profiti GMartelli P LCasadio R.

The bologna annotation resource (BAR 3.0):Improving protein functional annotation

Nucleic Acids Research,201745(W1):W285-W290.

[本文引用: 1]

Yuan Q MXie J JXie J Cet al.

Fast and accurate protein function prediction from sequence through pretrained language model and homology⁃based label diffusion

Briefings in Bioinformatics,202324(3):bbad117.

[本文引用: 1]

Zhou N HJiang Y XBergquist T Ret al.

The CAFA challenge reports improved protein function prediction and new functional annotations for hundreds of genes through experimental screens

Genome Biology,201920(1):244.

[本文引用: 2]

You R HZhang Z HXiong Yet al.

GOLabeler:Improving sequence⁃based large⁃scale protein function prediction by learning to rank

Bioinformatics,201834(14):2465-2473.

[本文引用: 1]

Hong J JLuo Y CZhang Yet al.

Protein functional annotation of simultaneously improved stability,accuracy and false discovery rate achieved by a sequence⁃based deep learning

Briefings in Bioinformatics,202021(4):1437-1447.

[本文引用: 1]

Lai B QXu J B.

Accurate protein function prediction via graph attention networks with predicted structure information

Briefings in Bioinformatics,202223(1):bbab502.

[本文引用: 1]

Dhanuka RTripathi ASingh J P.

A semi⁃supervised autoencoder⁃based approach for protein function prediction

IEEE Journal of Biomedical and Health Informatics,202226(10):4957-4965.

[本文引用: 1]

Swenson NKrishnapriyan A SBuluc Aet al.

PersGNN:Applying topological data analysis and geometric deep learning to structure⁃based protein function prediction. arXiv:

,2020.

[本文引用: 1]

Smaili F ZTian S YRoy Aet al.

QAUST:Protein function prediction using structure similarity,protein interaction,and functional motifs

Genomics,Proteomics & Bioinformatics,202119(6):998-1011.

[本文引用: 1]

Rojano EJabato F MPerkins J Ret al.

Assigning protein function from domain⁃function associations using DomFun

BMC Bioinformatics,202223(1):43.

[本文引用: 1]

Gumerov V MZhulin I B.

TREND:A platform for exploring protein function in prokaryotes based on phylogenetic,domain architecture and gene neighborhood analyses

Nucleic Acids Research,202048(W1):W72-W76.

[本文引用: 1]

Barot MGligorijević VCho Ket al.

NetQuilt:Deep multispecies network⁃based protein function prediction using homology⁃informed network similarity

Bioinformatics,202137(16):2414-2422.

[本文引用: 1]

Jagtap SÇelikkanat APirayre Aet al.

BraneMF:Integration of biological networks for functional analysis of proteins

Bioinformatics,202238(24):5383-5389.

[本文引用: 1]

Sengupta KSaha SHalder A Ket al.

PFP⁃GO:Integrating protein sequence,domain and protein⁃protein interaction information for protein function prediction using ranked GO terms

Frontiers in Genetics,202213969915.

[本文引用: 1]

Wu Z RGuo M YJin X Pet al.

CFAGO:Cross⁃fusion of network and attributes based on attention mechanism for protein function prediction

Bioinformatics,202339(3):btad123.

[本文引用: 1]

Li Y MYang MZhang Z F.

A survey of multi⁃view representation learning

IEEE Transactions on Knowledge and Data Engineering,201931(10):1863-1883.

[本文引用: 1]

Lu R KLiu J WLian S Met al.

Multi⁃view representation learning in multi⁃task scene

Neural Computing and Applications,202032(14):10403-10422.

[本文引用: 1]

Wu J SYin QZhang C Xet al.

Function prediction for G protein⁃coupled receptors through text mining and induction matrix completion

ACS Omega,20194(2):3045-3054.

[本文引用: 2]

吴建盛冯巧遇袁京洲.

基于快速多示例多标记学习的G蛋白偶联受体生物学功能预测

计算机研究与发展,201855(8):1674-1682.

[本文引用: 3]

Wu J SFeng Q YYuan J Zet al.

Predicting biological functions of G protein⁃coupled receptors based on fast multi⁃instance multi⁃label learning

Journal of Computer Research and Development,201855(8):1674-1682.

[本文引用: 3]

Rong X.

word2vec parameter learning explained

2014,arXiv:.

[本文引用: 2]

Wei X SWu J XZhou Z H.

Scalable algorithms for multi⁃instance learning

IEEE Transactions on Neural Networks and Learning Systems,201728(4):975-987.

[本文引用: 5]

Marchler⁃Bauer AAnderson J BChitsaz Fet al.

CDD:Specific functional annotation with the conserved domain database

Nucleic Acids Research,200937(S1):D205-D210.

[本文引用: 1]

Wu J SLiu H DDuan X Yet al.

Prediction of DNA⁃binding residues in proteins from amino acid sequences using a random forest model with a hybrid feature

Bioinformatics,200925(1):30-35.

[本文引用: 1]

Wu J SHu DXu Xet al.

A novel method for quantitatively predicting non⁃covalent interactions from protein and nucleic acid sequence

Journal of Molecular Graphics and Modelling,20113128-34.

[本文引用: 2]

Liu Z HMeng J HSun X.

A novel feature⁃based method for whole genome phylogenetic analysis without alignment:Application to HEV genotyping and subtyping

Biochemical and Biophysical Research Communications,2008368(2):223-230.

Camacho CCoulouris GAvagyan Vet al.

BLAST+:Architecture and applications

BMC Bioinformatics,200910(1):421.

[本文引用: 2]

McGuffin LBryson KJones D T.

The PSIPRED protein structure prediction server

Bioinformatics,200016(4):404-405.

[本文引用: 1]

Hammami RZouhir ANaghmouchi Ket al.

SciDBMaker:New software for computer⁃aided design of specialized biological databases

BMC Bioinformatics,20089(1):121.

[本文引用: 1]

Jones D TCozzetto D.

DISOPRED3:Precise disordered region predictions with annotated protein⁃binding activity

Bioinformatics,201531(6):857-863.

[本文引用: 1]

Petersen T NBrunak SHeijne vonet al.

SignalP 4.0:Discriminating signal peptides from trans⁃membrane regions

Nature Methods,20118(10):785-786.

[本文引用: 1]

Singh⁃Blom U MNatarajan NTewari Aet al.

Prediction and validation of gene⁃disease associations using methods inspired by social network analyses

PLoS One,20138(5):e58977.

[本文引用: 2]

Lin Z CChen M MMa Y.

The augmented lagrange multiplier method for exact recovery of corrupted low⁃rank matrices

2010,arXiv:.

[本文引用: 1]

Ma S QGoldfarb DChen L F.

Fixed point and Bregman iterative methods for matrix rank mini⁃mization

Mathematical Programming,2011128(1-2):321-353.

[本文引用: 1]

Wen Z WYin W TZhang Y.

Solving a low⁃rank factorization model for matrix completion by a nonlinear successive over⁃relaxation algorithm

Mathematical Programming Computation,20124(4):333-361.

[本文引用: 1]

Lei Y WZhou D X.

Analysis of singular value thresholding algorithm for matrix completion

Journal of Fourier Analysis and Applications,201925(6):2957-2972.

[本文引用: 1]

Sánchez JPerronnin FMensink Tet al.

Image classification with the fisher vector:Theory and practice

International Journal of Computer Vision,2013105(3):222-245.

[本文引用: 1]

Xu MJin RZhou Z H.

Speedup matrix completion with side information:Application to multi⁃label learning

Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe,NV,USACurran Associates Inc.20132301-2309.

[本文引用: 1]

Radivojac PClark W TOron T Ret al.

A large⁃scale evaluation of computational protein function prediction

Nature Methods,201310(3):221-227.

[本文引用: 4]

/