基于多视图矩阵补全的蛋白受体功能预测

doi:10.13232/j.cnki.jnju.2024.01.001

[1]

Miller

W E

， Lefkowitz

R J

.

Expanding roles for β⁃arrestins as scaffolds and adapters in GPCR signaling and trafficking

Current Opinion in Cell Biology，2001，13(2)：139-145.

[本文引用: 1]

[2]

Heng

B C

， Aubel

D

， Fussenegger

M

.

An overview of the diverse roles of G⁃protein coupled receptors (GPCRs) in the pathophysiology of various human diseases

Biotechnology Advances，2013，31(8)：1676-1694.

[本文引用: 1]

[3]

Wu

J S

， Huang

S J

， Zhou

Z H

.

Genome⁃wide protein function prediction through multi⁃instance multi⁃label learning

IEEE/ACM Transactions on Compu⁃tational Biology and Bioinformatics，2014，11(5)：891-902.

[本文引用: 1]

[4]

Folts

C J

， Giera

S

， Li

T

，et al.

Adhesion g protein⁃coupled receptors as drug targets for neurological diseases

Trends in Pharmacological Sciences，2019，40(4)：278-293.

[本文引用: 1]

[5]

Huang

G H

.

Computational models or methods for protein function prediction

Current Proteomics，2019，16(5)：352-353.

[本文引用: 1]

[6]

Ashburner

M

， Ball

C A

， Blake

J A

，et al.

Gene ontology：Tool for the unification of biology

Nature Genetics，2000，25(1)：25-29.

[本文引用: 1]

[7]

Zhao

Y W

， Wang

J

， Chen

J

，et al.

A literature review of gene function prediction by modeling gene ontology

Frontiers in Genetics，2020，11：400.

[本文引用: 1]

[8]

Profiti

G

， Martelli

P L

， Casadio

R

.

The bologna annotation resource (BAR 3.0)：Improving protein functional annotation

Nucleic Acids Research，2017，45(W1)：W285-W290.

[本文引用: 1]

[9]

Yuan

Q M

， Xie

J J

， Xie

J C

，et al.

Fast and accurate protein function prediction from sequence through pretrained language model and homology⁃based label diffusion

Briefings in Bioinformatics，2023，24(3)：bbad117.

[本文引用: 1]

[10]

Zhou

N H

， Jiang

Y X

， Bergquist

T R

，et al.

The CAFA challenge reports improved protein function prediction and new functional annotations for hundreds of genes through experimental screens

Genome Biology，2019，20(1)：244.

[本文引用: 2]

[11]

You

R H

， Zhang

Z H

， Xiong

Y

，et al.

GOLabeler：Improving sequence⁃based large⁃scale protein function prediction by learning to rank

Bioinformatics，2018，34(14)：2465-2473.

[本文引用: 1]

[12]

Hong

J J

， Luo

Y C

， Zhang

Y

，et al.

Protein functional annotation of simultaneously improved stability，accuracy and false discovery rate achieved by a sequence⁃based deep learning

Briefings in Bioinformatics，2020，21(4)：1437-1447.

[本文引用: 1]

[13]

Lai

B Q

， Xu

J B

.

Accurate protein function prediction via graph attention networks with predicted structure information

Briefings in Bioinformatics，2022，23(1)：bbab502.

[本文引用: 1]

[14]

Dhanuka

R

， Tripathi

A

， Singh

J P

.

A semi⁃supervised autoencoder⁃based approach for protein function prediction

IEEE Journal of Biomedical and Health Informatics，2022，26(10)：4957-4965.

[本文引用: 1]

[15]

Swenson

N

， Krishnapriyan

A S

， Buluc

A

，et al.

PersGNN：Applying topological data analysis and geometric deep learning to structure⁃based protein function prediction. arXiv:

，2020.

[本文引用: 1]

[16]

Smaili

F Z

， Tian

S Y

， Roy

A

，et al.

QAUST：Protein function prediction using structure similarity，protein interaction，and functional motifs

Genomics，Proteomics & Bioinformatics，2021，19(6)：998-1011.

[本文引用: 1]

[17]

Rojano

E

， Jabato

F M

， Perkins

J R

，et al.

Assigning protein function from domain⁃function associations using DomFun

BMC Bioinformatics，2022，23(1)：43.

[本文引用: 1]

[18]

Gumerov

V M

， Zhulin

I B

.

TREND：A platform for exploring protein function in prokaryotes based on phylogenetic，domain architecture and gene neighborhood analyses

Nucleic Acids Research，2020，48(W1)：W72-W76.

[本文引用: 1]

[19]

Barot

M

， Gligorijević

V

， Cho

K

，et al.

NetQuilt：Deep multispecies network⁃based protein function prediction using homology⁃informed network similarity

Bioinformatics，2021，37(16)：2414-2422.

[本文引用: 1]

[20]

Jagtap

S

， Çelikkanat

A

， Pirayre

A

，et al.

BraneMF：Integration of biological networks for functional analysis of proteins

Bioinformatics，2022，38(24)：5383-5389.

[本文引用: 1]

[21]

Sengupta

K

， Saha

S

， Halder

A K

，et al.

PFP⁃GO：Integrating protein sequence，domain and protein⁃protein interaction information for protein function prediction using ranked GO terms

Frontiers in Genetics，2022，13：969915.

[本文引用: 1]

[22]

Wu

Z R

， Guo

M Y

， Jin

X P

，et al.

CFAGO：Cross⁃fusion of network and attributes based on attention mechanism for protein function prediction

Bioinformatics，2023，39(3)：btad123.

[本文引用: 1]

[23]

Li

Y M

， Yang

M

， Zhang

Z F

.

A survey of multi⁃view representation learning

IEEE Transactions on Knowledge and Data Engineering，2019，31(10)：1863-1883.

[本文引用: 1]

[24]

Lu

R K

， Liu

J W

， Lian

S M

，et al.

Multi⁃view representation learning in multi⁃task scene

Neural Computing and Applications，2020，32(14)：10403-10422.

[本文引用: 1]

[25]

Wu

J S

， Yin

Q

， Zhang

C X

，et al.

Function prediction for G protein⁃coupled receptors through text mining and induction matrix completion

ACS Omega，2019，4(2)：3045-3054.

[本文引用: 2]

[26]

吴建盛，冯巧遇，袁京洲，等.

基于快速多示例多标记学习的G蛋白偶联受体生物学功能预测

计算机研究与发展，2018，55(8)：1674-1682.

[本文引用: 3]

Wu

J S

， Feng

Q Y

， Yuan

J Z

，et al.

Predicting biological functions of G protein⁃coupled receptors based on fast multi⁃instance multi⁃label learning

Journal of Computer Research and Development，2018，55(8)：1674-1682.

[本文引用: 3]

[27]

Rong

X

.

word2vec parameter learning explained

2014，arXiv:.

[本文引用: 2]

[28]

Wei

X S

， Wu

J X

， Zhou

Z H

.

Scalable algorithms for multi⁃instance learning

IEEE Transactions on Neural Networks and Learning Systems，2017，28(4)：975-987.

[本文引用: 5]

[29]

Marchler⁃Bauer

A

， Anderson

J B

， Chitsaz

F

，et al.

CDD：Specific functional annotation with the conserved domain database

Nucleic Acids Research，2009，37(S1)：D205-D210.

[本文引用: 1]

[30]

Wu

J S

， Liu

H D

， Duan

X Y

，et al.

Prediction of DNA⁃binding residues in proteins from amino acid sequences using a random forest model with a hybrid feature

Bioinformatics，2009，25(1)：30-35.

[本文引用: 1]

[31]

Wu

J S

， Hu

D

， Xu

X

，et al.

A novel method for quantitatively predicting non⁃covalent interactions from protein and nucleic acid sequence

Journal of Molecular Graphics and Modelling，2011，31：28-34.

[本文引用: 2]

[32]

Liu

Z H

， Meng

J H

， Sun

X

.

A novel feature⁃based method for whole genome phylogenetic analysis without alignment：Application to HEV genotyping and subtyping

Biochemical and Biophysical Research Communications，2008，368(2)：223-230.

[33]

Camacho

C

， Coulouris

G

， Avagyan

V

，et al.

BLAST+：Architecture and applications

BMC Bioinformatics，2009，10(1)：421.

[本文引用: 2]

[34]

McGuffin

L

， Bryson

K

， Jones

D T

.

The PSIPRED protein structure prediction server

Bioinformatics，2000，16(4)：404-405.

[本文引用: 1]

[35]

Hammami

R

， Zouhir

A

， Naghmouchi

K

，et al.

SciDBMaker：New software for computer⁃aided design of specialized biological databases

BMC Bioinformatics，2008，9(1)：121.

[本文引用: 1]

[36]

Jones

D T

， Cozzetto

D

.

DISOPRED3：Precise disordered region predictions with annotated protein⁃binding activity

Bioinformatics，2015，31(6)：857-863.

[本文引用: 1]

[37]

Petersen

T N

， Brunak

S

， Heijne

von

，et al.

SignalP 4.0：Discriminating signal peptides from trans⁃membrane regions

Nature Methods，2011，8(10)：785-786.

[本文引用: 1]

[38]

Singh⁃Blom

U M

， Natarajan

N

， Tewari

A

，et al.

Prediction and validation of gene⁃disease associations using methods inspired by social network analyses

PLoS One，2013，8(5)：e58977.

[本文引用: 2]

[39]

Lin

Z C

， Chen

M M

， Ma

Y

.

The augmented lagrange multiplier method for exact recovery of corrupted low⁃rank matrices

2010，arXiv:.

[本文引用: 1]

[40]

Ma

S Q

， Goldfarb

D

， Chen

L F

.

Fixed point and Bregman iterative methods for matrix rank mini⁃mization

Mathematical Programming，2011，128(1-2)：321-353.

[本文引用: 1]

[41]

Wen

Z W

， Yin

W T

， Zhang

Y

.

Solving a low⁃rank factorization model for matrix completion by a nonlinear successive over⁃relaxation algorithm

Mathematical Programming Computation，2012，4(4)：333-361.

[本文引用: 1]

[42]

Lei

Y W

， Zhou

D X

.

Analysis of singular value thresholding algorithm for matrix completion

Journal of Fourier Analysis and Applications，2019，25(6)：2957-2972.

[本文引用: 1]

[43]

Sánchez

J

， Perronnin

F

， Mensink

T

，et al.

Image classification with the fisher vector：Theory and practice

International Journal of Computer Vision，2013，105(3)：222-245.

[本文引用: 1]

[44]

Xu

M

， Jin

R

， Zhou

Z H

.

Speedup matrix completion with side information：Application to multi⁃label learning

∥Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe，NV，USA：Curran Associates Inc.，2013：2301-2309.

[本文引用: 1]

[45]

Radivojac

P

， Clark

W T

， Oron

T R

，et al.

A large⁃scale evaluation of computational protein function prediction

Nature Methods，2013，10(3)：221-227.

[本文引用: 4]

Expanding roles for β?arrestins as scaffolds and adapters in GPCR signaling and trafficking

1

2001

... 蛋白受体是细胞信号转导和基因调控的重要组成部分，也是人类主要的药物靶点，其中G蛋白偶联受体（G Protein Coupled Receptors，GPCRs）占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体^［1］，是细胞信号转导的重要组成部分，可以激活细胞内信号转导通路，最终激活细胞反应^［2］.目前，市场上大约34%的药物都以GPCRs作为靶点^［3-4］，因此，准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式^［5］，而且蛋白质的生物学功能有多种描述方法，其中基因本体学（Gene Ontology，GO）^［6-7］的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体，它包含三个方面：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞成分（Cellular Component，CC）. ...

An overview of the diverse roles of G?protein coupled receptors (GPCRs) in the pathophysiology of various human diseases

1

2013

... 蛋白受体是细胞信号转导和基因调控的重要组成部分，也是人类主要的药物靶点，其中G蛋白偶联受体（G Protein Coupled Receptors，GPCRs）占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体^［1］，是细胞信号转导的重要组成部分，可以激活细胞内信号转导通路，最终激活细胞反应^［2］.目前，市场上大约34%的药物都以GPCRs作为靶点^［3-4］，因此，准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式^［5］，而且蛋白质的生物学功能有多种描述方法，其中基因本体学（Gene Ontology，GO）^［6-7］的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体，它包含三个方面：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞成分（Cellular Component，CC）. ...

Genome?wide protein function prediction through multi?instance multi?label learning

1

2014

... 蛋白受体是细胞信号转导和基因调控的重要组成部分，也是人类主要的药物靶点，其中G蛋白偶联受体（G Protein Coupled Receptors，GPCRs）占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体^［1］，是细胞信号转导的重要组成部分，可以激活细胞内信号转导通路，最终激活细胞反应^［2］.目前，市场上大约34%的药物都以GPCRs作为靶点^［3-4］，因此，准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式^［5］，而且蛋白质的生物学功能有多种描述方法，其中基因本体学（Gene Ontology，GO）^［6-7］的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体，它包含三个方面：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞成分（Cellular Component，CC）. ...

Adhesion g protein?coupled receptors as drug targets for neurological diseases

1

2019

... 蛋白受体是细胞信号转导和基因调控的重要组成部分，也是人类主要的药物靶点，其中G蛋白偶联受体（G Protein Coupled Receptors，GPCRs）占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体^［1］，是细胞信号转导的重要组成部分，可以激活细胞内信号转导通路，最终激活细胞反应^［2］.目前，市场上大约34%的药物都以GPCRs作为靶点^［3-4］，因此，准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式^［5］，而且蛋白质的生物学功能有多种描述方法，其中基因本体学（Gene Ontology，GO）^［6-7］的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体，它包含三个方面：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞成分（Cellular Component，CC）. ...

Computational models or methods for protein function prediction

1

2019

... 蛋白受体是细胞信号转导和基因调控的重要组成部分，也是人类主要的药物靶点，其中G蛋白偶联受体（G Protein Coupled Receptors，GPCRs）占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体^［1］，是细胞信号转导的重要组成部分，可以激活细胞内信号转导通路，最终激活细胞反应^［2］.目前，市场上大约34%的药物都以GPCRs作为靶点^［3-4］，因此，准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式^［5］，而且蛋白质的生物学功能有多种描述方法，其中基因本体学（Gene Ontology，GO）^［6-7］的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体，它包含三个方面：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞成分（Cellular Component，CC）. ...

Gene ontology：Tool for the unification of biology

1

2000

... 蛋白受体是细胞信号转导和基因调控的重要组成部分，也是人类主要的药物靶点，其中G蛋白偶联受体（G Protein Coupled Receptors，GPCRs）占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体^［1］，是细胞信号转导的重要组成部分，可以激活细胞内信号转导通路，最终激活细胞反应^［2］.目前，市场上大约34%的药物都以GPCRs作为靶点^［3-4］，因此，准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式^［5］，而且蛋白质的生物学功能有多种描述方法，其中基因本体学（Gene Ontology，GO）^［6-7］的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体，它包含三个方面：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞成分（Cellular Component，CC）. ...

A literature review of gene function prediction by modeling gene ontology

1

2020

... 蛋白受体是细胞信号转导和基因调控的重要组成部分，也是人类主要的药物靶点，其中G蛋白偶联受体（G Protein Coupled Receptors，GPCRs）占绝大多数.GPCRs是一类具有七跨膜螺旋的膜蛋白受体^［1］，是细胞信号转导的重要组成部分，可以激活细胞内信号转导通路，最终激活细胞反应^［2］.目前，市场上大约34%的药物都以GPCRs作为靶点^［3-4］，因此，准确注释GPCR蛋白的生物学功能对于理解GPCR蛋白参与的生理过程及其相关的药物开发具有重要价值.计算的方法是预测蛋白质生物学功能最常用的一种方式^［5］，而且蛋白质的生物学功能有多种描述方法，其中基因本体学（Gene Ontology，GO）^［6-7］的使用最广泛.GO指用来对基因及其产物的功能进行注释的本体，它包含三个方面：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞成分（Cellular Component，CC）. ...

The bologna annotation resource (BAR 3.0)：Improving protein functional annotation

1

2017

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

Fast and accurate protein function prediction from sequence through pretrained language model and homology?based label diffusion

1

2023

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

The CAFA challenge reports improved protein function prediction and new functional annotations for hundreds of genes through experimental screens

2

2019

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

... 功能注释关键评估（Critical Assessment of Functional Annotation，CAFA^{［10，45］}）挑战是国际上最权威的蛋白质功能注释比赛，已经举办了四届.CAFA中用于预测蛋白质功能的三种基本方法为Naive^［45］，BLAST^［45］和PSI⁃BLAST^［45］.为了验证本文提出的MVIMC算法对于GPCR蛋白质功能预测的有效性，将MVIMC算法与这些方法进行了比较.GO性能主要通过所有阈值的精度和召回之间的最大谐波平均值来评估，其值越大越好.计算如下： ...

GOLabeler：Improving sequence?based large?scale protein function prediction by learning to rank

1

2018

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

Protein functional annotation of simultaneously improved stability，accuracy and false discovery rate achieved by a sequence?based deep learning

1

2020

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

Accurate protein function prediction via graph attention networks with predicted structure information

1

2022

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

A semi?supervised autoencoder?based approach for protein function prediction

1

2022

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

PersGNN：Applying topological data analysis and geometric deep learning to structure?based protein function prediction. arXiv:

1

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

QAUST：Protein function prediction using structure similarity，protein interaction，and functional motifs

1

2021

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

Assigning protein function from domain?function associations using DomFun

1

2022

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

TREND：A platform for exploring protein function in prokaryotes based on phylogenetic，domain architecture and gene neighborhood analyses

1

2020

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

NetQuilt：Deep multispecies network?based protein function prediction using homology?informed network similarity

1

2021

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

BraneMF：Integration of biological networks for functional analysis of proteins

1

2022

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

PFP?GO：Integrating protein sequence，domain and protein?protein interaction information for protein function prediction using ranked GO terms

1

2022

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

CFAGO：Cross?fusion of network and attributes based on attention mechanism for protein function prediction

1

2023

... 过去的研究已经开发了大量的计算方法来预测蛋白质的GO生物学功能，主要分四类.第一类是基于序列同源性搜索的方法，即通过对已知生物学功能的蛋白进行序列相似性搜索来对目标蛋白质进行功能注释.2017年Porfiti et al^［8］开发了BAR3.0，描述了一个新的具有严格度量的非层次聚类过程，该聚类技术捕获同源和远缘蛋白质序列之间共享的基本信息来对未鉴定的蛋白质进行功能注释.2023年Yuan et al^［9］提出一个基于序列的蛋白质功能预测方法SPROF⁃GO，通过在序列相似性的同源网络上使用标签扩散来提高蛋白质功能预测的准确性.第二类是基于序列组合的方法.2018年CAFA3^［10］冠军方法GoLabeler^［11］被提出，该方法从序列输入中提取同源信息并将它们集成到一个预测因子中来构建预测模型.2020年Hong et al^［12］指出基于序列的深度学习方法可同时提高蛋白质功能注释的稳定性、准确性和错误发现率.2022年Lai and Xu^［13］提出GAT⁃GO方法，利用预测的结构信息和蛋白质序列嵌入，大大改善了蛋白质功能预测.同年，Dhanuka et al^［14］提出一种基于深度学习的蛋白质功能预测方法，利用一组自动编码器以半监督的方式用蛋白质序列进行训练，得出每个自动编码器对应的蛋白质功能，该方法可扩展到预测任何数量的具有充分支持的蛋白质序列的功能.第三类是基于结构模板的方法，旨在从结构相似的功能模板推断目标蛋白的功能.2020年Swenson et al^［15］提出一个端到端可训练的深度学习模型PersGNN，结合图形表示学习和拓扑数据分析来捕获蛋白质的局部和全局结构特征.2021年Smaili et al^［16］提出QAUST方法，利用基于结构相似性、蛋白质相互作用和功能基序的三个信息源来预测蛋白质功能.2022年Rojano et al^［17］提出DomFun，通过从各种注释数据库获得的蛋白质结构域和功能之间的关联来预测给定蛋白质的功能，关联计算由结构域、蛋白质和功能注释组成的三方网络得出.第四类是基于生物网络的方法，主要基于蛋白质⁃蛋白质相互作用（PPI）、基因组邻域和共表达模式等信息.2020年Gumerov and Zhulin^［18］将蛋白质特征和基因邻域信息与系统发育联系起来，提出一个基于树的邻域和域探索新平台TREND，使基于进化的蛋白质功能分析更加有效.2021年Barot et al^［19］提出一种基于多物种网络的深度学习方法NetQuilt，有效集成了PPI网络信息和同源性用于蛋白质功能预测.2022年Jagtap et al^［20］提出一种用于蛋白功能分析的生物网络集成方法BraneMF，有效整合了基因共表达网络、PPI网络、遗传互作网络、代谢网络信息来对蛋白质功能进行分析.2022年Sengupta et al^［21］提出PFP⁃GO方法，结合序列相似性、PPI网络和结构域预测的信息，并利用功能富集得出GO术语的共识预测，还可以识别功能活跃的蛋白质.2023年Wu et al^［22］提出CFAGO方法，通过多头注意机制将PPI网络和蛋白质生物学属性结合，用于蛋白质功能预测. ...

A survey of multi?view representation learning

1

2019

... （2）从蛋白质可以提取各种类型的属性信息，这些属性信息都会对蛋白质的功能预测有贡献.多视图学习^［23-24］可以从不同视图来融合这些属性信息，从而更加全面地对蛋白质特征进行描述，提高模型预测性能. ...

Multi?view representation learning in multi?task scene

1

2020

... （2）从蛋白质可以提取各种类型的属性信息，这些属性信息都会对蛋白质的功能预测有贡献.多视图学习^［23-24］可以从不同视图来融合这些属性信息，从而更加全面地对蛋白质特征进行描述，提高模型预测性能. ...

Function prediction for G protein?coupled receptors through text mining and induction matrix completion

2

2019

... 首先，从Uniprot生物数据库（https：//www.uniprot.org/）下载所有GPCRs的Fasta格式序列^［25］，用NCBI的blastclust程序去冗余（相似度小于90%）^［26］，得到最终的样本数据集.然后，从UniProt数据库下载“gene_association.goa_ ref_uniprot”.该文件包含蛋白质具有的生物学功能，文件中P表示生物学过程，F表示分子功能.GPCR蛋白均匀分布于细胞膜上，所以本文不考虑GO的细胞组分预测.从该文件得到GPCR蛋白质的分子功能和生物学过程的GO条目（不考虑Evidence code为IEA的）.最后，从基因本体学网站（http：//geneontology.org/page/download-ontology）下载文件“go.obo”，运行网站提供的obo2csv.py程序，得到文件“go.obo.F.is_a”和“go.obo.P.is_a”，得到GPCR的GO条目的父节点GO，即得到GPCR对应的GO标记空间.删除样本个数特别多和特别少的GO条目.对于分子功能，最终得到GPCR蛋白质样本1167个，GO标记192个；对于生物学过程，最终得到GPCR蛋白质样本1277个，GO标记1203个. ...

... 从UniProt数据库中提取的GPCR蛋白的文本信息包括蛋白质名称（Protein Name）、物种信息（Organism）、分子功能关键字信息（Keywords for Molecular Function）和相关文献的标题信息（Titles of Related Publications），在生物医学文献数据库PubMed中以“receptor（受体）”为关键词进行搜索，得到100多万篇文献.以这些文献的摘要作为比对数据库，使用基于深度神经网络的Word2Vec^［27］工具，对GPCR蛋白质的文本信息进行向量化表示^［25］.对于一个GPCR得到的多个向量，采用多示例学习方法miFV^［28］将其转变为一个示例向量，其维度为84. ...

基于快速多示例多标记学习的G蛋白偶联受体生物学功能预测

3

2018

... 首先，从Uniprot生物数据库（https：//www.uniprot.org/）下载所有GPCRs的Fasta格式序列^［25］，用NCBI的blastclust程序去冗余（相似度小于90%）^［26］，得到最终的样本数据集.然后，从UniProt数据库下载“gene_association.goa_ ref_uniprot”.该文件包含蛋白质具有的生物学功能，文件中P表示生物学过程，F表示分子功能.GPCR蛋白均匀分布于细胞膜上，所以本文不考虑GO的细胞组分预测.从该文件得到GPCR蛋白质的分子功能和生物学过程的GO条目（不考虑Evidence code为IEA的）.最后，从基因本体学网站（http：//geneontology.org/page/download-ontology）下载文件“go.obo”，运行网站提供的obo2csv.py程序，得到文件“go.obo.F.is_a”和“go.obo.P.is_a”，得到GPCR的GO条目的父节点GO，即得到GPCR对应的GO标记空间.删除样本个数特别多和特别少的GO条目.对于分子功能，最终得到GPCR蛋白质样本1167个，GO标记192个；对于生物学过程，最终得到GPCR蛋白质样本1277个，GO标记1203个. ...

... 将去除多余信息的GPCRs氨基酸序列的文件上传至NCBI的Batch CD⁃Search服务器^{［26，29］}，得到其相关的结构域信息.对于蛋白质的每个结构域，提取以下特征信息. ...

... （2）氨基酸关联信息.氨基酸关联信息描述结构域中氨基酸间的相关性.依据上面的六类氨基酸，可以得到氨基酸关联信息（Amino Acid Correlation，AAC）^{［26，33］}为： ...

Predicting biological functions of G protein?coupled receptors based on fast multi?instance multi?label learning

3

2018

... 首先，从Uniprot生物数据库（https：//www.uniprot.org/）下载所有GPCRs的Fasta格式序列^［25］，用NCBI的blastclust程序去冗余（相似度小于90%）^［26］，得到最终的样本数据集.然后，从UniProt数据库下载“gene_association.goa_ ref_uniprot”.该文件包含蛋白质具有的生物学功能，文件中P表示生物学过程，F表示分子功能.GPCR蛋白均匀分布于细胞膜上，所以本文不考虑GO的细胞组分预测.从该文件得到GPCR蛋白质的分子功能和生物学过程的GO条目（不考虑Evidence code为IEA的）.最后，从基因本体学网站（http：//geneontology.org/page/download-ontology）下载文件“go.obo”，运行网站提供的obo2csv.py程序，得到文件“go.obo.F.is_a”和“go.obo.P.is_a”，得到GPCR的GO条目的父节点GO，即得到GPCR对应的GO标记空间.删除样本个数特别多和特别少的GO条目.对于分子功能，最终得到GPCR蛋白质样本1167个，GO标记192个；对于生物学过程，最终得到GPCR蛋白质样本1277个，GO标记1203个. ...

... 将去除多余信息的GPCRs氨基酸序列的文件上传至NCBI的Batch CD⁃Search服务器^{［26，29］}，得到其相关的结构域信息.对于蛋白质的每个结构域，提取以下特征信息. ...

... （2）氨基酸关联信息.氨基酸关联信息描述结构域中氨基酸间的相关性.依据上面的六类氨基酸，可以得到氨基酸关联信息（Amino Acid Correlation，AAC）^{［26，33］}为： ...

word2vec parameter learning explained

2

2014

... 从UniProt数据库中提取的GPCR蛋白的文本信息包括蛋白质名称（Protein Name）、物种信息（Organism）、分子功能关键字信息（Keywords for Molecular Function）和相关文献的标题信息（Titles of Related Publications），在生物医学文献数据库PubMed中以“receptor（受体）”为关键词进行搜索，得到100多万篇文献.以这些文献的摘要作为比对数据库，使用基于深度神经网络的Word2Vec^［27］工具，对GPCR蛋白质的文本信息进行向量化表示^［25］.对于一个GPCR得到的多个向量，采用多示例学习方法miFV^［28］将其转变为一个示例向量，其维度为84. ...

... 以“gene function”为关键字搜索PubMed数据库，得到约180万篇文献，以这些文献的摘要作为比对数据库.从Gene Onto⁃logy网站下载的go.obo文件中得到每个GO条目对应的文本描述信息，包括name，def，synonym信息.最后，利用Word2Vec^［27］将GO条目的文本信息转化成向量，即每个GO条目表示为由多个示例向量组成的包，采用多示例学习方法miFV^［28］将其转换为单个示例向量，其特征维度为84. ...

Scalable algorithms for multi?instance learning

5

2017

... 从UniProt数据库中提取的GPCR蛋白的文本信息包括蛋白质名称（Protein Name）、物种信息（Organism）、分子功能关键字信息（Keywords for Molecular Function）和相关文献的标题信息（Titles of Related Publications），在生物医学文献数据库PubMed中以“receptor（受体）”为关键词进行搜索，得到100多万篇文献.以这些文献的摘要作为比对数据库，使用基于深度神经网络的Word2Vec^［27］工具，对GPCR蛋白质的文本信息进行向量化表示^［25］.对于一个GPCR得到的多个向量，采用多示例学习方法miFV^［28］将其转变为一个示例向量，其维度为84. ...

... 对于每个结构域，Consortium阵包含的元素为

42 \times l

，其中，l是氨基酸序列的长度.设定42个元素组成的向量为一个示例，则每个结构域的进化信息PSSM矩阵为l个示例组成的示例包.采用多示例学习方法miFV^［28］将其转变为一个示例向量，最终得到一个84维的特征向量. ...

... （6）无序残基信息.采用DISOPRED^［36］软件对结构域的无序残基信息进行预测，并将结构域中的每个氨基酸残基的特征向量当作一个示例，采用多示例单示例化方法miFV^［28］将其转换为单个示例向量，其特征维度为84. ...

... （7）信号肽信息.采用SignalP^［37］软件对结构域的信号肽信息进行预测，并将结构域中的每个氨基酸残基的特征向量当作一个示例，采用多示例学习方法miFV^［28］将其转换为单个示例向量，得到的信号肽信息特征维度为84. ...

... 以“gene function”为关键字搜索PubMed数据库，得到约180万篇文献，以这些文献的摘要作为比对数据库.从Gene Onto⁃logy网站下载的go.obo文件中得到每个GO条目对应的文本描述信息，包括name，def，synonym信息.最后，利用Word2Vec^［27］将GO条目的文本信息转化成向量，即每个GO条目表示为由多个示例向量组成的包，采用多示例学习方法miFV^［28］将其转换为单个示例向量，其特征维度为84. ...

CDD：Specific functional annotation with the conserved domain database

1

2009

... 将去除多余信息的GPCRs氨基酸序列的文件上传至NCBI的Batch CD⁃Search服务器^{［26，29］}，得到其相关的结构域信息.对于蛋白质的每个结构域，提取以下特征信息. ...

Prediction of DNA?binding residues in proteins from amino acid sequences using a random forest model with a hybrid feature

1

2009

... （1）三联氨基酸信息.按照其偶极矩和侧链体积，可将20种氨基酸分为A，B，C，D，E和F^［30-31］六类.对于每个结构域，计算其三联体出现频率（Conjoint_triad）^［31］： ...

A novel method for quantitatively predicting non?covalent interactions from protein and nucleic acid sequence

2

2011

... （1）三联氨基酸信息.按照其偶极矩和侧链体积，可将20种氨基酸分为A，B，C，D，E和F^［30-31］六类.对于每个结构域，计算其三联体出现频率（Conjoint_triad）^［31］： ...

... ［31］： ...

A novel feature?based method for whole genome phylogenetic analysis without alignment：Application to HEV genotyping and subtyping

0

2008

BLAST+：Architecture and applications

2

2009

... （2）氨基酸关联信息.氨基酸关联信息描述结构域中氨基酸间的相关性.依据上面的六类氨基酸，可以得到氨基酸关联信息（Amino Acid Correlation，AAC）^{［26，33］}为： ...

... （3）进化信息，用psiblast软件^［33］获得的结构域的位置特异性得分矩阵（Position⁃Specific Scoring Matrics，PSSMs）来表示： ...

The PSIPRED protein structure prediction server

1

2000

... （4）二级结构关联信息.蛋白质的二级结构通常包含螺旋、折叠和转角三种状态，利用PSIPRED在线分析工具^［34］得到结构域的每个残基的预测二级结构.计算结构域的二级结构关联信息（Secondary Structure Element Correlation，SSC）如下： ...

SciDBMaker：New software for computer?aided design of specialized biological databases

1

2008

... （5）物化属性.采用SciDBMaker（SDK）^［35］软件得到结构域的各种物化属性，并利用logistic函数进行归一化处理，其维度为59. ...

DISOPRED3：Precise disordered region predictions with annotated protein?binding activity

1

2015

... （6）无序残基信息.采用DISOPRED^［36］软件对结构域的无序残基信息进行预测，并将结构域中的每个氨基酸残基的特征向量当作一个示例，采用多示例单示例化方法miFV^［28］将其转换为单个示例向量，其特征维度为84. ...

SignalP 4.0：Discriminating signal peptides from trans?membrane regions

1

2011

... （7）信号肽信息.采用SignalP^［37］软件对结构域的信号肽信息进行预测，并将结构域中的每个氨基酸残基的特征向量当作一个示例，采用多示例学习方法miFV^［28］将其转换为单个示例向量，得到的信号肽信息特征维度为84. ...

Prediction and validation of gene?disease associations using methods inspired by social network analyses

2

2013

... 将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较，包括Catapult^［38］，katz^［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

... ［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

The augmented lagrange multiplier method for exact recovery of corrupted low?rank matrices

1

2010

... 将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较，包括Catapult^［38］，katz^［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

Fixed point and Bregman iterative methods for matrix rank mini?mization

1

2011

... 将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较，包括Catapult^［38］，katz^［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

Solving a low?rank factorization model for matrix completion by a nonlinear successive over?relaxation algorithm

1

2012

... 将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较，包括Catapult^［38］，katz^［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

Analysis of singular value thresholding algorithm for matrix completion

1

2019

... 将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较，包括Catapult^［38］，katz^［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

Image classification with the fisher vector：Theory and practice

1

2013

... 将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较，包括Catapult^［38］，katz^［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

Speedup matrix completion with side information：Application to multi?label learning

1

2013

... 将本文提出的MVIMC算法与目前最好的几种传统矩阵补全算法进行比较，包括Catapult^［38］，katz^［38］，ALM^［39］，FPCA^［40］，LmaFit^［41］，SVT^［42-43］和Maxide^［44］.Catapult和katz利用样本与样本的关系矩阵以及标记与标记的关系矩阵.ALM用增广拉格朗日乘数法来精确恢复被破坏的低秩矩阵.FPCA采用不动点和Bregman迭代算法来解决线性约束矩阵秩最小化问题.LmaFit通过非线性连续过松弛算法解决矩阵完成的低秩因子分解问题.SVT通过奇异值阈值算法，用最小核范数来近似矩阵完成.所有对比算法均采用文献中的默认参数. ...

A large?scale evaluation of computational protein function prediction

4

2013

... 功能注释关键评估（Critical Assessment of Functional Annotation，CAFA^{［10，45］}）挑战是国际上最权威的蛋白质功能注释比赛，已经举办了四届.CAFA中用于预测蛋白质功能的三种基本方法为Naive^［45］，BLAST^［45］和PSI⁃BLAST^［45］.为了验证本文提出的MVIMC算法对于GPCR蛋白质功能预测的有效性，将MVIMC算法与这些方法进行了比较.GO性能主要通过所有阈值的精度和召回之间的最大谐波平均值来评估，其值越大越好.计算如下： ...

... ［45］，BLAST^［45］和PSI⁃BLAST^［45］.为了验证本文提出的MVIMC算法对于GPCR蛋白质功能预测的有效性，将MVIMC算法与这些方法进行了比较.GO性能主要通过所有阈值的精度和召回之间的最大谐波平均值来评估，其值越大越好.计算如下： ...

... ［45］和PSI⁃BLAST^［45］.为了验证本文提出的MVIMC算法对于GPCR蛋白质功能预测的有效性，将MVIMC算法与这些方法进行了比较.GO性能主要通过所有阈值的精度和召回之间的最大谐波平均值来评估，其值越大越好.计算如下： ...

... ［45］.为了验证本文提出的MVIMC算法对于GPCR蛋白质功能预测的有效性，将MVIMC算法与这些方法进行了比较.GO性能主要通过所有阈值的精度和召回之间的最大谐波平均值来评估，其值越大越好.计算如下： ...

基于多视图矩阵补全的蛋白受体功能预测

Predicting functions of protein receptors through multi⁃view matrix completion

1 数据集和方法

1.1　数据集

1.2　特征

1.2.1　GPCR蛋白视图

1.2.1.1 GPCR文本信息

1.2.1.2 GPCR蛋白的结构域特征

1.2.2　GO标记视图

1.3　MVIMC

1.4　评价指标

2 实验与结果

2.1　不同视图上的性能比较

图1

图2

图3

图4

2.2　不同矩阵补全算法的比较

图5

图6

2.3　视图组合方法的比较

图7

图8

2.4　与CAFA蛋白质功能预测方法的比较

图9

3 结论

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

基于多视图矩阵补全的蛋白受体功能预测

Predicting functions of protein receptors through multi⁃view matrix completion

1 数据集和方法

1.1 数据集

1.2 特征

1.2.1 GPCR蛋白视图

1.2.1.1 GPCR文本信息

1.2.1.2 GPCR蛋白的结构域特征

1.2.2 GO标记视图

1.3 MVIMC

1.4 评价指标

2 实验与结果

2.1 不同视图上的性能比较

图1

图2

图3

图4

2.2 不同矩阵补全算法的比较

图5

图6

2.3 视图组合方法的比较

图7

图8

2.4 与CAFA蛋白质功能预测方法的比较

图9

3 结论

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

1.1　数据集

1.2　特征

1.2.1　GPCR蛋白视图

1.2.2　GO标记视图

1.3　MVIMC

1.4　评价指标

2.1　不同视图上的性能比较

2.2　不同矩阵补全算法的比较

2.3　视图组合方法的比较

2.4　与CAFA蛋白质功能预测方法的比较

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子