蛋白质二级结构预测软件
蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步,二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用过人工神经网络、遗传算法等技术构建预测方法。
目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PREDATOR、PSA,其中最常用的是PHD。PHD结合了许多神经网络的成果,每个结果都是根据局部序列上下文关系和整体蛋白质性质(蛋白质长度、氨基酸频率等)来预测残基的二级结构。那么,最终的预测是这些神经网络每个输出的算术平均值。这种结合方案被称为陪审团决定法(jurydecision)或者称为所有胜利者(winner-take-all)法。PHD被认为是二级结构预测的标准。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。
PHD的使用请见人工神经网络方法中的“基于人工神经网络模型的预测软件PHDsec使用简介”。此处不再重复。
nnpredict算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型。在预测时,服务器使用FASTA格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类(α、β或α/β)。残基被分为几类,如α螺旋(H)、β链(E)或其它(-)。若对给定残基未给出预测,则会标上问号(?),这说明无法作出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。据报道,对于最佳实例的预测,nnpredict的准确率超过了65%。
PredictProtein在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在SWISS-PROT库中搜索相似的序列。当相似的序列被找到后,一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对。
MaxHom用迭代的方法来构造比对:当第一次搜索SWISS-PROT后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在SWISS-PROT中搜索新的相似序列。由MaxHom产生的多序列比对随后被置入一个神经网络,用PHD的方法进行预测。
位于法国里昂的CNRS(CentreNationaldelaRechercheScientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:Garnier-Gibrat-Robson(GOR)方法、Levin同源预测方法、双重预测方法、PHD方法和CNRS自己的SOPMA方法。简单的说,SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。
其它特殊局部结构的预测软件
其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(CoiledCoils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。
卷曲螺旋
卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。COILS算法将查询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索。程序也将查询序列与包含球状蛋白序列的PDB次级库进行比较,并根据两个库搜索得分的不同决定输入序列形成卷曲螺旋的概率。COILS可以下载到VAX/VMS系统上使用,也可通过简单的Web界面使用。
程序要求序列数据为GCG或FASTA格式,一次可以提交一条或多条序列。除了序列,用户还能在两种打分矩阵中选择一种:MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩阵;或MTIDK,是根据肌球蛋白、原肌球蛋白、中间纤维类蛋白Ⅰ-Ⅴ、桥粒蛋白和角蛋白得到的打分矩阵。
程序作者引述了两种矩阵的适用特点:MTK更适合检测双链结构,而MTIDK适合其它情形。用户还能启动一个选项给予每个卷曲a和d位置上残基(通常为亲水性)相同的权重。如果COILS在无权重和有权重情况下得到的结果相差很大,则可能表明存在正错误。程序的作者警告说COILS是用来检测与溶液接触的左手性卷曲螺旋的,对于包埋的或右手性卷曲螺旋则可能检测不到。若一个序列被提交到服务器,程序会整理出一张预测结果图,显示沿着序列各个部分形成卷曲螺旋的倾向性。
MacStripe:一个基于Macintoshi系统的应用程序,使用了Lupas的COILS的预测方法,能输出较简单的预测结果。MacStripe要求输入文件为FASTA、PIR或其它普遍文件格式,并象COILS一样产生一个图形文件,包含形成卷曲螺旋的概率,以及用柱状图显示七连体重复模式的连续性。
跨膜区域
预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。Tmpred的Web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。输出结果包含四个部分:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。
信号肽
丹麦技术大学的生物序列分析中心开发了SignalP这个强大的信号肽及其剪切位点检测工具。该算法基于神经网络方法,用已知信号序列的革兰氏阴性原核生物、革兰氏阳性原核生物及真核生物的序列分别作为训练集。SignalP预测的是分泌型信号肽,而不是那些参与细胞内信号传递的蛋白。