蛋白质二级结构预测-人工神经网络方法(图)
人工神经网络是一种复杂的信息处理模型。随着神经网络研究的兴起,科学家们也将神经网络用于生物信息学,其中包括二级结构的预测、蛋白质结构的分类、折叠方式的预测以及基因序列的分析等等。将神经网络用于二级结构预测的最早是由Qian和Sejnowskit提出的,他们受到神经网络在文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。
神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络方法能够得到63-65%的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准确率能够达到70%。
用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即任何一个输入层神经元都与任何一个隐含层的神经元连接。同样,隐含层神经元与输出层的神经元也是完全连接的。
输入层用于接收蛋白质窗口序列数据。沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此,输入层共有21*(2m+1)个神经元。输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态。输入层中编码一个残基的21个神经元只有一个处于激发状态,即设置为1,其余为0,对应于一种氨基酸残基。类似地,代表中心残基二级结构状态的输出单元的期望输出为1,其它两个单元为0。
在这样一种神经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。隐含层的神经元个数一般从2个变化到几十个,隐含层的神经元越多,则神经网络对训练实例的记忆能力越强,但是神经网络的推广能力将越弱,对新蛋白质二级结构预测的准确率越低。因此,在实际应用中需要通过大量实验,选择合适的隐含层神经元个数。在实际应用中,窗口的大小影响预测结果,Qian和Sejnowskit实验结果表明窗口的大小取13个残基为佳。
神经网络通过神经元之间的连接存贮信息或知识,因此,神经网络学习的过程实际上是调整网络中各连接权值的过程。神经网络中各层之间的连接权值调整采用反向传播BP算法(相应的网络称为BP网)。在训练或学习过程中,将结构已知的蛋白质序列由输入层输入,不断调整神经网络神经元之间的连接权重及网络节点的偏置,直至实际输出与期望值差别最小为止。在训练过程的每一步,取一个窗口中的序列及窗口中心氨基酸所对应的二级结构作为已知的映射结果,调整网络映射行为,使之与已知映射关系相一致。训练完毕后,得到一个已确定参数并且可以进行结构预测的实际神经网络。
与前述其它方法相比,神经网络具有应用方便、计算能力强、预测准确率较高的特点,网络一旦训练完毕,就可以进行快速预测。目前二级结构预测识别率不高的主要因素是许多预测方法没有使用足够的进化信息和全局信息。蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。
基于人工神经网络模型的预测软件PHDsec使用简介:
PHDsec的第一步工作是形成同源序列的多重对比排列。对于一个待预测的蛋白质,PHDsec首先利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。
PHDsec的第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。这里的神经网络是一个多层的前馈网络,
整个网络模型包括两个层次:第一层网络进行序列到结构的映射,对于第一层网络的输入包括两个部分,如上图中(a)、(b)所示。一部分是序列的局部信息,取自窗口内w(缺省值为13)个氨基酸残基,另一部分是来自整个序列的全局信息。首先,取多重序列比对的w列,上图中(a)所示,这里w=7;然后,计算序列局部统计数据以及序列全局数据。局部数据有24个,其中20个数据对应于20种氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置的保守程度(cons)。
全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示蛋白质长度的数据有4个(分别对应与4个区间,(b)),当前窗口到蛋白质N-端和C-端的距离分别有4个。第一层次网络的输出是窗口中心残基二级结构的状态,H代表螺旋,E代表折叠,L代表其它。第二层次网络是一个结构到结构的映射,作用是对前一层网络的输出进行校正。第二层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息(cons)。所有第二层网络的输入表示为:3(二级结构)+1(空缺)+1(cons)+32(全局数据)。第二层网络输出的含义与第一层网络的输出一样。
建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec对神经网络进行训练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求神经网络至少能够正确处理训练数据。PHDsec的训练数据是随机选取的。
由于PHDsec在进行二级结构预测时采用序列多重比对的统计结果,而序列多重比对反映了蛋白质家族的共同特征,提取了结构保守的信息。序列多重比对结果也反映了在进化过程中,哪些部分的结构容易发生变化,而哪些部分的结构对蛋白质的功能非常重要,不能随意改变。
这些信息对于蛋白质结构预测来说,是非常关键的。多重序列比对所携带的进化信息也暗示了蛋白质中长程相互作用:假设蛋白质中氨基酸残基i与残基i+100在三维空间中靠在一起,残基i可能的替换类型受到残基i+100理化特性的约束。这样的长程相互约束关系会反应在多重序列比对中。总之,利用多重序列比对的信息,可以提高二级结构预测的准确性。另外,PHDsec通过两层神经网络的体系,加强了预测结果的校正,由此提高了对β折叠结构预测的准确性。正因为这样,PHDsec预测的准确率比较高,对二级结构预测的准确率达到72%,而且还对序列上每个位点的预测可信度给予统计分析。PHDsec是第一个预测准确率超过70%二级结构预测方法,比基于单条序列的预测方法提高了近10个百分点。