基于氨基酸组成的蛋白质预测软件
根据组成蛋白质的20种氨基酸的物理和化学性质可以辨析电泳等实验中的未知蛋白质,也可以分析已知蛋白质的物化性质。
ExPASy工具包包涵的程序
AACompIdent:与把氨基酸序列在SWISS-PROT库中搜索不同,AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白。该程序分析时需提交的相关信息包括:蛋白质的氨基酸组成、等电点pI和分子量(如果知道)、正确的物种分类及特别的关键词。此外,用户还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。例如,某种“组合”会把残基Asp/Asn(D/N)和Gln/Glu(Q/E)组合成Asx(B)和Glx(Z);或者某种残基会在分析中被完全除去。
对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分。由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不考虑pI和分子量;第二张列表包含了不考虑物种分类、pI和分子量的全体蛋白;第三张列表中的蛋白不但基于特定物种分类,并且将pI和分子量也考虑在内。
虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符。
AACompSim:AACompIdent的一个变种,AACompSim提供类似的分析,但与前者以实验所得的氨基酸组成为依据进行搜索不同,后者使用SWISS-PROT中的序列为依据。有报道称,氨基酸组成在物种之间是十分保守的(Cordwell等,1995),并且通过分析氨基酸的组成,研究者能从低于25%序列相似性的蛋白之间发现弱相似性(Hobohm和Sander,1995)。因此,在“传统的”数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解。
PROSEARCH
PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具,用户只需输入查询序列本身。
分子量搜索(MOWSE)
分子量搜索(MolecularWeightSearch,MOWSE)算法利用了通过质谱(MS)技术获得的信息。利用完整蛋白质的分子量及其被特定蛋白酶消化后产物的分子量,一种未知蛋白质能被准确无误地确认,给出由若干实验才能决定的结果。由于未知蛋白无需再全部或部分测序,这一方法显著地减少了实验时间。
MOWSE的输入是一个纯文本文件,包含一张实验测定的肽段列表,分子量范围在0.7到4.0Kda之间。计算过程基于在OWL非冗余蛋白质序列库中包含的信息。打分基于在一定分子量范围内蛋白中一个片段分子量出现的次数。输出的结果是得分最佳的30个蛋白的列表,包括它们在OWL中的条目名称、相符肽段序列、和其它统计信息。模拟研究得出在使用5个或更少输入肽段分子量时,准确率为99%。
该搜索服务可通过向mowse@daresburg.ac.uk发送电子邮件实现。为获得更多关于查询格式的细节信息,可以相该地址发送电子邮件,并在消息正文中写上“help”这个词。