优化基因表达的重要因素
在基因表达研究中,研究者比较注意选择合适的表达载体和宿主系统,而往往忽视基因本身是否与载体和宿主系统为最佳匹配这样一个实质性问题。基因的最佳化表达可以通过对基因的重新设计和合成来实现,如消除稀有密码子而利用最佳化密码子,二级结构最小化,调整GC含量等。以下就密码子最佳化、翻译终止效率和真核细胞中异源蛋白表达的问题加以说明。 密码子最佳化(codon optimization) 遗传密码有64种,但是绝大多数生物倾向于利用这些密码子中的一部分。那些被最频繁利用的称为最佳密码子(optimal codons),那些不被经常利用的称为稀有或利用率低的密码子(rare or low-usage codons)。实际上用做蛋白表达或生产的每种生物(包括大肠杆菌,酵母,哺乳动物细胞,Pichia,植物细胞和昆虫细胞)都表现出某种程度的密码子利用的差异或偏爱。大肠杆菌、酵母、果蝇、灵长类等每种生物都有独特的8个密码子极少被利用。有趣的是,灵长类和酵母有6个同样的利用率低的密码子。大肠杆菌、酵母和果蝇中编码丰度高的蛋白质的基因明显避免低利用率的密码子。因此,重组蛋白的表达可能受密码子利用的影响(尤其在异源表达系统中)的事实并不很奇怪。你的基因利用的密码子可能不是你正在利用的蛋白生产系统进行高水平表达所偏爱的密码子,这种情况是可能的。利用偏爱密码子(preferred codons)并避免利用率低的或稀有的密码子可以合成基因,基因的这种重新设计叫密码子最佳化。 在同源表达系统中,同较低水平表达的基因相比,较高表达的基因可能有很不同的密码子偏爱。通过对密码子利用的归类分析,人们可以真正预测任何基因在酵母中的表达水平。在诸如Zea mays的其他生物中,大量高表达基因强烈偏爱以G或C结尾的密码子。而且,在Dictyostelium中,同低水平表达的基因比较,高表达基因有较大数目的偏爱密码子。 在大肠杆菌中表达哺乳动物基因是不可预测和具有挑战的。例如直到最近才实现了人血红蛋白的过表达。为了达到血红蛋白的好的表达水平,Alpha-球蛋白cDNA不得不用大肠杆菌偏爱的密码子进行重新合成。在异源宿主中实现象血红蛋白这样复杂的蛋白质的过表达可能需要最佳化密码子,这些研究者为此提供了令人信服的资料。成簇的低利用率的密码子抑制了核糖体的运动,这是基因不能以合适水平表达的一个明显机制。核糖体翻译由九个密码子组成的信使(含几个低利用率密码子或全部为低利用率密码子)时的运动速度要比翻译不含低利用率密码子的同样长的信使的速度慢。即使低利用率密码子簇位于3'端,信使最后也会被核糖体”拥挤”而损害,核糖体又回到5'端。3'端低利用率密码子簇的抑制效应可以和全部信使都由低利用率密码子组成的抑制效应一样大。如果低利用率密码子簇位于5'端,其效应是起始核糖体数目的全面减少,导致蛋白合成中信使的低效率。散在分布的稀有密码子对翻译的效应还未很好地研究,但是有证据表明这种情况的确对翻译效率有负面效应。 其他因素也可以影响蛋白表达,包括使mRNA去稳定的序列。重新设计合成基因可以去除或改变这些序列,导致高水平表达。消除稀有密码子、去除任何去稳定序列和利用最佳密码子的基因的重新设计都可能增加蛋白产量,使的蛋白生产更有效和经济。 翻译终止效率 蛋白表达水平受许多不同因素和过程影响。蛋白稳定性、mRNA稳定性和翻译效率在蛋白生产和积累中起主要作用。翻译过程分为起始、延伸和终止三个期。对于翻译的起始,原核mRNA需要5'端非翻译前导序列中有一段叫Shine-Dalgarno序列的特异核糖体结合序列。在真核细胞,有效的起始依赖于围绕在起始密码子ATG上下游的一段叫Kozak序列的序列。密码子利用或偏爱对延伸有深刻的影响。例如,如果mRNA有很多成簇的稀有密码子,这可能对核糖体的运动速度造成负面影响,大大减低了蛋白表达水平。翻译终止是蛋白生产必须的一步,但其对蛋白表达水平的影响还没有被研究清楚。但是最近的科学研究表明终止对蛋白表达水平有很大的影响。总的来说,更有效的翻译终止导致更好的蛋白表达。 绝大多数生物都有偏爱的围绕终止密码子的序列框架。酵母和哺乳动物偏爱的终止密码子分别是UAA和UGA。单子叶植物最常利用UGA,而昆虫和大肠杆菌倾向于用UAA。翻译终止效率可能受紧接着终止密码子的下游碱基和紧靠终止密码子的上游序列影响。在酵母中通过改变围绕终止密码子的局部序列框架,翻译终止效率可能被减低几个100倍。对于UGA和UAA,紧接着终止密码子的下游碱基对有效终止的影响力大小次序为G>U,A>C;对于UAG是U、A>C>G。 对于大肠杆菌,翻译终止效率可因终止密码子及临近的下游碱基的不同而显著不同,从80%(UAAU)到7%(UGAC)。对于UAAN和UAGN系列,终止密码子下游碱基对翻译的有效终止的影响力大小次序为U>G>A、C。UAG极少被大肠杆菌利用,相比UAAN和UGAN,UAG表现了有效的终止,但其后的碱基对有效终止的影响力为G>U,A>C。对于哺乳动物,偏爱的终止密码子为UGA,其后的碱基可以对in vivo翻译终止有8倍的影响(A、G>>C、U)。对于UAAN系列,in vivo终止效率可以有70倍的差别,UGAN系列为8倍。如果终止密码子附近序列没有最佳化,可能发生明显增加的翻译通读,因此减少了蛋白表达。例如,在兔网状细胞无细胞翻译系统里,UGAC的翻译通读可以高达10%,而第四个碱基如果为A,G或C,翻译通读为<1%。 总的来说,翻译起始框架、翻译终止序列框架和密码子利用应该仔细选择,以利于蛋白的最高水平表达。翻译终止序列框架能几倍地改变蛋白生产水平。 真核细胞中的异源蛋白表达 异源蛋白质在细菌中表达是目前使用的主要的蛋白生产系统。大肠杆菌一直是最经济的系统之一。然而为了生产需要特异修饰、胞外分泌或有特异折叠需要的蛋白质,其他表达系统也是需要的。真核细胞在表达原核来源的基因、真核基因的cDNA拷贝或其他无内含子的基因时可能表现很多特异问题。富含AT的基因在很多真核细胞中表达时会遭遇很剧烈的障碍。主要的真核信号序列如 加poly-A的位点、酵母转录终止位点和真核mRNA去稳定序列都是富含AT的。内含子序列也趋向于富含AT,尽管他们有参与剪切过程的很特异的识别序列。虽然绝大多数原核基因没有剪切或聚腺苷过程,但这些真核过程需要的保守序列可能存在于原核基因中,因此当这些基因在真核细胞中表达时可能引起特异的问题。而且诸如哺乳动物和单子叶植物细胞的特异真核表达系统可能不能有效地表达无内含子的基因。 真核mRNA在离开细胞核进而在胞浆的核糖体上被翻译前需要特异的处理和修饰。这些过程包括去除内含子、5'端甲基化帽子形成和3'端加poly-A。内含子去除需要5'剪切位点、G75/G100U100A65AG65U保守序列、3'剪切位点、富含密啶NC66A100G100/G56保守序列和C72T98R77A100Y75保守序列。有效的加poly-A和mRNA剪切需要一个由两个部分组成的信号:加poly-A保守序列AAUAAA和在切割位点内的50个碱基的富含GT的序列。酵母真核转录终止序列(几个不同的富含AT序列,如含TTTTTATA,TATATA,TACATA,TAGTAGTA的一个38bp区域)被研究的最清楚。这些结果来自对酵母突变体CYCI mRNA的mRNA水平和相对长度的确定的实验。近期用in vivo质粒稳定性分析的研究结果证明:TATATA似乎和原始的38bp野生型区域一样有效地终止转录,而TAGATATATATGTAA和TACATA效率差些,TTTTTTTATA几乎没有效率。所有这些序列在反方向时没有终止转录功能。不幸的是几乎没有其他真核表达系统转录终止序列方面的信息。 内含子对几个哺乳动物基因的正常表达是必需的,包括Beta-球蛋白、SV40 late mRNA和二氢叶酸还原酶基因。单子叶植物细胞充分表达乙醇脱氢酶的cDNA拷贝、报告基因氯霉素乙酰转移酶、Beta葡萄糖苷酸酶和其他缺乏内含子的基因时也依赖内含子。转录区域内引入内含子可以通过未确定的转录后机制增强表达。(免疫球蛋白基因)内含子可能也包含转录增强子,因此通过转录机制增强表达。 总的来讲,如果存在某些DNA序列,真核异源蛋白表达可能是个难题。为避免剧烈的表达减少,需要对基因进行扫描,确认是否含上述提及的富含AT的序列。而且,在几个真核系统表达无内含子基因可能需要引入内含子以实现外源蛋白的充分表达。