转录组学和蛋白组学研究
表达分析、分子生物学研究以及新的分析软件工具将会推进生物系统水平的研究。
文/EricChan西雅图RosettaBiosoftware数据分析师译/李亚萍
在基因表达研究中,广泛的基因分析可以对生理状态或者是一个细胞表型有关的基因进行系统监测。可以利用高通量分析在数据输出和获取数据快捷两方面的优势,对药物发现过程中的药靶候选基因进行鉴定,在假设驱动的研究中,该技术也提供了必须的系统背景知识。一旦微阵列技术成熟,研究人员就能进行转录组研究,寻找感兴趣的标记基因。正如肿瘤基因表达对各种来源的组织和患者存活结果的相关性分析例子一样,通过微阵列技术进行的基因表达分析研究将在生物标记发现过程中继续扮演重要作用。
尽管微阵列的分析能力很强大,转录组学研究平台只包括那些适应生长条件变化细胞的转录物。大多数细胞内和细胞间的生物化学过程都会受到蛋白质-蛋白质或者其他蛋白质-底物相互作用的影响。蛋白质组水平的基因表达分析提供了一个快速的可控制生物合成的快照过程,其中大部分是由转录组学平台调控的。同时,转录组本身通过表达的蛋白质或者是细胞生化状态下其他的变化,进行反馈控制。
换句话说,基因表达不仅仅是从转录组到蛋白质组的单向流动,而是两者的相互连接。对这种功能调控的了解通常只限于特殊的信号途径,或者是新陈代谢途径。要了解转录组和蛋白质组之间的相互调控作用,需要对RNA和蛋白质的表达进行同步监测。
正如RNA可作为部分生物学功能的酶反应的效益物一样,蛋白质也是大多数生物学功能的效益物。因此,蛋白质水平广泛的基因组分析是基因表达更直接的反映。而且,根据基因组范围设计的商业化微阵列靶标集合很有限,可能无法为近期哺乳动物的发现提供足够的转录物,因为转录物的数量可能要比基因的数量多10倍或者更多。
质谱技术的进展,使得定量的蛋白组学研究成为可能。然而,当细胞适应了转录水平(例如,转录因子结合、染色质结构改变)、转录后(例如,核与质的输出或者是信使RNA的剪接,特定的核糖体负荷)、翻译后(蛋白降解和输出)的精细调控机制后,转录物和蛋白质丰度测量结果可能会不一致。因此,定量的转录物和蛋白质丰度测量可作为相互的标准,为高通量分析得出的基因表达数据做出合理的解释。正如蛋白质和RNA之间类似点可以增加我们对新的生物标记的信任度一样,差异也能暗示我们“其他的转录后调控结合点可作为治疗的候选靶点”。
研究现状
通过分析细胞培养和细菌、酵母、小鼠以及人类的整体动物模型的mRNA和蛋白质丰度情况,可以实现转录物和蛋白质表达的整体定量分析(如表1)。在蛋白组学分析过程中,一些研究选择了双向凝胶电泳(2-DE)分析蛋白质混合物。要么是对不同的凝胶染色,要么是让不同的细胞与不同的染料相结合,通过斑点染色亮度可以看到蛋白质的亮度。随后用质谱仪对分离出的定量凝较斑点进行鉴定,与转录组学分析不同的是,双向凝胶电泳分析的鉴定结果与定量分析是散耦合(de-coupled)。
双向凝胶电泳的一大优点是,它能将翻译后已修改的蛋白质分解为一连串的斑点,当与单个的母本转录物相比较时,它提供的信息就会派上大用场。依照这个步骤,就可以将化学诱导后的若干人类细胞培养模型的蛋白质组和转录组信息区别开来。总之,蛋白质和转录物之间的相关性很弱��转录组学中的测量误差被认为是由微阵列(与TaqMan定量实时PCR有关)、2-DE本身的蛋白质染料饱和染色、共迁移造成的抑制作用,与低丰度蛋白质随后的显像和定量,鉴定一样困难。
液相色谱法(LC)是作为一种替代2-DE的蛋白质分析方法而出现的。LC-MS分析是典型的“自下而上(Bottom-Up)”分析方法,通常要用特异的蛋白酶(如胰岛素)将蛋白质裂解为肽段。与2-DE不同,LC-MS对肽的定量和鉴定是同时进行的,例如,根据离子阱质谱仪碰撞诱导裂解CID)过程中产生的裂解谱,可以选择定量的MS峰(m/z)用于鉴定,通过肽片断的信息推测对应蛋白质的定量信息。
到目前为止,在已发表的整合分析文章中,大多数LC-MS分析是与稳定同位素标记联合使用的,尤其是ICAT试剂。然而,与非标签方法一样,18O/16O和15N/14N标记近期有可能替代ICAT标记法。目前,在出版的ICAT标记的LC-MS转录组学-蛋百组学整合分析的文章中,已经增加了与2-DE有关的蛋白质组范围。在最近的一次小鼠模型研究中,在将150份mRNA-蛋白质对进行表达水平和转录水平的比较后,发现蛋白水平的最佳预测力为41%(r=0.64)。通过相似分析,与初期的整合分析相比较的相关度已经很高了,对此的解释是��随着技术的成熟,蛋白质组和转录组的范围都有所增加。值得注意的是,蛋白质组范围很可能会随着最近的非标记定量分析的进展而增加,该技术利用了MS的微量级灵敏度。
在将蛋白质组和多核糖体转录组与预期的核糖体转录物相比较后,研究人员发现,原来预期的核糖体转录物翻译很活跃,并且与对应蛋白质组的关系要比总的转录组更接近。在对JurkatT细胞的一项研究中,监测的11个蛋白质-转录物对,只有一对蛋白质和多聚核糖体mRNA变化呈现出一致性。
蛋白质与多核糖体,蛋白质与总的mRNAs之间表现出的较高的一致性与酵母中观察到的完全不同丰度的转录物、ORF长度和在不同翻译效率下的密码子适应指数相同,因此影响了合成蛋白质产物的丰度。核糖体装载调控可能是机制之一,能解释“观察到的转录物和蛋白水平不一致现象”,其实是对分子生物学中心法则的挑衅。作为翻译的一种抑制机制,microRNAs也展示了另一种可能性。
虽然采用的技术不同,迄今为止公开发表的整合分析都指出了转录组学和蛋白组学的重要性。转录组学或蛋白组学通常只考虑调节系统和分解作用平衡态的净效应,实际上,出现的不一致性只是合成与降解两种替换过程中的一种反映。科学家可能对变化过程中的机制更感兴趣。
面临的挑战
其实,很难对蛋白组学和转录组学表达的差异性进行细微的比较。在基因组范围,微阵列为目标转录物提供了有限的丰度测量,但是典型的质谱分析可能与通常的2-DE操作一样,无法检测出可溶蛋白,尤其是那些高丰度和非极限pI值的蛋白;另一方面,即使有多维的液相色谱分析,LC-MS仍然会遭遇肽段共洗脱(LC的局限性)和采样过疏(扫描速度和灵敏度局限性)的限制。
此外,商业化基因组微阵列研究还没有完成,很难对蛋白组学和转录组学进行比较,因为分析本身会偏向在蛋白水平上高丰度或者其他更容易检测到的基因上。
蛋白质与转录物的相互参照是一个主要障碍。转录组学方面,拼接亚型的存在会导致多重探针与同一个目标杂交,导致错误的定量。即使我们假设“在蛋白质序列数据库中,这些亚型已经被正确的鉴定为单独的路径”,拿转录组亚型与对应的蛋白质亚型比较,仍是困难重重。异源序列数据库的利用也是一个难题:微阵列靶子通常都是用NIH的基因序列数据库(GenBank)和NCBI参考序列(RefSeq)标示符进行注解,蛋白组学通常是用编辑更少的NCBI免费数据库蛋白质搜索引擎EntrezProtein(NCBInr)或者是国际蛋白索引(IPI)数据库注解。虽然IPI数据库为更多内容的数据库(例如RefSeq和Swiss-Prot)提供相关参照,但那些相关参照通常是不完善的,并且IPI数据库通常将较小的序列变异体排除在外。
除了以上提到的与整合分析有关的技术难题之外,生物学研究系统也面临挑战。根据序列和亚细胞定位,mRNA的半衰期寿命从几分钟到几小时;受N端残基的影响,蛋白质部分寿命范围从几分钟到几天。因为典型的转录组学和蛋白组学分析一次只分析一个点,所以缺乏足够的分辨力将新合成的转录物或蛋白质与以往积累下来的部分区别开。
另一方面,蛋白质和转录物表达之间的差异,可能会导致细胞的蛋白质组与转录组不一致。转录后,特殊序列或者是次级折叠结构可能会影响翻译率,后者可能影响mRNA衰退,与核糖体的装载和加工一样,这些转录后机制都将证明蛋白质合成中的变化。总之,合成的蛋白质也可能会遭受翻译后修饰,这些修饰将管理蛋白质的降解或分泌。
正如中心法则预测的那样,在转录物和蛋白质水平,如果只能通过严格的转录调控去控制蛋白质的合成,细胞是不太可能选择精细调节机制的。当点对点进行比较时,蛋白质和转录物之间的一致性通常很弱,正如在酵母中显示的那样,特定生物学路径的组成基因的一致性或不一致性会更强。这些观察说明了“从个体基因座的局部分析扩展到功能途径系统分析”的重要性。
转录组学和蛋白组学都是了解研究系统的生理化学状态的有用工具。当然,没有一种工具可以为系统提供完全的覆盖范围及相应的精确度。问题的核心,不是用工具找出mRNA和蛋白质之间一对一的相互关系,而是要用它们区别出真阳性和假阳性,即区别出真正的mRNA-蛋白质一致性或者是不一致性。没有这些整体分析,就无法观察到真正的mRNA-蛋白质不一致性,并且这些不一致性要比一致性更吸引科学家,因为它们透露出的更多的转录后干涉情况,可以进一步去研发治疗方法。
哺乳动物昼夜节律钟的不一致就是时移不一致的一个例子,调节蛋白如Period(mPER)在蛋白质和转录物表达之间显示了4~8小时的延迟。总体不一致的一个例子是Ras/Akt信号在成胶质细胞瘤中显示出的不一致,其中总mRNA变化很小。更多的变化发生在翻译起始的核糖体装载期间,依次更改了蛋白质性质。