“电子”基因克隆
利用计算机来协助克隆 基因,称为“电子”基因克隆 (sillcon cloning),是与定位克隆 、定位候选克隆 策略并列的方法之一,即采用生物信息学的方法延伸EST序列,以获得基因部分乃至全长的cDNA序列。EST数据库的迅速扩张,已经并将继续导致识别与克隆 新基因策略发生革命性变化。
1 EST序列的获取
利用计算机来协助克隆的第一步是必须获得感兴趣的EST,在dbEST数据库中找出EST的最有途径是寻找同源序列,标准:长度≥100bp,同源性50%以上、85%以下。可通过数个万维网界而使用BLAST检索程度实现,其中最常用的如NCBI(National center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST组装机器)、THC(Tentative human Consensus Sequences)数据库、ESTBlast检索程序——通过英国人类基因组作图项目资源中心(Human genome Mapping Project Resource Center,HGMP—RC)服务器上访问。然后将检出序列组装为重叠群(contig),以此重叠群为被检序列,重复进行BLAST检索与序列组装,延伸重叠样系列,重复以上过程,直到没有更多的重叠EST检出或者说重叠群序列不能继续延伸,有时可获得全长的基因编码序列。获得这些EST序列数据后,再与GeneBank核酸数据库进行相似性检测,假如凤有精确匹配基因,将EST序列数据据EST六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分析。基因分析的结果大致有三种:第一是已知基因,是研究对象为人类已鉴定和了解的基因;第二是以前未经鉴定的新基因;第三是未知基因,这部分基因之间无同种或异种基因的匹配。新基因和未知基因将进一步用于生物学研究。
2 基因的电子定位
基因的电子定位采用NCBI的电子PCR程序进行检索,寻找EST序列上是否存在序列标签位点(sequence tagged sites,STS),STS作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。将寻找到的STS与相应的染色体相比较,即可将此序列定位在该染色体上。
3 IMAGE克隆的索取
许多ESTs所对应的cDNA克隆 可通过基因组及其表达的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)协定免疫索取,这与电子基因克隆 相辅相成,IMAGE协定由美国LLNL国家实验室主持,宗旨是共享排列好的cDNA文库中的克隆 重,大规模的EST测序项目如Merk&Cow公司投资的人类ESTs项目等都加入了IMAGE协定。当研究者通过另外的途径得到基因的部分序列,并通过同源性检索后发现该片段与加入IMAGE协定的EST序列高度同源时,便可免费索取其原始克隆 ,可通过美国的ATCC组织(American type Culture Collection)索取,从而避免或减轻筛选全长基因的麻烦,以集中精力进行基因的功能研究。