从DNA序列查询单核苷酸多态性(SNP)的存在
从 DNA序列查询单核苷酸多态性(SNP)的存在用户可以应用Ensembl网页,选择适当的物种,通过关键词的搜索或通过针对基因组数据库BLAST查询的序列得到相关的基因组区域。在这两种情况下,用户通过点击在EnsemblGene Report页面上“Genomic Location"条框中的连接,可查询感兴趣基因的ContigView,在这个条框中,用户可以看到对于整个染色体而言的感兴趣基因的"Overall Numbering"。用户通过在“ContigView"适当的栏目里输入基因序列的位置,用"Overall Numbering”来选择想分析的准确基因组区域(如为了分析启动子选择邻近5’端5kb的区域)。同时,用户还可以选择"Contig View"中的"Export”选项,以Flatfile或FASTA格式来输出所选择的序列。通过点击在"Contig View"窗口中的"Feature"指令,用户可以图形的方式展示所选择的SNP,然后用鼠标点击每一单个的SNP,可得到一系列连接。点击"SNP Properties”连接将直接进入Ensembl SNP数据库,其中得到的信息有序列区域、等位基因、SNP的情况,以及SNP所定位的基因克隆等。除此以外,用户还可以得到如下连接:点击"dbSNP"连接将进入NCBISNP数据库的NCBI参考SNP簇报告(NCBI reference SNP clusterreport),用户可以找到所有SNP具体信息,包括方法、递交人、各种变化的总结、确认的总结,还可连接到NCBI Map Viewer、Ensembl Viewer和UCSC Viewer。点击"TSC”连接将得到"The SNP Consortium”的相关数据表,这个表格提供了递交人的信息、具体的检测方法以及具体序列信息。总之,用户可以用感兴趣的序列通过BLAST针对NCBISNP数据库直接检索,针对某条染色体进行BLAST。检索的结果将展示所找到的SNP相关信息,包括其精确的位置和邻近的序列。在Entrez Gene检索结果中的基因直接连接到SNP数据库。通过在“Display"栏目中选择"SNPLinks”,用户可以看到以图形的方式表示每一个SNP的总结内容,还有不同颜色的连接直接连通到MapViewer、OMIM等数据库,但相关的启动子区域在其中未有展示。为了得到相关的信息,用户除了应用Ensembl外,还可以在Locus Link页面上点击相关的黑色按钮到UCSC Genome Browser。在这个浏览器中,用户可以很容易地进行"Zoom Out"、“Walk Upstream"、“Zoomln"等操作,同时将网页底部的"SNP feature buttons"设置为"full",并可将所有相关的SNP比对到基因组区域,同时点击每个SNP来得到所有相关的信息。除此以外,用户还可以检索HGMD―人类基因突变数据库。HGMD除了储存人类基因中的突变以外,还储存了人工注释的多态性,这些从文献中摘录的多态性对人类的表型有着明显的效应。同时,HGMD还直接连接到NCBI Locus Link的数据。H―InvDB是由日本生物信息研究中心(JBIRC)建立并由它和日本DNA数据库共同维护的关于人类基因的数据库,于2004年4月开放。H―InvDB主要是提供从高通量的eDNA序列项目得来的全长cDNA克隆的整合注释。目前这个数据库中包含了41 118个全长的cDNA克隆信息及21 037个cDNA聚类组,其信息包括基因结构、功能、新的可变剪切同工体、非编码的功能RNA、功能结构域、亚细胞定位、代谢途径、预测的蛋白质三维结构、SNP图谱,以及与疾病相关的微卫星重复结构模块,还包括从分子进化的角度与老鼠cDNA全长进行比较的结果。如果想对感兴趣的SNP进行cDNA序列上的扫描,可以进行“简单关键词检索”(simple keyword query),然后查看“cDNA view",里面将列出在cDNA信息中得到所有的SNP,而且,所有相关的连接都指向NCBISNP数据库。H―InvDB也可以进行相关SNP信息的查询,通过关键词的查询,在“cDNA view"的“cDNA information”部分中将列出所有的相关SNP信息。当用户须搜寻自己感兴趣的基因、蛋白质的直系同源/同源系时,通常有几种方法可以完成相关的工作,用户可以直接利用核酸序列或蛋白质序列针对相关的数据库进行BLAST,然后手工检查相关的结果。目前,已有不少相关数据库预先计算丁这些序列的相似性,针对orthologous/homologousgenes/proteins提供了跨物种的信息,形成了相关的蛋白质家族。根据分析的对象不同,可以将相关的信息分为几类,如比较基因组学(comparativegenomies)、系统进化树(phylogenetics)和功能域(domains)、蛋白质家族(proteinfamilies)等。