下载此文档

高通量测序常用名词科普.docx


文档分类:高等教育 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
该【高通量测序常用名词科普 】是由【业精于勤】上传分享,文档一共【13】页,该文档可以免费在线阅读,需要了解更多关于【高通量测序常用名词科普 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。高通量测序常用名词汇总
一代测序技术:即老式的Sanger测序法,Sanger法是根据核苷酸在待定序列模板上的引物点开始,随机在某一种特定的碱基处终结,并且在每个碱基背面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,每一顺序列测定由一套四个单独的反映构成,每个反映具有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺少延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终结,使反映得到一组长几百至几千碱基的链终结产物。它们具有共同的起始点,但终结在不同的的核苷酸上,可通过高辨别率变性凝胶电泳分离大小不同的片段,通过检测得到DNA碱基序列。
二代测序技术:nextgeneration sequencing(NGS)又称为高通量测序技术,与老式测序相比,二代测序技术可以一次对几十万到几百万条核酸分子同步进行序列测定,从而使得对一种物种的转录组和基因组进行细致全貌的分析成为也许,因此又被称为深度测序(Deepsequencing)。NGS重要的平台有Roche(454&454+),Illumina(HiSeq/2500、GAIIx、MiSeq),ABISOLiD等。
基因:Gene,是遗传的物质基本,是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后裔浮现与亲代相似的性状。
DNA:Deoxyribonucleic acid,脱氧核糖核酸,一种脱氧核苷酸分子由三部分构成:含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3',5'-磷酸二酯键按一定的顺序彼此相连构成长链,即DNA链,DNA链上特定的核苷酸序列包具有生物的遗传信息,是绝大部分生物遗传信息的载体。
RNA:RibonucleicAcid,,核糖核酸,一种核糖核苷酸分子由碱基,核糖和磷酸构成。核糖核苷酸经磷酯键缩合而成长链状分子称之为RNA链。RNA是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。不同种类的RNA链长不同,行使各式各样的生物功能,如参与蛋白质生物合成的RNA有信使RNA、转移RNA和核糖体RNA等。
16SrDNA:"S"是沉降系数,是反映生物大分子在离心场中向下沉降速度的一种指标,值越高,阐明分子越大。rDNA(ribosomeDNA)指的是原核生物基因组中编码核糖体RNA(rRNA)分子相应的DNA序列,16SrDNA是原核生物编码核糖体小亚基16SrRNA的基因。细菌rRNA(核糖体RNA)按沉降系数分为3种,分别为5S、16S和23SrRNA。16SrDNA是细菌染色体上编码16SrRNA相相应的DNA序列,存在于所有细菌染色体基因中。16SrRNA 普遍存在于原核生物中。16SrRNA 分子,其大小约1540bp,既具有高度保守的序列区域,又有中度保守和高度变化的序列区域,其可变区序列因细菌不同而异,恒定区序列基本保守,因此可运用恒定区序列设计引物,将16SrDN***段扩增出来,通过高通量测序运用可变区序列的差别来对不同菌属、菌种的细菌进行分类鉴定。
cDNA:complementaryDNA,互补脱氧核糖核酸,与RNA链互补的单链DNA,以RNA为模板,在反转录酶的作用下所合成的DNA。
SmallRNA:生物体内一类高度保守的重要的功能分子,其大小在18-30nt,涉及microRNA、siRNA、snRNA、snoRNA和piRNA(piwi-interactingRNA)等,它的重要功能是诱导基因沉默,调控细胞生长、发育、基因转录和翻译等生物学过程。以miRNA为例简介它们的功能:miRNA与RNA诱导沉默复合体(RNA inducedsilencing complex,RISC)结合,并将此复合体与其互补的mRNA序列结合,根据靶序列与miRNA的互补限度,从而导致靶序列降解或干扰靶序列蛋白质的翻译过程。
SD区域:Segmentduplication,串联反复是由序列相近的某些DNA 片段串联构成。串联反复在人类基因多样性的灵长类基因中发挥重要作用。
Genotypeandphenotype:基因型与表型,基因型是指某毕生物个体所有基因组合的总称;表型,又称性状,是基因型和环境共同作用的成果。
基因组:Genome,单倍体细胞核、细胞器(线粒体、叶绿体)或病毒粒子所含的所有DNA
分子或RNA分子。
全基因组denovo测序:又称从头测序,它不依赖于任何既有的序列资料,而直接对某个物种的基因组进行测序,然后运用生物信息学分析手段对序列进行拼接、组装,从而获得该物种的基因组序列图谱。

全基因组重测序:对已有参照序列(ReferenceSequence)物种的不同个体进行基因组测序,并以此为基本进行个体或群体水平的遗传差别性分析。全基因组重测序可以发现大量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy NumberVariation,CNV)、插入缺失(InDel,Insertion/Deletion)、构造变异(StructureVariation,SV)等变异类型,以精确迅速的措施将单个参照基因组信息上升为群体遗传特性。
转录组:Transcriptome,是指特定生长阶段某组织或细胞内所有转录产物的集合;狭义上指所有mRNA的集合。
转录组测序:对某组织在某一功能状态下所能转录出来的所有RNA进行测序,获得特定状态下的该物种的几乎所有转录本序列信息。一般转录组测序是指对mRNA进行测序获得有关序列的过程。其根据所研究物种与否有参照基因组序列分为转录组denovo测序(无参照基因组序列)和转录组重测序(有参照基因组序列)。
外显子组:Exome,人类基因组所有外显子区域的集合称为外显子组,是基因中重要的编码蛋白的部分,并涵盖了与个体表型有关的大部分的功能性变异。
外显子组测序:是指运用序列捕获技术将全基因组外显子区域DNA捕获并富集后进行高通量测序的基因组分析措施。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、InDel等具有较大的优势。
目的区域测序:应用有关试剂盒对基因组上感爱好的目的区域进行捕获富集后进行大规模测序,一般需要根据目的区域专门定制捕获芯片

宏基因组:Metagenome,指特定生活环境中所有微小生物遗传物质的总和。它涉及了可培养的和未可培养的微生物的基因。目前重要指环境样品中的细菌和真菌的基因组总和。
宏基因组16SrRNA测序:可以对特定环境下的细菌和古细菌群体的微生物种类和风度进行有效的鉴定。对不同地点、不同条件下的多种样本16SrRNA的PCR产物平行测序,可以比较不同样本间的微生物构成及成分差别,进而阐明物种丰度、种群成果等生态学信息。
表观遗传学:Epigenetics,是指在基因组DNA序列没有变化的状况下,基因的体现调控和性状发生了可遗传的变化。表观遗传的现象诸多,已知的有DNA***化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternal effects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。
全基因组***化测序:DNA***化是指在 DNA***化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一种***基团。DNA***化已经成为表观遗传学和表观基因组学的重要研究内容。***化是基因体现的重要调控方式之一,研究染色体DNA***化状况是理解基因调控的重要手段。对已有参照基因组的物种的基因组DNA用原则亚硫酸氢盐(Bisulfite)解决后,未***化的胞嘧啶C会脱氨基形成尿嘧啶U,经PCR扩增,U替代为胸腺嘧啶T,而发生***化的胞嘧啶C保持不变。将解决组与参照基因组序列进行比对,可发现***化位点并对***化状况进行定量分析的措施叫做全基因组***化测序。
ChIp-Seq:Chromatin Immunoprecipitationsequencing,即染色质免疫共沉淀-测序技术,即通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DN***段。对富集得到的DN***段进行纯化与文库构建,然后进行高通量测序,从而得到全基因组范畴内可以与目的蛋白互相作用的DN***段的措施叫做ChIP-Seq。
数字体现谱:Digital GeneExpressionProfile,运用新一代高通量测序技术和高性能计算分析技术,可以全面、经济、迅速地检测某一物种特定组织在特定状态下的基因体现状况,即运用特定的酶对
mRNA距polyAtail21-25nt的位置进行酶切,所获得的带polyA尾的序列(Tag)通过高通量测序,该tag被测得的次数即是相应基因的体现值。数字基因体现谱已被广泛应用于基本科学研究、医学研究和药物研发等领域。特点是经济,但获得的数据量有限。若想获得转录本的更多信息的话,一般都采用转录组测序的措施来测序。
SBS:sequencingbysynthesis,边合成边测序反映,是指在DNA聚合酶的作用下延伸碱基所进行的测序。

Run:指高通量测序平台单次上机测序反映。


Lane:也叫channel,单泳道,每条泳道涉及2列(column),每列分布有多种社区(tile),如图1。不同的测序平台FlowCell中所含的Lane不同样,如HiSeq是2个flowcell,每个flowcell中具有8个lane;HiSeq2500是涉及2个mini flowcell(迅速运营模式)和2个highoutputflowcell,两个模式不能同步运营,其中每个miniflowcell涉及2个lane,每个highoutputflowcell中涉及8个lane;Miseq系统的flow cell仅具有1个lane。
Tile:社区,每条Lane中有2列tile,合计120个社区。每个社区上分布数目繁多的簇结合位点,如图1。
Cluster:簇,在Illumina测序平台中会采用桥式PCR方式生产DNA簇,每个DNA簇才干产生亮度达到CCD可以辨别的荧光点。
Index:标签,在Illumina平台的多重测序(MultiplexedSequencing)过程中会使用Index来辨别样品,并在常规测序完毕后,针对Index部分额外进行7个循环的测序,通过Index的辨认,可以在1条Lane中辨别12种不同的样品。
Barcode:与Index同义,多指在RocheGS FLX454测序平台的16S PCR产物的测序过程中接头序列所涉及的的用来辨别不同样本的序列。
PF%:PF%是指符合测序质量原则的簇的比例,与测序的通量有关联。

Fasta:一种序列存储格式。一种序列文献若以FASTA格式存储,则每一条序列的第一行以“>”开头,而跟随“>”的是序列的ID号(即唯一的标记符)及对该序列的描述信息;第二行开始是序列内容,序列短于61nt的,则一行排列完;序列长于61nt的,则每行存储61nt,最后剩余不不小于61nt的,在最后一行排列完;第二条序列另起一行,仍然由“>”和序列的ID号开始,以此类推。
Fastq:Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文献格式。第一行以“@”符号开头,背面紧跟一种序列的描述信息;第二行是该序列的内容;第三行以“+”符号开头,背面可以是该序列的描述信息,也可省略;而第四行是第二行中的序列内容每个碱基所相应的测序质量值。
Read:高通量测序平台产生的序列标签就称为reads。
基因组组装:进行基因组或转录组denovo测序时,物种基因组经构建不同的文库测序所得的片段需通过生物信息学手段对其进行整顿拼接,并通过一定的原则(如N50)对后续组装成果进行质量评估等,最后获得高精确度的基因组序列的过程。
基因组测序深度:测序得到的总碱基数与待测基因组大小的比值。如测一种物种的全基因组的重测序,基因组大小约为5G,测序获得100G的数据量,则测序深度为20×。
基因组覆盖率:指测序获得的序列占整个基因组的比例。由于基因组中的高GC、反复序列等复杂构造的存在,测序最后拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一种细菌基因组测序,覆盖率是98%,那么尚有2%的序列区域是没有通过测序获得的。

Contig:在denovo测序中拼接软件基于reads之间的overlap区,拼接获得的中间没有gap的序列称为Contig(重叠群)。

Scaffold:基因组denovo 测序,通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或IlluminaMate-pair 库,以获得一定大小片段(如3Kb、8Kb、10Kb、20Kb)两端的序列。基于这些序列,可以拟定某些Contig之间的顺序关系,这些先后顺序已知的 Contigs构成Scaffold。
Contig N50:Reads拼接后会获得某些不同长度的Contigs。将所有的Contig长度相加,能获得一种Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig1,Contig2,Contig3……Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一种加上的Contig长度即为ContigN50。举例:Contig1+Contig2+Contig3+Contig4=Contig总长度*1/2时,Contig4的长度即为ContigN50。ContigN50可以作为基因组拼接的成果好坏的一种判断原则。

ScaffoldN50:ScaffoldN50与Contig N50的定义类似。Contigs拼接组装获得某些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一种Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold1,Scaffold 2,Scaffold3……Scaffold25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一种加上的Scaffold长度即为Scaffold N50。举例:Scaffold1+Scaffold2+ Scaffold3 +Scaffold 4+Scaffold5=Scaffold总长度*1/2时,Scaffold5的长度即为ScaffoldN50。ScaffoldN50可以作为基因组拼接的成果好坏的一种判断原则。
Isotig:指在转录组denovo测序时,用454平台测序完毕后组装出的成果,一种isotig可视为一种转录本。
Isogroup:指转录组denovo测序中,用454平台测序完毕后组装出的成果获得的可聚类到同一种基因的转录本群。
GC%:GC含量,全基因组范畴内或在特定基因组序列内的4种碱基中,鸟嘌呤和胞嘧啶所占的比率。
SNP:singlenucleotidepolymorphism,单核苷酸多态性,个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性;不同物种个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。SNP在CG序列上浮现最为频繁,并且多是C转换为T,因素是CG中的C 常为***化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP是指变异频率不小于1 %的单核苷酸变异,重要用于高危群体的发现、疾病有关基因的鉴定、药物的设计和测试以及生物学的基本研究等。
InDel:Insertion/Deletion,插入/缺失,在基因组重测序进行mapping时,进行容Gap的比对并检测可信的ShortInDel,如基因组上小片段>50bp的插入或缺失。在检测过程中,
Gap的长度为1~5个碱基。

CNV:copynumbervariation,基因组拷贝数变异,是基因组变异的一种形式,一般使基因组中大片段的DNA形成非正常的拷贝数量。如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增长,位于该区域内的基因体现量也会受到影响。如果把一条染色体提成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是持续扩增如 A-B-C-C-D也可以是在其她位置的扩增,如A-C-B-C-D。
SV:structurevariation,基因组构造变异,染色体构造变异是指在染色体上发生了大片段的变异。重要涉及染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生反复复制、翻转颠换、易位、两条染色体之间发生重组(inter-chromosometrans-location)等。
基因体现差别:是指某一物种或特定细胞在特定期期/功能状态下,多样本间不同基因在mRNA水平上体现量的差别,可通过RPKM/FPKM值来体现。
RPKM:ReadsPerKilobaseperMillionmappedreads[Mortazavietal.,],是指每 1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。计算公式四RPKM=106C/NL/103,其中C为唯一比对到目的基因的reads数;N为唯一比对到参照基因的总reads数,L是目的基因编码区的碱基数。RPKM法可以消除基因长度、数据量之间的差别进行计算基因体现量。

可变剪切:alternativesplicing大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种mRNA,因而只产生一种蛋白质。但有些基因产生的mRNA前体可按不同的方式剪接,产生出两种或更多种mRNA,即可变剪接。

基因融合:Gene fusion,将基因组位置不同的两个或多种基因中的一部分或所有整合到一起,形成新的基因,称作融合基因或嵌合体基因
,该基因有也许翻译出融合或嵌合体蛋白。
基因家族分析:通过进行BLASTN/HMM比对等查找基因归属的基因家族并添加有关功能注释。

基因组注释:Genomeannotation是运用生物信息学措施和工具,对基因组所有基因的生物学功能进行高通量注释,是目前功能基因组学研究的一种热点。基因组注释的研究内容涉及基因辨认和基因功能注释两个方面。基因辨认的核心是拟定全基因组序列中所有基因的确切位置。常用的基因组注释有GO注释、pathway分析。

GO注释:geneontology是指对基因功能的注解。GO强调基因产物在细胞中的功能。GO不能反映此基因的体现状况,即与否在特定细胞中、特定组织中、特定发育阶段或与某种疾病有关,但GO支持其她的OBO(openbiologyontologies)成员成立其她类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)
Pathway注释:是指对功能基因参与的信号通路等进行分析注释。
***化率:是指在***化测序中,发生***化的胞嘧啶占所有胞嘧啶的比率。
CpG岛:CpGisland是指DNA上一种区域,此区域具有大量相联的胞嘧啶(C)、鸟嘌呤(G),以及使两者相连的磷酸酯键(p)。基因组中长度为300~3000 bp的富含CpG二核苷酸的某些区域,重要存在于基因的5’区域。启动子区中CpG岛的未***化状态是基因转录所必需的,而CpG序列中的C的***化可导致基因转录被克制。
Q20,Q30:基因的二代测序中,每测一种碱基会给出一种相应的质量值,这个质量值是衡量测序精确度的。碱基的质量值13,错误率为5%,20的错误率为1%,%。行业中Q20与Q30则表达质量值≧20或30的碱基所占比例。例如一共测了1G的数据量,其中有

高通量测序常用名词科普 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人业精于勤
  • 文件大小252 KB
  • 时间2022-12-06