1 / 77序列比对序列比对基本概念、打分矩阵与算法 2 / 77 ?序列比对的根本任务是: ?发现序列之间的相似性?辨别序列之间的差异?目的: 相似序列?相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系??? 3 / 77 主要内容?一、概述?1、生物序列之间的关系?2、序列比对的概念?3、序列比对的意义?二、序列比对的得分系统?1、核酸的得分矩阵?2、蛋白质的得分矩阵?3、空位罚分体系?三、序列比对的算法 4 / 77 1、生物序列之间的关系?序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经序列内残基或者序列片段的替换、插入、缺失等遗传编译过程分别演化而来。?相似性高并不一定来自同一祖先。 5 / 77 原序列: ACGTTAGCGCTAGCTGCTAGCTAG 替换: ACG C TAGCGCTAGCTGCTAGCTAG 插入: ACGCTAGCGCTAGCT AGCTAGCTAG 缺失: ACGCTAGCGC AGCTGCTAGCTG 6 / 77 同源性( homology ) ?同源性:两条序列有一个共同的进化祖先,那么它们是同源的。?相似性( similarity ):序列间相似性的量度。?同源性是序列同源或者不同源的一种论断,而相似性或者一致性是二个序列相关性的量化,是两个不同的概念。两序列有 90% 的相似性两序列有 90% 的同源性 7 / 77 ?直系同源( orthology ):不同物种内的同源序列。?旁系同源( paralogy ):同一物种内的同源序列。 8 / 77 人类与模式生物——小鼠因为他们各自的 kit 基因都存在缺陷 9 / 77 基本概念: ?序列:由一些字母组成的字符串,包括核酸和蛋白质序列。?字母表( alphabet ),核酸序列( DNA 序列)的字母表为 ATGC ,再加一个 gap (-)。? gap 空位。?字符串长度: AT- 的长度为 7。?子序列【可以非连续】或子串( subsequence ):原序列中任意连续的一段序列,包括 0长度和全长的序列。?随机序列:每个位置出现 ATGC 中任何一个字符的概率都是 1/4 。也就没有什么生物学方面的意义。非随机序列也就是有生物学意义的序列。?距离:两序列之间差异程度的一个量化数字,如两个序列完全相同则距离为 0。 2、序列比对的概念 10 / 77 ?序列比对(alignment) ,是根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。 ACGCTAGCGCTAGCTGCTAGCTAG ACG T TAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGC A AGCTGCTAGCT G- ACGCTAGCGC A AGCTGCTAGCT - G
第3讲-序列比对 来自淘豆网www.taodocs.com转载请标明出处.