下载此文档

生物信息学.pdf

文档分类：高等教育 | 页数：约10页举报非法文档有奖

1/10

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/10 下载此文档

文档列表 文档介绍

该【生物信息学】是由【小屁孩】上传分享，文档一共【10】页，该文档可以免费在线阅读，需要了解更多关于【生物信息学】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。:..生物信息学生物信息学的概念生物信息学是综合运用计算机科学、数学和生物学的各种工具,对生物信息进行获取、处理、存储、分发、分析和解释等处理的科学。其研究内容包括了序列和结构比对、蛋白质结构预测、基因识别、分子进化分析、比较基因组学、序列重叠群、药物设计、基因表达谱等方方面面。可以把现阶段生物信息学的基本特征概括为“分子生物学与信息技术的有机结合体”。生物信息学特最大特点就是信息搜索和处理的自动化、网络化,任何一台可以与互联网对接的计算机都可以作为生物信息获取和处理的用户终端工具。重要的生物信息学数据库生物信息学数据库的结构广义的生物信息学数据库主要分为两大类:基本数据库和二级数据库。基本数据库主要包括原始数据,例如DNA序列、蛋白质序列和蛋白质结构等信息。二级数据库则主要是对基本数据库进行分析、提炼加工后而形成,旨在使得基本数据库更便于全世界研究人员(用户)使用,例如,真核生物启动子数据库(eukaryoticPromoterdatabase,EPD)和蛋白质序列中的共同结构和功能基序数据库(PROSITdatabas)等。一个典型的数据库记录通常包括两部分内容:原始(序列)数据和对这些数据进行的生物学意义的注释。这些注释和原始(序列)数据具有同等重要性。如何开发新的软件对现有的人基因组数据和模式生物基因组数据进行准确高效地注释已成为生物信息学研究的重点之一。数据库的基本序列格式由于EMBL和GenBank是最主要的核酸序列数据库,所以EMBL数据格式GenBank数据格式被广为采用。欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC都采用与EMBL一致的格式,便于使用EBI所采用的序列检索系统(SRS)。众所周知,生物信息数据库的建立和应用软件的设计是为了处理各种序列数据,这就要求有一套标准的格式来输入核酸和蛋白质序列信息(数据)。EMBL和GenBank数据格式比较复杂,常用的序列格式有NBRF/PIR、FASTA和GDE3种格式,尤其是FASTA格式的使用最广泛。基本的DNA数据库一、GenBank数据库GenBank是由美国国立卫生研究院(NIH)的NCBI维护的DNA和RNA序列数据库(),是当今世界上最权威最广泛的核酸序列数据库之一。GenBank数据库每天更新。其中所收录的序列包括基因组DNA序列、cDNA序列、EST序列、STS序列、载体序列、人工合成序列及HTG序列等。通过它不仅可以查询所需要的序列,而且还可找到与之同源的基因组DNA序列、cDNA序列、EST序列、STS序列以及专利序列等。:..与GenBank链接的重要数据库有PubMed、PDB以及种属分类库等。具体的查询方式可根据用户的研究目的,通过NCBI的Entrez搜索引擎进行(),可查询的内容有系统分类、基因组、图谱、蛋白质结构等信息;序列同源性检索可用NCBI提供的BLAST工具(软件)进行;此外,Genbank中还有SNP、EST、STS、GSS、HTG和HTC等子库供用户检索。每种搜索方式又可以通过关键词、作者、GenBank接受号、。需要注意的是使用Entrez可获得比只在Genbank更多的数据()。研究者获得的序列等数据也可通过NCBI的BankIt或Sequin软件按照提示向数据库提交。二、EMBL数据库EMBL数据库是欧洲分子生物学实验室(英国)的DNA和RNA序列数据库,其显著特征是为申请者提供一个通过网络的个人基因组申请工具,使申请者与全世界重要相关网站和欧洲专利局数据进行对比,确定自己的发现是否为第一个。也可以提供科学文献、序列比对等方面的查询,该数据库每日更新。EMBL主页()界面主要包括acess、documentation、submission、GroupInfo、contact和News几个项目供用户选择使用。、DDBJ数据库DDBJ数据库是由日本国立遗传学研究所遗传信息中心维护的日本核酸数据库()。首先反映日本基因组测序所产生的DNA数据,同时与GenBank、EMBL合作(),交换数据,同步更新。该数据库采用与GenBank一致的记录格式。:..、BioSino数据库Biosino数据库是我国自主开发的核酸序列公共数据库(http://),由中国科学院上海生命科学研究院生物信息中心维护。该数据库主要收集中国科研人员递交的核酸序列,为用户提供核酸序列数据存储、序列检索、序列格式转换、序列比较等服务,同时通过本数据库可以对中国国内各课题组递交的核酸序列统计和比较,为了解国内核酸序列情况提供依据,并可与GenBank、EMBL、DDBJ数据间进行格式转换。基本蛋白质数据库一、SWISS-PROT/TrEMBL数据库SWISS-PROT()是含有详细注释内容的蛋白质序列数据库,1987年由日内瓦大学医学生物化学系(DepartmentofMedicalBiochemistryoftheUniversityofGeneva)与EMBL(欧洲分子生物学实验室)共同维护,现在由EMBL的分支机构EBI进行维护,为分子生物学研究人员提供有关蛋白质氨基酸序列的最新信息。SWISS-PROT数据库包含了EMBL核酸序列数据库中被经过仔细检查和准确注释了的蛋白质序列。一般地说,任何蛋白质序列数据的搜寻和比较都应从SWISS-PROT开始。二、PIR数据库世界上最大最全的蛋白质信息公共数据库()。该数据库包括的子库有:PIRSF(蛋白质家族分类系统)、PSD(蛋白序列的注解与分类)、ProClass(超家族和主题序列的非冗余数据)和PIR-NREF(非冗余的氨基酸序列)。其主要目的是为用户提供按同源性和分类学组织的综合性、非冗余数据库。为达到“全面、及时、非冗余性、高质量注释和全面的分类”的目标,该数据库每周更新,每年发行四版。:..,即PIR1~PIR4:PIR1包括的序列已经被分类和注释;PIR2包含序列初步的信息,这些信息还没有被完全检验,可能含有一些重复的信息,即冗余序列;PIR3包含一些未被验证的条目;PIR4中的信息又分成四类:(1)人工合成序列的概念上的翻译(conceptualtranslations);(2)没有转录或翻译的序列的概念上的翻译;(3)蛋白质序列或基因工程序列的概念翻译;(4)没有基因编码和没有生成核糖体的序列。PIR数据库网页上提供了数据搜索和序列查找的程序,用户通过PIR可以进行的研究包括:(1)快速查询、比较蛋白质序列并对其进行特征序列的模式匹配;(2)预测蛋白质的功能位点,如磷酸化位点、糖基化位点、细胞吸附位点、与其他蛋白质的共有序列等;(3)可进行多种方式的序列比较,如对库比较、两两比较和多序列比较等。用户可通过关键词、特征序列或序列接受号等进行查询。蛋白质结构数据库蛋白质数据库(proteindatabank,PDB)是全球唯一的储存、处理和发布蛋白质和核酸大分子3-D结构的数据库()。主要由X射线晶体衍射和核磁共振(NMR)测得的生物大分子三维结构所组成,用户可直接查询、调用和观察库中所收录的任何大分子三维结构,其网址为()。该数据库同时提供蛋白质序列及其三维空间晶体学原子坐标,其中受体-配体、抗原-抗体、底物-酶复合物等相互作用分子的共结晶图谱是基于同源比较的分子设计所需的最佳模型,因此PDB数据库为初步的蛋白质合理设计提供了重要的知识来源。优势在于蛋白质结构预测和结构同源性比较。它提供以下几种服务:(1)查找目的蛋白质的结构;(2)进行一级或高级结构的简单分析;(3)与其它的数据库链接,从而可查询蛋白质的其它信息等。:..-ExPASyExPASy是蛋白质分析专家系统(expertproteinanalysissystem)的缩写,ExPASy()是一个数据库的集合,专注于蛋白质分子和蛋白质组学。(openreadingframe,ORF)预测ORF预测的规范步骤是执行6个ORFs的翻译,即DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子),从而识别6种可能的蛋白质序列中最长的ORF。长的ORF往往不是偶然发生的,所以,任何ORF中存在300bp或更长的未中断的编码序列是判断为一个基因的重要依据。以pUC19序列为例说明在NCBI/ORFfinder中进行基因预测()。结果发现了14个可能的ORFs,但满足“大于300bp”条件的只有3个ORFs,经与质粒图谱比对,第1个ORF是Ampr基因的编码框,第2~3个是LacZ的?-肽编码框,但方向正确的只有第三个ORF,其余ORFs小于300bp,一般没有对应的蛋白质,BLAST检索证实第4~14个ORFs均无对应的已知蛋白质序列。:..——BLASTn将Ampr基因的编码区的核苷酸序列粘贴在BLASTn的文本框中,将比对范围限定在细菌(]),点击“BLAST!”按扭,再击“FORMAT!”按扭,便出现BLAST的结果报告()。用户可以点击相应的链接,进一步了解对该序列的解释及其编码的蛋白质的功能等。——(oriT)的序列与已知的大肠杆菌质粒的oriT序列间的多序列比对结果。提示pBIF10的oriT与IncQ家族的oriT的结构不一样。、IncQ已知的oriT之间的比对结果:..蛋白质序列分析应用举例蛋白质相似性分析——BLASTp和alignment与核酸序列对齐分析一样,蛋白质序列对齐分析的目的是通过将两个或多个蛋白质序列进行对齐,并将其中相似的结构区域突出显示出来。通过比较未知序列与功能和结构已知的序列之间的同源性来预测未知序列的功能。-180保守区氨基酸残基的多序列比对结果。-;其余序列的Genbank编号为:;;;;。蛋白质二级结构预测(包括螺旋、卷曲、疏水性、跨膜区、信号肽等基本元件的分析)二级结构预测的基本理论就是氨基酸对若级结构的偏好性。即氨基酸似乎对特定的二级结构状态有偏好,例如,Glu对螺旋二级结构有强烈偏好,Val有位于链中的强烈偏好,Gly和Pro偏好位于回环中,一些疏水氨基酸(如Phe)对两种二级结构都有强烈的偏好,体现了它们构造结构核心的倾向。然而,没有一种偏好是特别强烈的,所有的氨基酸都常常能在每种二级结构中被发现,这意味着二级结构预测不能建立在个别残基的基础上,而要综合考察任一残基两旁的几个残基的信息做出整体中的局部预测。(SOPMA):..蛋白质高级结构预测(比较建模法)比较建模的精确性通常以预测结构和目标序列真实结构之间的?碳原子位置距离的均方差(RMSD)来衡量,?的RMSD值说明预测结果非常好。如果模板序列与目标序列间的相似度超过70%,即使用全自动方法,预测模型精度RMSD低于2~3?也是合理的。()提供的GTOP(genomestoproteinstructureandfunction)软件对pBIF10的Rep蛋白通过比较建模法预测的3D结构。(b)RepA与DNA分子相互作用的ribbons模型(d)RepA与DNA相互作用的facefilled模型蛋白质组学研究中的数据分析PMF的数据库检索一、数据库的选择在蛋白质组学研究中,常用于检索的数据库有三种:OWL、NCBInr和DbEST。二、用于PMF的软件工具现行的PMF软件工具有三类:(1)根据谱图中m/z值与数据库中给定误差范围内m/z值相匹配的数目给出得分。这类软件有PepSea(,PeptIdent/MultIdent(。(2)使用的得分算法考虑到蛋白质大小和肽片段长度对匹配几率的影响。这类软件有:MOWSE(),MS-Fit()。(3)更多使用基于概率的得分,提供得分的统计基础,估计某些匹配可能反映随机事件而不是真实特性的概率。这类软件有:ProFound(),Mascot()。、分类:..四、:Mascot给出的柱状图从MS/MS数据鉴定蛋白质的算法和工具目前常用的是Sequest和Mascot。-correlationMascotMOWSE;probabilitySonarvecyoralgebra;probabilityMS/MSGutenTagfragmentiontagsMS-tagfragmentiontagsPep-FragfragmentiontagspeptidesequencetagPep-、再用BLAST检索鉴定蛋白质的denovo策略相比,无疑是一个很大的进步。(peptidesequencetags,PSTs)策略鉴定蛋白质的算法和工具:..

生物信息学来自淘豆网www.taodocs.com转载请标明出处.