下载此文档

生物信息学数据库答案[1].pdf


文档分类:IT计算机 | 页数:约20页 举报非法文档有奖
1/20
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/20 下载此文档
文档列表 文档介绍
该【生物信息学数据库答案[1] 】是由【小屁孩】上传分享,文档一共【20】页,该文档可以免费在线阅读,需要了解更多关于【生物信息学数据库答案[1] 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..生物信息学(bioinformatics):是一门交叉学科,它包含了生物信息的获取,处理,存储,分发,分析和解释等在内的所以方面,它综合运用数学,计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。目的:揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。方法:主要有创建一切适用于基因组信息分析的新方法,改进现有的理论分析方法,发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具等。应用:生物信息的存储与获取,序列比对,测序与拼接,基因预测,生物进化与系统发育分析,蛋白质结构预测,RNA结构预测,分子设计与药物设计,代谢网络分析,基因芯片,DNA计算等。、序列比对(Alignment)。2、结构比对。基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。4、计算机辅助基因识别(仅指蛋白质编码基因)。5、非编码区分析和DNA语言研究,是最重要的课题之一。:..6、分子进化和比较基因组学,是最重要的课题之一。7、序列重叠群(Contigs)装配。8、遗传密码的起源。9、基于结构的药物设计。10、其他。如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。3、开放式阅读框(ORF):是基因的起始密码子开始到终止密码子为止的一个连续编码的序列。5、中心法则:包括DNA的自我复制,转录形成RNA并翻译成蛋白质,RNA的自我复制和逆转录的过程。6序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。6、算法分析:评价一个算法的优劣,通过时间复杂度和空间复杂度来确定。7、数据库管理系统:(databasemanagementsystem,DBMS)对DB进行管理的系统工程,提供DB的建立、查询、更新以及各种数据控制能。8、数据库:统一管理的相关数据的集合。9、搜索软件:对内容进行筛选,从中选择出符合用户的检索要求的内容同时进行分级排序,将结果显示出来。10、人类基因组计划(HGP):是对人类24条染色体上的3X109个碱基对(basepair,bp)序列进行测定,完成图谱绘制、测序、基因识别,及信息系统的建立。:..一、名词解释::研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。3一级数据库(一次数据库):基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。:..:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。):是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P941、GenBank:是美国国家生物技术信息中心管理的核酸序列数据库,汇集并注释了所有公开的核酸序列。2、ORF:一组连续的含有三联密码子的能够被翻译成为多肽链的DNA序列。它由起始密码子开始,到终止密码子结束。3、CDS:是编码一段蛋白产物的序列。:..4、BLAST:是一个基于局部比对的序列相似性搜索工具。5、EST:(表达序列标签)就是cDNA的一个片段,即一个基因编码序列的一小段。6、PDB:(蛋白质结构数据库)是美国国家实验室创建并管理的收录生物大分子晶体结构的数据库。7、Homology:(同源性)8、Similarity:(相似性)9、Orthologous:(直向同源、垂直同源)描述在不同物种中来自于共同祖先的基因。Orthologous基因可能有相同的功能,也可能没有。10、Entrez:是NCBI网站的数据库查询系统,它集成了文献数据库、核酸序列数据库、结构数据库、基因图谱数据库,是有效利用NCBI数据库资源的工具。11、EMBL:是欧洲分子生物学实验室创建的核酸序列数据库。12、DDBJ:日本国立遗传研究所创建的核酸序列数据库。13、SCOP:英国医学研究委员会的分子生物学实验室创建的收录蛋白质结构域的数据库。(querysequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98:..:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoringmatrix)探测远缘相关的蛋白。:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。(ProteinDataBank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。:..(MolecularModelingDatabase):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(superfamily)、家族(family)、单个PDB蛋白结构记录。:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。:..:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。二、选择题(20分)1、GenBank数据库的网址是(B):C:D:2、PDB蛋白质数据库结构文件中上标的表示S2+方法是(D)A:S^2+BS=2+C:S<2+>D:S==2+==3、生物学文献数据库中可免费使用的是(C)A:OVIDB:CBI:..C:PUBD:BIOSISPreviews4、GBFF的数据格式中结尾标识是(A)A://B:!C:*D:<5、NCBI数据库中查询使用的是(D)。A:GoogleB:BaiDUC:YahooD:EntreZ6、遗传密码特点(D)A:密码无标点。B:密码简并性。C:密码通用性。D:三者都是。、检索和分析的科学(B):..(B)。~2%~5%~10%~20%(A)。A:NBRF/PIR、:PIR、FASTA和GDEC:NBRF、:NBRF/PIR、(C)、填空题(20分)1、三大数据库:核酸序列数据库、蛋白质序列数据库、结构数据库世界三大核酸序列数据库:GenBank、EMBL-Bank、DDBJ蛋白质序列数据库:Swiss-Prot、TrEMBL、UniProt蛋白质结构数据库:PDB、SCOP、CATH:..2、GenBank提供的服务:提供了Entrez浏览器、提供PubMed服务、免费检索条生物医学文献、提供了BLAST序列类似性检索。3、进化树的四种构建方法:距离法(包括除权配对法和邻位相连法)独立元素法)包括简约法和似然法)4、Blast的方法及适用范围:核酸blastn(nucleotideBLAST)、蛋白质blastp(proteinBLAST)、blastx(translatedBLAST)、tblastn(translatedBLAST)、tblastx(translatedBLAST)1、.生物信息学研究的重点是核酸与蛋白质两方面,包括了___序列__、___结构__、__功能___。以___基因组DNA序列信息__为出发点,破译___遗传语言_,认识_遗传信息___,辩别___DNA中的基因__,掌握基因的_调控信息____,对__蛋白质空间结构___进行模拟和预测,发现___蛋白结构和功能__,揭开生物生命的神秘面纱。2、生物分子携带的三种信息分别为:___遗传信息,结构信息,进化信息。3、人类基因组计划完成的4张图谱分别是___遗传图谱、物理图谱、序列图谱、转录图谱。4、多维数据库分析又称数据挖掘是对数据进行_归纳推理和联想,寻找数据之间的关系,从中发掘有价值的信息。其基本步骤为:数据选择、数据比较_、数据挖掘和结果分析。5、域名由以机构性质命名的域和_以国家地区代码命名的域_两种基本类型组成。:..6、双绞线的接法按照10/100BASET的规定有T568A_和T568B两种固定的标准,其中T568B的接线顺序为_橙白、橙、绿白、蓝_、蓝白、绿、_棕白、棕。遵循同级交叉异级平行的规律。7、数据模型:(datamodel)数据库结构和语义的一抽象描述,由数据结构、数据操作和完整性约束三部分组成。8、NCBI有四个核心元素_文献出处,DNA序列,蛋白质序列和三维结构。另外两个项目(分类和基因图),,VAST软件其同组成一个有机的数据库系统。9、常用的分子生物学技术包括限制性酶消化_、凝胶电脉、_印迹和杂交、DNA测序、_克隆及聚合酶链式反应。10、三大数据库是指:美国国家生物技术信息中心(NCBI)的_GenBank数据库;欧洲生物信息学研究所(EBI)所维护的EMBL数据库_;日本国立遗传学研究所的DDBJ数据库。11、网络信息检索中高级检索技术有_加权检索,相似性检索和智能化检索。四、简答题(20分)相似性和同源性的比较::..通过序列比对先判断序列之间是否具有足够的相似性,从而判定序列是否同源,相似性和同源性虽然在某种程度上具有一致性,但是是两个完全不同的概念。相似性:一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。同源性:是指从一些数据中推断出的基因或者蛋白质之间是否曾具有共同祖先的结论,是质的判断。基因或者蛋白质之间要么同源要么不同源,决不像相似那样具有多或少的数量关系。(二)、PCR的引物设计原则答:①引物与模板的序列要紧密互补②引物与引物之间避免形成稳定的二聚体或发夹结构③引物不能在模板的非目的位点引发DNA聚合反应(即错配)。一般原则:1、引物的长度一般为15-30bp,常用的是18-24bp,但不应大于38。引物过短又同时会引起错配现象,一般来说引物长度大于16bp是必要的(不容易引起错配)。2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,,也会使错误引发机:..率增加。3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基A。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。4.、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。不同的算法推荐45-55%或50-60%5、?G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端?G值较低(绝对值不超过9),而5’端和中间?G值相对较高的引物。引物的3’端的?G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。(能值越高越容易结合)6.、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定7.、引物二级结构对PCR反应的影响。尽可能少的引物二聚体。3、如何使用GenBank获取数据:1、通过EntrezNucleotides来查询。2、essionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。:..3、用BLAST来在GenBank和其他数据库中进行序列相似搜索。4、用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据4、序列比对的方法、目的,意义:答:序列比对的方法:双序列比对、全局比对、局部比对、结构比对、多序列比对、手工比对。序列比较的任务:发现序列之间的相似性、辨别序列之间的差异目的:相似序列?相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系意义:,并且在一定程度上反映它们之间的相似性。。,如构建profile,打分矩阵等。6)简述BLAST搜索的算法思想。答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,:..然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度1、简述生物信息数据库的功能。答:;2、生物学数据库的查询、搜索和数据的通信;3、生物学数据库实现生物学数据的一般分析和处理。2、简述生物学数据库目前发展的特征有哪些?答:a生物分子数据库的更新速度不断加快,数据量成指数增加。b数据库使用频率增长快,数据库的价值被人们逐渐认识到。c数据库的复杂程度不断增加。d数据库网络化。直接进行访问,公共数据库之间相互链接。e面向应和,不简单的只是数据集,加入了检索和分析工具,可以完成基本的分析功能。f先进的软件与硬件配置。服务器增多,服务软件也增加。:..3、GBFF格式是由哪三部分组成的?答:第一部分是描述符,从第一行LOCUS行到ORIGIN行,包含了整个记录的信息;第二部分是物性表,从FEATURES行开始,包含了注释这一记录的特性,是条目的核心,中间使用一批关键字;第三部分是序列本身,以//符号结尾。4、生物信息学建立的四类数据库都有哪些?答::一级数据库,是由国际组织建设和维护的数据库。这类数据库优点是完整,更新及时,提供了较好服务平台,但存在精确性、准确性没有经评估,数据过多,重复,分类较粗。一级数据库上开发的二级库,其专一性强,数据量相对少,但质量高,数据库结构设计更合理。专家库,经验专家进行人工校对标识后建立的。质量高,使用可靠,更新慢。整合的数据库:是将不同数据内容按一定的要求整合而成。商业和内部数据库是整合数据库。五、论述题(20)1、谈一谈数据库中三种常见序列文件格式的相同点和不同点。答:数据库的三种常用序列文件格式是NBRF/PIR、FASTA和GDE。:..一、相同点1、每种格式不仅能够表示序列本身,还可以插入唯一的代码来识别序列,并对序列进行说明,包括序列的名称,序列所属物种,序列的长度及功能等。2、虽然三种格式的扩展名不同,可是其实质都是文本文件。3、在序列中10个残基空一格,60个残基换一行,核酸残基有A、T、G、C、U五种碱基;蛋白质为二十种基本氨基酸符号。4、序列中存在的特别符号—代表不明长度的空位(gap);不明核酸用N,不明蛋白质是X;R代表G或A的嘌呤;Y代表T或C的嘧啶;K代表G或T(带***基);M代表A或C(带氨基);S代表G或C氢键强;W代表A或T弱;B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代有A、G、C、T任意一种;*代表翻译结束。二、不同点1、NBRF/PIR格式;第一行以>P1开头是蛋白质序列>N1开头是核酸序列。分号后跟一个编号是序列的唯一标识号;_后是标识来源,之后是说明行,扩展名是”。Pir”or”.seq”。2、FASTA格式:第一行以>开头但没有指明是蛋白质还是核酸序列后的代码,接着注释,通常注释以“|”分开,第一行没有长度限制。FASTA格式允许以小写字母代表序列。扩展名为“.fasta”:..3、GDE格式:与FAST格式基本相同,但是行首是%号,扩展名为“.gde”。FASTA序列格式FASTA序列格式包括三个部分:(1)在注释行的第一列用字符“>”标识,后面是序列的名字和来源(2)标准的单字符标记的序列(3)可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。GBFF格式——GenBank中DNA序列格式GenBank中数据库(包括核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。在某些条目中,标识符可能缩写成两个字母(例如RF代表reference),某些字段可能还有次级字段。计算机程序中的序列条目位于标识符“ORIGIN”和“//”之间。这些字段提供的信息可以参见网页::..序列每行前面标有数字,以显示片断位置。序列计数或序列校检求和的值可被计算机程序用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。GenBank序列格式通常需要改变以适应序列分析软件。EMBL序列格式TheEuropeanMolecularBiologyLaboratory(EMBL)序列条目与GenBank类似,通过大量信息来描述每个序列。该信息组织成一个个字段,每个字段有一个标识符。这些标识符缩写成两个字母,某些字段还有次级字段。每行序列后面的数字显示片断的位置。计算机程序可以利用序列计数或校检求和的值来保证序列的完整性和精确性。正是由于这个原因,除非程序本身也改变计数,条目的序列片断是不能被改变的。这种序列格式用于各种序列分析软件时也要进行改变

生物信息学数据库答案[1] 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数20
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小屁孩
  • 文件大小1.67 MB
  • 时间2024-04-15