摘要数据仓库系统中若干关键技术的研究随着计算机应用的普及和发展,许多企业和组织机构都采用了计算机及相应的保留的数据实际上是有关企业生产经营经验的真实记录,经过长期的积累,它们必然能反映出企业生产经营过程中规律性的信息和知识。这些成年累月堆积如山的数据形成了一个企业的巨大宝藏,如何对其进行有针对性地开发,挖掘出有价值的信息和规律,形成企业的—傅计笠档募际蹙霾吆途>霾撸杂谄笠档越重要,由此产生了数据仓库技术。数据仓库技术以及基于数据仓库的应用缌机分析处理和数据挖掘悄壳把踅绾凸ひ到缪芯康娜鹊阄侍狻数据仓库系统是一个复杂的系统,其中涉及许多复杂的概念和技术。本文就数据仓库系统中的几个关键技术进行了研究,主要从数据仓库系统的建设和维护管理等方面进行讨论和研究,包括数据仓库的概念建模技术、数据仓库数据加载过程中保证数据质量的数据清洗和集成闯题、数据仓库设计中的维度缩减问题、基于模式演进的增量视图维护技术以及数据仓库中优化任务调度策略研究,针对具体问题提的设计和开发。本文首先讨论了数据仓库的基本概念、与数据库和数据集市的关系、数据仓库的体系结构和组织结构以及数据仓库管理技术等,而后重点讨论下面的几本文在数据仓库设计的研究中,首先,以流程工业应用为背景,提出了用于数据仓库概念建模的星链模型。为了能够表示事实之间的度量传递,在模型中引入了链式事实主题的概念,并引入了实体集之间分类层次联系、事实集之间的传递度量联系,这样使得模型具有描述维层次的能力。详细地区分了度量属性的类型,包括传递、积蓄、流量和单位值类型等,以便对度量属性实现正确的聚合运算。本文给出了星链模型的图形表示,并使用该模型对冶金企业的一贯质量分析进行建模,给出了使用星链模型的建模方法学,即如何从用户的需求构造星链模型,如何从星链模型向逻辑模型转换的规则。其次,本文提出了以人为中心信息技术进行管理和运营,每个企业或组织都收集和存贮了大量的数据。一个企业发展,将发挥举足轻重的作用。因此,随着市场竞争的加剧和信息社会需求的发展,如何有效地管理这些数据,从中挖掘规律性知识,指导生产和营销策略,显得越来出了相关的解决方法和技术。并将这些技术用于基于数据仓库的拖低个问题。的数据清洗过程模型。该模型采用工作流的思想,将数据清洗过程作为一个工作流,用户可以定制清洗流程,并且可以选择用来清洗数据的方法和工具。该流程将数据集成、数据转换和清洗集成在一起,并提供辅助工具箱完成上述的工作。该模型中东北大学博士学位论文
肯轔Ⅵ啊油嫉募钢只靖谋浞绞剑杓屏思纯悸悄J蕉ㄒ甯谋溆给出了解决这两级语义冲突的解决策略。第三,本文讨论了数据仓库设计中的维度缩减的基本概念,给出了按维度缩减算法的功能进行算法分类,即剔除冗余属性的算法、剔除不相关属性的算法和综合算法,提出了基于分形维的快速维度缩减算法,该方法利用分形维作为属性子集的优度度量准则。该方法可以剔除无监督数据集中的冗余属性,只需扫描~遍数据集就可以得到满足精度要求的属性子集。实验研究在数据仓库的运行与维护管理的研究中,首先,讨论了数据仓库的数据更毅和仓库管理员面临的巨大问题。采用工作流的思想,设计提出了企业级数据仓库的任务调度策略以及设计出了自动任务调度框架。该框架收集系统中的各种数据处理任务,根据应用领域的相关规则,自动获取任务的输入和输出,进而形成任务流图,进而调度和监视任务的执行,并进行了实验模拟研究。最后,本文设计并实现了一个基于客户/衿鞣绞降囊允莶挚馕J菰吹拖低常⑹褂肙腂进行性能测试。该系统在系统是国家苹手钅康囊徊糠郑钅客ü斯专家组的验收和辽宁省科技厅组织的成果鉴定。提供了数据完整性分析、数据集成工具、数据转换工具、统计分析工具和数据挖掘工具。同时,针对数据仓库是多数据源的集成产品,提出了数据仓库中数据集成框架。该框架给出了关系模式的两级语义冲突分类,即模式结构冲突和元组实例冲突,发现,该算法具有很好的维度可扩展性。维护技术,提出了视图定义改变后的数据集市增量更新策略。主要针对考虑视图的底层数据源有数据增量的视图维护和改写算法。其次,由于数据仓库中数据处理程序众多,尤其是在企业级数据仓库系统中,如何调度任务的运行是数据环境下,使用、和接口实现的,支持多种数据库平台。本关键字;数据仓库,数据集市,联机分析处理,拍钅P停链模型,多维模型,维度缩减,属性选择,任务调度,数据质量,数据清洗,数据集成,增量视图维护,视图改写东北大学博士学位论文摘要
,,..,,瓻,.—..,瑃..,:瑃,
甌.,—琣,琣东北大学博士学位论文甋甀瑆甀.,,,.猘,甌琓.,琩,,瑃瑃瑆.,甌琩琫—甀..阛瑃’
珼百,,,珻—產猟—琣甌/,...現琓琁
本人繇绐玉诫日期:,声明本人声明所呈交的学位论文
数据仓库系统中若干关键技术及研究 来自淘豆网www.taodocs.com转载请标明出处.