西北大学
硕士学位论文
文本分类技术在综合风险元搜索引擎中的研究与实现
姓名:侯凡
申请学位级别:硕士
专业:计算机应用与技术
指导教师:周明全
20080619
本课题得到了“十一五”国家科技支撑计划重点项目一‘‘综合风险防范摘要热点之一。本文围绕文本分类中的文本预处理、文本特征选择、文本分类算法等关键技术,针对综合风险信息元搜索引擎与文本分类技术结合中的一些关键问题跃涞娜ㄖ丶扑愎絋燃扑惴椒ń醒芯坑敕治觥U攵栽频率、特征类别信息,以及特征位置信息的特征权重计算方法。该方法更准确地卣魑技蚴俏谋痉掷辔侍庵械闹匾;方凇1疚姆治霰冉狭思钢痔卣选择方法,讨论总结了它们各自的优缺点和适用范围。针对这些方法并不按类别实验表明,该方法大幅度的约简了属性,并可筛选出对类别区分度较大的特征。岢隽嘶贙算法与酆戏掷嗨惴ǖ慕岷纤惴ā5鼻拔迪至俗酆戏缦赵K阉饕嫦低场=谋痉掷嗉际跤τ迷谠K阉饕中,提供了更加丰富的数据,具有良好的扩展性。取得了较好的结果。关键词:文本分类,特征权重计算,特征选择,珺综合分类丶际跹芯坑胧痉丁С帧随着计算机的普及以及难该头⒄梗罅康男畔⒁缘缱游牡档男问涌现在我们面前。文本分类技术的研究随之成为信息处理与数据挖掘领域的研究展开研究。主要研究内容包括:计算方法在表现特征重要性上不足的问题,提出了一种综合考虑特征频率、文档描述了特征在文本中的重要程度。实验结果表明,使用该特征加权方法,分类器性能得到了相应地改善。计算统计值的情况,本文提出了一种基于特征类别区分度的属性约简方法,通过本分类方法中分类速度和分类的泛化能力往往不能兼得。本文提出的算法将隑算法结合,在利用了掷嗨俣冉峡焯匦缘耐保ü惴ḿ忧苛朔夯芰Γ〉昧私虾玫姆掷嘈Ч摘耍
餬唱鰋咖鷗眦—綿心悄.﹚啪盯鷄痶;鷇隆痶詀西甌琱琣竹韑。瓵,℃,瑃,.,....’..琣’Ⅱ¨
,.:,珺—’’“
学位论文作者签名:彳盈傅冀淌η┟毫学位论文作者签名:为丞日≯弼辱籪皿搿年耭参吩年多月/了日西北大学学位论文知识产权声明书西北大学学位论文独创性声明本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。保密论文待解密后适用本声明。本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包吉其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而的说明并表示谢意.,
第一章绪论研究背景选题背景及意义,即际醯难芯俊篎是在这种背景下产生了广泛地关注和快速地发展。文本分类技术的研究和应用是一个具有较大的实用价值的课题,也是一个充满挑战的研究领域。近年来,文本分类技术已经逐渐与搜索引擎【俊畔⑼扑蚚浚畔⒐恕刃畔⒋砑际跸嘟岷希行У靥岣吡诵意义;接着介绍文本分类问题的理论描述,包括文本分类的定义、模式以及基本年中国自然灾害和救灾工作情况显示】’年中国各类自然灾害共造成约谌次煌潭仁茉郑蛟炙劳耍艏弊R瓢仓蛉次农作物受灾面积亿自,其中绝收面积万亩;倒塌房屋蛭室蛟种接经济损失亿元。年以来,中国气候异常,降雨严重不均,极端天气情、旱情、灾情超历史记录。年中国自然灾害主要呈现出鎏氐悖阂皇多灾并发,水旱灾害损失重。二是点多面广,重复受灾区域大。三是气候异常,著名的经济学家、年诺贝尔经济学奖获得者赫伯特·西蒙曾经指出,在信息时代,最稀缺的资源不再是信息本身,而是对信息的处理能力。多年后,逐渐印证了西蒙的预言。随着计算机的普及以及网络的迅猛发展,大量的信息以电子的形式涌现在我们面前。如何在数量庞大而又形式复杂的文本中掌握最有效的信息成为信息处理学科重要的研究课题。文本分类皁騎的⋯,并逐渐成为信息处理与数据挖掘领域的研究热点与核心技术,近年来得到息服务的质量。本章首先阐述本文的研究背景和意义以及在综合风险元搜索引擎巾使用的流程;最后介绍本文的研究内容与组织结构。目前,我围是世界上自然灾害最严重的少数国家之一。中国民政部公布的事件频繁,多灾并发,点多面广,部分地区重复、连年受灾,局部地区雨情、汛极端天气事件发尘多。四是登陆台风偏晚偏多,人员伤亡和损失少。五是城市受
灾,经济社会影响程度深。造成人口死亡的主要火种是洪涝和滑坡泥石流,约占全国总量的%,其次是风雹灾害;因灾致死的主要原因分别是被洪水冲
文本分类技术在综合风险元搜索引擎中的研究与实现 来自淘豆网www.taodocs.com转载请标明出处.