下载此文档

基于语料库的基本名词短语研究+(2).doc


文档分类:办公文档 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
基于语料库的基本名词短语研究摘要:词类知识的粗糙和不完备是影响自动句法分析的一个重要因素。论文以一个完全按照语法功能标准建立起来的实词词类体系为依托,考察了基本名词短语的识别问题。研究表明,利用这个实词词类体系识别基本名词短语,%。关键词:基本名词短语;功能匹配;组合模式一基本名词短语及其识别方法在自然语言信息处理领域中,基本名词短语(baseNP)的识别和结构分析是基础性的研究课题,它的正确识别和分析对句法分析、机器翻译、信息检索以及文本分类都具有重要作用。(一)基本名词短语的界定基本名词短语(baseNP)这一概念是Church[1]在英语中首次提出的,他将英语中的baseNP定义为“简单的非嵌套的名词短语”,也就是说,一个baseNP内部不能再包含更小的名词短语。但是,这个定义并不能满足汉语语言信息处理的要求。例如:按照以上的定义,“信息检索理论”、“企业承包合同”和“出口商品指数”等名词短语都不是baseNP,但是在语言信息处理领域,这些名词短语都是非常重要的语言单位,因此张瑞霞、张蕾[2]以《知网》中词性的划分为标准,给出汉语基本名词短语(以下简称baseNP)的形式化定义:(1)baseNP→baseNP+baseNP(2)baseNP→baseNP+名词|名动词(3)baseNP→限定性定语+baseNP(4)baseNP→限定性定语+名词|名动词(5)限定性定语→形容词短语|动词|(副词+动词)|名词|(名词+“的”)|(数词+量词)(6)形容词短语→(形容词+形容词短语)|(形容词+“的”+形容词短语)|(副词+形容词+形容词短语)|(副词+形容词+“的”+形容词短语)(7)形容词短语→形容词|(形容词+“的”)|(副词+形容词)|(副词+形容词+“的”)对于这个形式化定义,我们不妨简单举几例加以说明:baseNP~baseNPNBA联赛数据结构下岗职工一件衣服先进的设备对于未来的憧憬租赁公司信息爆炸太空旅行购买汽车维修电器出租房屋企业发展规划汉语信息处理5位导师飞速发展的经济学****的压力  (二)基本名词短语的识别方法近年来,基本名词短语的识别问题倍受研究者关注,不断出现新的研究方法与研究成果。赵军(1998)提出了一种基于转换的汉语基本名词短语识别模型,该模型的设计思想是:通过一个基于转换规则的文本转换机制,将识别baseNP的静态知识(表示基本名词短语句法组成的基本结构模板)和动态知识(表示基本名词短语出现的上下文环境特征的转换规则)结合起来,从而充分利用baseNP的内部组成结构模板和在上文环境中的分布特征进行识别。他用1万字的语料作测试,对文本中的基本名词短语进行识别,%。赵军、黄昌宁(1999)提出了用词语的潜在依存关系分析汉语baseNP结构的模型,即将依存语法知识融入概率模型中,使得baseNP结构分析在依存语法知识的指导下进行。他们考察的主要对象是n+n+n,考察的重点就是确定这个baseNP的定界问题,即中间的n是跟前面的n捆绑(左捆绑)还是跟后面的n捆绑(右捆绑),根据考察的500个baseNP的结果看,%的正确率。孙宏林(1997)根据从经过分词和词性标注的语料库中获取的14条规则,对什么条件下v和后面的n可以捆绑在一起进行了研究。其研究侧重于确定任意上下文中的一个特定v+n序列是否为合法的语法形式。詹卫东(2000)利用短语结构规则的方法对名词短语结构进行了研究,重点探讨了如何利用规则对名词短语进行定界的问题。孟迎等(2004)提出了一种基于决策树的方法识别汉语基本名词短语。其核心思想为:从语料库中自动抽取基本名词短语的词性模板以及其相应的上下文信息,采用算法形成相应的决策树。%。上述研究的共同点是:都着眼于如何识别自然语言文本中的基本名词短语,确切地说主要是研究基本名词短语的定界问题,而且研究的对象基本上是不包含动词的短语。对于识别出的基本名词短语的内部句法关系如何,没有作深入的探讨。张瑞霞等(2004)提出了一种基于知识图的汉语基本名词短语分析模型。即以知识图为知识表示方法,利用《知网》为语义知识资源,采用以语义为主、语法为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于汉语基本名词短语的结构信息和语义信息的知识图。这种方法它不仅分析了汉语基本名词短语的内部句法关系,而且分析了汉语基本名词短语成分间的语义关系。这是目前所能见到的唯一一种不只识别而且还分析短语内部结构关系的模型,作者分别用不含动词的500个汉语基本名词短语和含有动词的300个基本名词短语进行测试,%,%。由此可见,包含动词的基本名词短

基于语料库的基本名词短语研究+(2) 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人文库旗舰店
  • 文件大小74 KB
  • 时间2019-11-18