下载此文档

分词语料库中四字格的切分和识别分析.docx


文档分类:办公文档 | 页数:约51页 举报非法文档有奖
1/51
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/51 下载此文档
文档列表 文档介绍
课题的提出
第一章 引言
现代汉语中四字格的地位和特点
“四字格”这个术语最早源于陆志韦先生《汉语的并立四字格》一文。1986 年,王德春先生主编的《修辞学词典》收录了“四字格”这一术语。1988 年,胡裕树、张斌几位先生主编的《语法修辞词典》也收录了“四字格”这个术语。
“四字格”是指由四个字组成的一种语言格式。在汉语言文学发展的历史中,四字格的形式在汉语使用中起非常重要的作用, 汉语的四字格形式在语音、语法、词汇、构词、语用、修辞等方面都对汉语产生了深刻的影响。“四字格”结构灵活多变,它几乎能配置任何一种语法关系,满足结构变化的需要;四字格熟语和成语内涵丰富、深刻,表达了特定的思想含义;利用四字格句组成排比句,可以使句子对称匀整,能够增强语言的表现力、感染力。从语音的角度分析, 作为以声调来区分意义的语言, 汉语本身节奏感就很强, 而四字格结构更是音节清晰, 富于变化, 抑扬顿挫,正如吕叔湘先生所说,“四音节好像一直都是汉语使用者非常爱好的语音段落”。“四字格”不仅在字数、结构、音律等方面有着独特的优势,它还有着深厚的文化土壤,从老子的“千里之行,始于足下”到孔子的“学而不厌,诲人不倦”,古代的名人名言多见四字警句。
四字格结构的能产性和派生性极强,利用四字格派生出新词语的模式,在汉语言发展史上一直起着积极的作用,推动着汉语的发展。直到今天,利用四字格模式创造出的新词数量在现代汉语词汇中仍然呈上升趋势, 四字词语的数量有增无减。现代汉语词汇系统不断发展,多音节词语大量涌现,而在这其中四字格结构的新词语占据了显著的地位。有统计表明在《新语词大词典》的 1977-1990 部分中(韩明安主编,黑龙江人民出版社,1992) , 收录了 5493 个词条,其中四音节词语占大约 40 %;于根元主编的《》中
四音节词语也接近 40 %。有人通过统计得出结论认为“在新词语中双音节优势已经让位于四音节词语了”(杨晓黎, 1996)。不少研究者都认为汉语的四字格,特别是并列式四字格结构会有增加的趋势。由于四字格结构的派生性、动态性,使得对四字格结构的研究不能仅仅局限于文献和理论,而应该将目光更多的投向语料库,投向大量真实文本中的四字格。
本课题的研究意义
对四字格本体研究的意义
语料库中的四字格结构有其自身的特殊性,对语料库中的四字格结构进行归类,也和理论语言学领域的一般分类方式有所不同。在语料库中的四字格,由于语料的规模有限度, 所以不可能包含所有四字格结构,尤其是一些特殊结构的四字格,虽然它可能在理论研究的时候非常典型;同时,由于语料库中的所有四字格结构都是从真实文本中提取出来的, 所以不同的四字格结构,都带有各自不同的频率信息。这些信息反映了四字格结构的不同类型在实际文本中所占的比重,利用这种信息来对语料库中的四字格结构进行归类研究, 会给四字格结构的识别工作带来有益的启发和帮助。同时,从语料库中抽取出的四字格结构的类别和比重信息,也会反过来对理论领域的四字格的分类研究提供帮助和补充。
对语料库建设的意义
分词语料库中的切分不一致现象一直是中文信息处理领域的难点。切分不一致问题的解决好坏对汉语自动分词、分词规范统一、语料库建设等方面都有着重要的影响。四字格的切分不一致现象是整个分词语料库中分词不一致研究工作的组成部分之一。本课题对分词语料库内部和分词语料库之间的四字格切分形式进行了详细的统计和归类,对解决整个语料库中的分词不一致问题起到了积极的作用。
对汉语自动分词的意义
中文文本的自动分词工作是进行自然语言处理的重要环节之一。但是由于汉语自身缺乏形态变化、切分情况复杂,给汉语自动分词工作带来了一个很大的问题,即同一个词在文本中是否保持了相同的切分形式。在实际的分词过程中,四字格往往不被切分成一个完整的分词单位,而是被“切碎”了。例如像“按需分配”这样的一个四字格,在实际的分词语料库中,它出现过“按需分配”这样的切分实例;其它类似的例子还有很多,如“忽左忽右”、“不一会儿”、“褒贬不一”等等。作为一个意义凝固的语言单位,无论从分词规范的角度出发,还是从人们日常说话的直观感觉出发,这些四字格都应该被划分成一个分词单位而不是被切碎。如果不能很好的解决四字格的切分和识别工作,会给汉语的分词工作带来麻烦。解决四字格的识别问题,可以减少分词碎片的出现,纠正汉语自动分词中的错误,对分词正确率的提高有较大的意义。
本文的研究内容和研究方法
研究内容一:分词语料库中四字格的自动抽取和自动分类。研究方法:人工校对和机器抽取相结合的方法。
研究内容二:分词语料库内部和分词语料库之间的四字格切分不一致比较。研究方法

分词语料库中四字格的切分和识别分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数51
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小432 KB
  • 时间2018-05-26