下载此文档

浅析辞书编纂中语料库数据分析原则.doc


文档分类:办公文档 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
浅析辞书编纂中语料库数据分析的原则-汉语言文学浅析辞书编纂中语料库数据分析的原则 唐萌摘要:随着计算机技术的发展,语料库技术作为一种更为科学的、经济的手段,被越来越多地引入到辞书编纂领域。在汉语辞书释义方面的语料库技术运用,不仅能提高辞书释义的客观性、准确性,还能进一步增强汉语辞书编纂的科学性。语料库的出现在为我们提供方便的同时,也带来了一些问题。为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,应把握真实性、穷尽性、有效性和定量分析与定性分析相结合的原则。关键词 :辞书编纂语料库原则一、引言自20世纪80年代以来,随着计算机应用技术的不断发展,以语料库为基础的语言学研究在语言学和计算机科学领域中都取得了丰硕成果,语料库的建设也受到了世界各国的广泛重视。近年来,语料库规模的扩大及配套的检索技术的完善,为辞书编纂带来了新的思路和角度。大量电子文本的出现,不仅给辞书编纂带来了大量的信息来源,使我们节省了很多人力、物力,也给读者提供了一种新的更加快捷的语料查找渠道,便于人们进行有关方面的学****和研究。但与此同时,为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,还应把握真实性、穷尽性、有效性和定性与定量相结合的原则。二、真实性所谓真实性,主要是指语料的真实性和数据的真实性。在我们进行数据分析前,首先要确保的是语料库中语料的真实性。语料库中的语料应该是在现实生活中真实应用于自然语言交际的真实话语和真实文本材料。语料库素材的构成和取样范围要按照明确清晰的语言学原则和严谨科学的语料库设计宗旨,通过科学的实际调查和合理的数据统计来完成,而并不是由随意拼凑的或随机抽取的某一部分语言材料堆积而成。因此,我们在进行数据分析时常常选择一些规模较大语料库,它们都是国家或者有实力的大学设计和建设的,从而使我们能方便快捷地找到大量真实可靠的数据。例如:国外的语料库有布朗语料库、伦敦—隆德口头英语语料库、国际英语语料库等,国内的语料库有现代汉语语料库、北京大学计算语言学研究所开发的人民日报语料库等。这些大型的语料库为我们提供了大量的真实可靠的语料,这也为我们下一步进行数据统计的真实性奠定了坚实的基础。其次,我们还要保证统计数据的真实性。我们从语料库中筛选出需要的语料,然后就要进行相关方面的数据统计,切记要一一进行查找,不能偷懒进行类推或者大致推算。因为每一个数据都有自身的独特性,它所具有的某些性质也许只是这一个例子所表现出的特征,并不能代表全部。例如,我们要对“给力”这个词条进行调查研究,在资料考证过程中我们发现“给力”在给定的语料库2012年的语料使用中频率较高,但是我们不能简单推测在2013年的语料中它也大量使用,具体它的使用频率是多少,是否在2013年的语料中同样有较高的使用率,还要认真地在2013年的语料中进行实际的考察和统计才能得出真实可信的定论。如果我们的调查失去了真实性,那么也就失去了调查的意义,就更不要谈语言研究的价值了。因此,真实性是辞书编纂中语料库数据分析的首要原则。我们要确保数据统计的真实性,做好数据分析的基础工作。三、穷尽性在确保真实性的基础上,我们还要保证数据分析的穷尽性。所谓穷尽性,就是我们在检索语料的过程中,要把语料库中关于调查内容的语料全部检索一遍,应该将含有检索条目的语例尽可能完全地收录进来。这样我们不仅可以全面了解

浅析辞书编纂中语料库数据分析原则 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小枷
  • 文件大小156 KB
  • 时间2019-02-23