下载此文档

北京地区现场即席话语语料库的取样与代表性问题.doc


文档分类:建筑/环境 | 页数:约18页 举报非法文档有奖
1/18
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/18 下载此文档
文档列表 文档介绍
北京地区现场即席话语语料库的取样与代表性问题
顾曰国
中国社会科学院语言研究所
提要
取样与代表性是语料库建设首要的问题。它们关系到语料库的可信度和质量。本文首先对前人的研究作了回顾,内容包括北京口语语料、伦敦-伦德语料库、标准美国英语口语库和英国国家语料库口语库。接着介绍了北京地区现场即席话语语料库是如何解决取样和代表性问题的。
关键词:取样、代表性、口语语料库


现场即席话语指两人或两人以上在某一场合事先无准备的谈话。它不同于我们常说的“口语”,表现在口语包括的内容很广,下面这些都可以说是口语:

无准备
有话题限制
但是无准备
有话题限制无书面准备
有书面准备但不念稿
念稿子

单人
如自言自语
如讲个人经历
如口语考试
如口头独白、单口相声
如朗读、新闻广播

两人或两人以上
*如日常生活交谈
*如体育沙龙

*如现场采访
如演戏、相声
如集体朗诵
带星号的才属于本文定义的现场即席话语,其中日常生活中无准备的交谈最具有典型性。建构现场即席话语语料库是一个非常复杂的过程,涉及到诸多方方面面。其中首要的就是本文要讨论的取样与代表性问题。这是因为现场即席话语是最古老也是日常生活中最频繁的语言活动,可以说是腑拾皆是,同时还是个开放集,是无法穷尽的。这就决定了取样与代表性问题是不可逾越的。具体说来,我们必须在着手建库之前对下述问题作出有理有据的回答:录谁的话语?录什么内容?录多少?由谁来录?

在介绍我们在建构现场即席话语语料库时是如何处理上述这些问题之前,让我们先回顾一下前人是如何做的,其中有北京语言文化大学的“当代北京口语语料”,英国/瑞典的“伦敦-伦德语料库”,美国的“美国英语口语语料库”以及“英国国家语料库口语库”。

2. 对前人研究的回顾

据《当代北京口语语料》(录音文本)(1993),该语料为“北京口语调查”项目的主要成果。此项目的目的是“通过大规模的实际调查,记录在居住地区、性别、年龄、职业、文化程度和民族等方面具有不同属性的北京人日常生活中的自然话语,为北京方言与普通话以及其他方言的对比研究,为北京话的发展变化和社会语言学研究、为汉语信息处理研究等,提供一份丰富翔实的语料”(第II页)。为了达到这个目的,“有声语料”是如何采录的呢?“这样的语料必须做到全面、客观。所谓全面、客观,就是录制的有声语料要能全面反映北京话的实际状况,对自然语言不加任何主观干预。”(第III页)抽样调查的方法是:(1)控制调查对象的基本条件,即本人在北京出生,父母都是北京人。(2)控制调查对象的数量和属性分布(有效人数是374名)。(3)控制话题的数量和内容分布(共6类28个话题)。(4)根据计划好的话题组合,对上述调查对象进行当面采访、现场录音。(第III-IV页)
此项目及其成果的价值是无可置疑的,在此我们无须赘言。但同时我们也必须看到它的存在问题。项目声称收集的是北京人日常生活中的自然话语,而实际成果并非如此。因为用项目的取样方法是不可能得到日常生活中的自然话语的。理由如下。(1)通过控制话题的数量和内容分布,以及对调查对象进行当面采访、现场录音,得到的只能是采访录;(2)调查对象接受采访这项活动在日常生活中是极其偶然的,不能算是日常生活的一部分,所以语料没有代表性;(3)如果录音采用的是记者采访用的手体式麦克风,调查人会产生紧张情绪,加上必须谈指定话题,由此得来的话语不能算自然,或至少自然程度差;(4)文中没有交待374名调查对象是如何产生的,依据的标准是什么。但无任答案如何,这些人的生活不可能是独立的,不受非北京人的影响。我们知道,北京人口是“五方杂处”,话语相互渗透和“里巷中言语亦有不可晓者”并存。连流动人口每天就不下几百万。据侯精一的调查,“北京话的发展变化很快,老年人说的话(老派话)与青年人说的话(新派话)有明显差异。
”(侯精一,1998:52)。促成这些变化的原因之一就是与外部的交流互动。
有些读者也许会认为上面的4点质疑不过是吹毛求疵。非也。因为这是语言调查,由调查得来的应该是事实。然而因调查方法有问题,不够严密,那么得来的数据就不可能可靠。我们只有把调查方法的问题指出来,同时把由此得来的数据的不可靠性也晓知以众,才能避免得出错误的结论。事实上,由于这4点,研究人声称的所谓当代北京口语语料严格地说只是采访录,是北京话里的一个功能品种;加上不是对话性的,而是调查对象就某个指定题目的单人叙述,所以更严格地说,《当代北京口语语料》这个辑子实际上就是通过采访得到的单人叙述口语体的取样集。
伦敦-伦德语料库
由英国语言学家Randoff Quirk主持

北京地区现场即席话语语料库的取样与代表性问题 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数18
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zxwziyou8
  • 文件大小64 KB
  • 时间2018-06-11