下载此文档

基于AntConc3.2.4软件的石油英语词汇的检索和分析.pdf


文档分类:外语学习 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
该【基于AntConc3.2.4软件的石油英语词汇的检索和分析 】是由【玉柱儿】上传分享,文档一共【5】页,该文档可以免费在线阅读,需要了解更多关于【基于AntConc3.2.4软件的石油英语词汇的检索和分析 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。信息与电脑
计算机工程应用技术Information&Computer2022年第15期

陈 柯 杨医硕
(西安石油大学外国语学院,陕西西安 710000)
摘 要:,适用于语言学、翻译学、文学研究和外语教学等领域。它可
以根据使用者的需要,对文本中的词汇和句子进行有效的检索和统计,为进一步的文本分析提供支持,在语言学****方面
具有广阔的应用前景。选取石油技术英语文本作为研究语料库以及其他类型的英语文本作为参照语料库,并利用该软件
对两个语料库进行分析,具体从石油技术英语的检索结果出发,分析石油技术英语中词汇的特点,帮助该领域的学****者
快速掌握石油英语的核心词汇和特点。
关键词:石油技术英语;词汇检索;文本分析;
中图分类号: 文献标识码:A 文章编号:1003-9767(2022)15-010-05
RetrievalandAnalysisofPetroleumEnglishVocabularyBasedon

CHENKe,YANGYishuo
’’
(CollegeofForeignLanguage,XianShiyouUniversity,XianShaanxi710000,China)
Abstract:
,translationstudies,literatureresearchandforeignlanguage

,providessupportfor
furthertextanalysis,
theresearchcorpusandothertypesofEnglishtextsasthereferencecorpus,andthesoftwareisusedtoanalyzethetwocorpora,
specificallyfromthesearchresultsofpetroleumtechnicalEnglish,toanalyzethecharacteristicsofvocabularyinpetroleumtechnical
EnglishandhelplearnersinthisfieldtoquicklygraspthecorevocabularyandcharacteristicsofpetroleumEnglish.
Keywords:
petroleumtechnicalEnglish;vocabularyretrieval;textanalysis;
0 引言越来越广泛,在教学、写作和翻译方面均有建树。笔者利用
计算机技术的发展给各个领域带来了不同程度的变革,AntConc对选取的石油技术英语进行检索和定位,借助词频
大量辅助文本分析软件如Wordsmith、AntConc、PatCount、检索(Frequency)、词表(Wordlist)、词簇(Cluster)、
Mconcord涌现出来,为文本分析提供了新视角。因此,人们词汇搭配(Collocate)、情境分析(Plot)和生成主题词表
加大了对语料库的研究。文本分析工具能够快速、高效地处(Keyword)等功能进行具体分析,发现石油技术英语的词
理大量的文本,尤其是语料库软件AntConc中的词频统计、汇特点和偏好,从而给石油技术英语的学****者提供一些启发。
词汇搭配和情境分析和主题词词表等功能对学****专业领域的1 研究方法及步骤
英语有很大的帮助。语料库检索工具的使用可以使学生掌握
输入语的语言特征和词汇使用规律, 数据收集
[1]
文本特征,优化英语写作。在文学领域,许多学者将其应本文通过电子图书馆收集了约10000字的石油技术英语
用在对文学作品的分析中,通过检索关键词和情境分析功能,文本建立研究语料库,收集约20000字的普通英语文本建立
可以分析文学作品主题和人物的性格特点,从而为文学作品参照语料库,并对所有文本进行严格的格式整理和校对。同
[2]
赏析增加说服力。而在非文学领域,计算机工具的使用也时,
收稿日期:2022-06-07
作者简介:陈柯(1975—),女,陕西西安人,硕士研究生,教授。研究方向:翻译理论与实践。
—10—
信息与电脑
2022年第15期Information&Computer计算机工程应用技术
数据量化分析,从词汇频率统计、词簇和词汇搭配、情境分析、
主题词检索和分析方面进行研究,并且对比研究语料和参照
语料的检索结果,分析两种不同领域的文本的差异,从而发
现石油技术英语在词汇选择上的偏好和特点。
工具选择
在语料库检索软件的选择上,笔者考虑了软件的操作性
和适用性,
件。AntConc是由Laurence设计开发,对比其他软件,它最
大的优点是使用免费并且操作简单,广受缺少技术背景的研
究人员的青睐[3]。AntConc最初作为一个简单的索引程序,
经过开发者不断完善,已经成为一个非常有用的文本分析工
具,其界面简洁,操作方便,可导入多个文本文件,并生成
语料库,并且它兼容汉语、日语、韩语等多种语言,可以
对UTF-8和UTF-16的编码进行语料统计,支持正则表达
式[3]。对于语法标注过的文本,AntConc可以通过正则表达式
实现一定语法单位的检索,这对词法、句法的研究都是非常图1a 词频检索结果1
有力、可靠的支持[4]。:①词
语检索(Concordance)可以从庞大的语料库中将所有含有检
索词的短语或句子罗列出来,还可以导出保存为text文件,
方便对文本进行词汇分析;②词频统计(Frequency)和生
成词表(Wordlist)功能相互补充,可以检索出输入文本中
的所有词汇,并分别计算其在文本中的出现次数,将其从高
到低或者从低到高进行排序,生成图表供用户参考;③词簇
(Cluster)功能可以检索连续多个词且含有某个词或词组的
文本片段,通过计算机可自动检索出以相同形式反复出现的
两词或多词的有意义连续词组单位[5];④词组搭配(Collocate)
可以检索出具体词汇的前后搭配,并标注出其在所在句子
的位置,其本质就是分析文本中的词汇搭配情况;⑤主题
词功能(Keyword)是一个非常重要的功能,可以检索出相
对于参照语料库(ReferenceCorpus),研究语料库(Study
Corpus)中的主题词,并计算出每个主题词的主题性(Keyness)
并按高低排列,而且生成的主题词表()在文
KeywordList图1b 词频检索结果2
本分析中有很重要的作用。
2 词频统计和分析
词频统计是语料库研究的一个基本的统计手段,对语篇
或语料库中的某一词语或短语出现的频率进行统计的过程或
结果[6]。早期的语料库研究基本上仅限于词频的统计,在机
读语料库问世之前,研究者都通过人工来计算词频,人工计
算词频费时费力,而且结果不够精确。词频统计的结果可以
用于其他更为复杂的统计之中,可以在多个领域帮助研究者
们进行研究,如翻译研究、文学研究和教学研究等。
在进行词频检索之前,首先将所选取文本用Word软件
进行整理、校对,保存为txt、pdf或者word格式,然后将
图1c 词频检索结果3
文件导入AntConc软件,创建语料库,就可以看到文本概览,图1 词频检索结果
如图1所示。
—11—
信息与电脑
计算机工程应用技术Information&Computer2022年第15期
该文本有词型(wordtype)共计1855个;词次(word由此可以分析出所选取文本大概的研究方向,如本文的研究
token)共计10824个。其次,笔者通过查阅相关文献并多方向可能是不同种类的石油的加工和生产方式。设定cluster
次实践得出,在10000字左右的语料范围内,选取50hitssize为3,可以检索到oilisdistilled、oilisburned、oilis
为查询单位最具代表性[7]。由此可知,图1是以50hits为单refined的搭配,可以更加细致深入地分析文本内容,由此可
位进行词频检索,得到的所选取的石油技术英语文本中出现见,设置clustersize越大,所检索的内容就越详细,就可以
频率排在前50的词汇。更快掌握关于原文的信息。
通过词频分析结果,可以发现排在最前面的有冠词the、
情境分析
连词and以及介词of和in等,而此类词属于虚词,无实际意义,
在本研究中不予关注,应关注如Oil(石油)、Gasoline(汽油)、(Key-Word-In-Context)
Fuel(燃料)、Octane(辛烷)的实词。从检索结果中分析词汇,和Plot功能,可以对词汇进行定位,检索该词汇的分布情况
可以发现图1所示的前50的高频词中,有21个名词,而抽以及具体的上下文内容,直观地展示被检索词在整个文本中
象名词较多,如Productivity(生产率)、Volatility(挥发性)、的位置及疏密程度,便于进一步分析该词汇的使用情境。例
Permeability(渗透率),正如其他科技文本一样,石油技术如:以高频词oil为例进行检索,分别设置词汇数(context
英语中也多借用抽象思维的逻辑性和概念性,客观描述事物size)为5和10,可以发现在其他条件相同的情况下,前后
的状态,并追求表达上的准确、客观和逻辑严密,这一类词词汇数为5的情况下,前后显示的句子并不完整,无法确认
多由形容词加上-bility或者动词加上-tion、-sion、-ance句子的主干结构,而在词汇数为10的情况下,可以发现句子
和-ence等构成。的主干结构更加完整,如图2和图3所示。其中,Oil所在
分析检索结果中出现频率最高的实词,可以根据其特点的句子中找到动词Refine、Distill,和主语构成主语+谓语
分为普通词汇和专业词汇,如Productivity(生产率),是除(Subject+Verb,S+V)结构,前后穿插着各种从属成分,根
Oil之外出现频率最高的词,这一类词属于英语中的普通词汇,据动词及动词的词形变换就可以看出句子的结构、功能甚至
多个领域通用;而另一种出现频率最高的词语,如Petroleum是语义信息。而且观察发现动词多以过去分词形式为主,多
(石油)、Octane(辛烷)、Desalting(脱盐),属于专业使用被动语态,有利于句子的扩展,即有利于使用定语从句、
性词汇,带有明确的指向性和领域性。针对这一检索结果,状语从句等,传递出的信息量大,也更加客观。如果继续增
可以将石油技术英语文本中的词汇大致分为两类:一类是功加词汇数,句子前后内容更加完整,可以发现其中多次出现
能词,主要包括代词、连词和介词,这类词的出现频率虽然When、Where、Which、Although等词引导的从句,一个完
极高,但是对研究词汇特点没有实际价值;另一类是技术词,整的句子包括了3个甚至3个以上的分句结构,从句套从句,
即某一领域内的专业术语,这类词仅在特定领域的文本中出构成多重复合句,而且根据词频检索结果,It出现频率非常高,
现且出现频率很高,一旦跨领域,出现的频率就会很低[8]。定位It前后句子信息,可以发现石油科技英语中多用It先行
综上所述,可以总结出石油技术英语词汇的特点:一是结构,如形式主语,把较长的句子移到句末,使句子保持平衡,
人称代词(动词执行者)使用频率极低,几乎没有,可以避也表现出石油技术英语文本的写作风格理性而平稳。
免主观臆断,突出阐述事物的本质特征,反映出石油技术英综上所述,可以总结出石油技术英语文本中多使用长句,
语的个人色彩较少,追求叙述的真实性和规范性,具有客观多从句,结构完整、复杂,具有清晰的主次关系和逻辑关系,
性特点;二是除功能词外,图1所示前50的高频词中名词还可以发现句子中be+Ved结构的出现频率较高,反映出石
最多,反映出石油技术英语具有较强的名词性特点,用词注油技术英语文本中多使用被动语态。
重逻辑化和概念化;三是技术性词多,专业术语多,可以准
确表述该领域的科学技术、现象过程、特性关系等,比起普4 主题词分析
通英语,石油技术英语用词更加正式和专业。主题词分析首先要建立主题词词表,也就是要建立一个
3 词汇搭配和情境分析更大的参照语料库,与自身研究的语料库形成对比,并提取
出研究语料库中更具主题性的单词。该功能可以更深入地分
词汇搭配析文本的主题和内容,进而了解文本的特点。石油技术英语
在词频检索完成后,针对出现频率较高的实词,可以继作为科技英语(EnglishforScienceandTechnology,EST)
续使用词簇(Clusters/N-terms)、搭配(Collocate)等功能,的一个分支,同时具备科技英语的特点,如专业性强、逻辑
[7]
查看这些高频词在文本中的词汇搭配。例如:以高频词oil严密、精确简练等。笔者认为针对石油技术英语这样的专
为例,设定clustersize为2,进行左右检索,可以搜索到oil业文本,利用语料库分析软件AntConc进行主题词检索很有
product、oilrefining、crudeoil、rawoil和fueloil等搭配,必要。专业术语在石油技术领域出现频率极高,但跨领域出
同时可以在文件查看(File)中定位词汇出现的具体位置,现频率就很低,因此只要选取石油技术英语作为研究语料库,
—12—
信息与电脑
2022年第15期Information&Computer计算机工程应用技术
图2 前后词汇数为5时上下文检索结果
图3 前后词汇数为10时上下文检索结果
添加普通英语文本作为参照语料库,经过对比,就能简单地该文本中明显偏高。由此,可以分析该文本跟Petroleum(石
找出石油技术英语文本中的核心词汇,生成有学****价值的词油)关系密切,极有可能是石油领域的文本,而且可以认为
表,分析石油技术英语的词汇特征。Petroleum(石油)就是学****者学****此类文本时优先学****的
检索文本的主题词之前,首先要选择两个不同文本的词词汇。
表,一个词表是所研究领域的文本形成的词表,
可以选取任意其他领域的文本形成词表,作为参照语料库。文本进行统计分析,并且选择其他类型英语文本作为参照
参照语料库在长度上要求比与之相比的文本或文类长,它往语料库,检索得出该石油技术英语文本的前50个主题词
往反映了词在一般情况下在语料中出现的情况,因而可以作(Keyword)。这里的主题词是指石油技术英语文本跟其他
为比较的标准[9]。例如,Petroleum(石油)一词在参照语料文本中相比其使用频率显著偏高的词,偏高的程度也就是主
库中出现的频率为1/10000,而其在对比的文本中出现的频题词的主题性(Keyness),而且这些多用的词语可以很直观
率高达1/100,与一般出现频率相比,Petroleum(石油)在地表现出所选文本的词汇和表达特点[10]。主题词分析在石油
—13—
信息与电脑
计算机工程应用技术Information&Computer2022年第15期
英语文本中的作用更为突出,因为专业词汇针对性较强,在综上所述,通过主题词检索可以生成主题词表,根据主
某一专业领域出现频率极高,但是跨领域出现频率就会很低,题性的高低判断文本的真正主题词,可以发现石油技术英语
因此选取石油技术英语作为研究语料库和普通英语作为参照在选词方面的优先顺序,有利于该领域的学****者快速掌握石
语料库进行对比非常有参考价值。油英语的核心词汇,提高该领域文本的阅读效率,在短时间
通过软件检索石油技术英语文本而生成的主题词图表如内快速掌握重要的石油英语词汇。
图4所示,可以发现其中主题性前3的词分别是Oil(石油)、
5 结语
Crude(原油)和Fuel(燃料),而根据图1词频结果显示
笔者选取约10000字的石油技术英语文本和约
这3个词并不是词频分析中出现频率前3的词,因此频率并
20000字普通英语文本,分别整理校对,利用语料分析软件
不是最能反映文本特点的方面,主题词更能代表所选文本的
,从词汇的使用频率,词汇的
词汇特点,主题性的高低就是研究文本的主题词的直观表现。
搭配和使用情境以及主题词等方面具体分析,并对比普通英
图4中呈现的结果是笔者分别构建研究语料库和参照语料库,
语文本,发现石油技术英语中存在显著差异的词,从而总结
并分别对其进行检索,将两种不同语料库中的词汇按主题性
出石油技术英语中词汇的选择偏好及特点。与人工检索相比,
高低进行排列,可以看出Crude(原油)、Fuel(燃料)、
AntConc软件的检索速度更快、分析结果更加准确,可以极
Hydrocarbons(碳氢化合物)、Sulfur(硫)、Petroleum(石
大地减少研究者的工作量,提高效率,以便更快地进行下一
油)等词在石油技术英语中主题性高达100以上。主题性越高,
步的研究。虽然研究中由于时间仓促,收集的研究语料比较
意味着词汇与文本的联系越紧密,因此文本的内容和石油及
小,不能完全反映出石油技术英语中的所有核心词汇,但是
化学反应息息相关。
本文的研究结果仍然可以给该领域的研究者在学****石油技术
英语方面提供一些帮助和参考。
参考文献
[1]訾韦力,
用[J].教育理论与实践,2013,33(24):54-56.
[2]:有关翻译
教学手段的探讨[J].外语电化教学,2011(5):43-48.
[3]雷洁琼,李楠,张雪婷,
AntConc的使用方法[J].农家参谋,2018(22):138.
[4]
用[J].外语电化教学,2009(1):45-48.
图4a 主题词表1
[5]王菲,:
[J].信息与
电脑(理论版),2021,33(17):10-12.
[6]许家金,
CQPweb及应用实例[J].外语电化教学,2014(5):10-15.
[7]《石油勘探英语》词汇检
索[J].长江大学学报,2011(3):91-93
[8][J].外语研究,2004(2):64-66.
[9]王立非,:现状
与方法[J].外语电化教学,2005(5):19-24.
[10]李冬,黄锦茹,陆银根,
图4b 主题词表2能设计[J].中国现代教育装备,2014(15):23-24.
图4 主题词表
—14—

基于AntConc3.2.4软件的石油英语词汇的检索和分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人玉柱儿
  • 文件大小2.18 MB
  • 时间2023-01-28