栏目分类:
子分类:
返回
文库吧用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
文库吧 > 学术 > 学生必读 > 文学教育

讲话》汉德平行语料库的创建与意义

讲话》汉德平行语料库的创建与意义

岑蓉蓉

内容摘要:安格拉·默克尔现任德国总理,已担任德国最高领导人15年,在每个新年发表的致辞中都会总结前一年的德国国家与社会情况,对新的一年提出计划与期许。本研究通过介绍《默克尔新年讲话》汉德平行语料库的创建过程和语料库软件ParaConc的使用,以期为默克尔新年讲话研究提供更加全面、客观和深入的语料库数据支撑,为其它双语平行语料库的创建提供参考和借鉴,同时希望为中德研究的数字化整理和保存起到一定的促进作用。

关键词:默克尔 新年讲话 平行语料库 创建 意义

安格拉·多罗特娅·默克尔(Angela Dorothea Merkel,1954年7月17日-)现任德国总理、德国基督教民主联盟主席,从2005年至今已担任德国最高领导人15年。在任期间她因为务实的政策和熟练的外交手段多次获得其他国家的赞誉,很大程度上缓解了两德统一以来积压的各种经济、政治和文化矛盾,近年来德国经济恢复水平在欧洲多个国家中始终排行前列,她也被世界“女性人物影响力榜单”文章评论为21世纪最受瞩目的女人,世界上第二位“铁娘子”。每年默克尔都会发表一篇新年致辞,当中会总结前一年的德国国家与社会情况,对新的一年提出计划与期许。致辞的每一次发布备受德语界关注,也会有许多人第一时间将其翻译成中文,并分析其话语与内容。

语料库是指由依据一定抽样方法收集的自然出现语料构成的电子数据库,是按照研究目的和语料选择方法选择并有序排列的语言运用材料的汇集,语料库所收录语料的组成和特性不同,可用于语料库翻译学的不同研究领域。

建设平行语料库需要搜集相对应的双语或多语文本,然后进行深层次对齐处理。本研究主要介绍《默克尔新年讲话》汉德平行语料库的创建与意义,借助语料库来分析默克尔新年讲话内容,希望能为中德文化的交流与传播新的研究范式和视角,同时也为德汉语料库的研究提供借鉴意义。

一.翻译语料库

20 世纪90年代英国曼彻斯特大学的Mona Baker开始了基于语料库的翻译研究,并带领研究团队建立了世界上第一个翻译英语语料库。语料库凭借电子计算机操作系统和相关语料库软件,对所收集语料进行技术处理,实现了语料的自动存储、自动检索和自动统计。这一特点极大地方便了研究人员应用语料库开展语言学、文学和翻译学等相关课题的研究。

本研究所采用的是平行语料库,区别于其他语料库最典型的特征是预料之间的平行对齐。平行对齐是指源语文本和目的语文本具体单位之间的对应关系和翻译关系。根根据对齐的语言层面,平行对齐分为词汇、语句和段落等层面的对齐,此项工作需要凭借软件和人工干预共同来完成,耗时费力,需要研究者的耐心与细心。

二.《默克尔新年讲话》汉德平行语料库的创建

John Sinclair(1991)指出:“任何语料库研究的开端是语料库建设本身。就语料库拟收录的语料和选取语料的组织方式所作出的决定制约着语料库研究的后续发展。”作为语料库翻译学不可或缺的研究平台,译学研究语料库的建设是任何从事该领域研究的学者无法回避的问题,也是语料库翻译学研究至关重要的第一步。

本研究创造的语料库是《默克尔新年讲话(2018年-2021年)》汉德平行语料库,建库的目的是分析德国总理默克尔2018年-2021年新年讲话中的关键词、高频词及对应翻译,探讨其中的意义。

1.语料采集与预加工

语料采集是指将书面语料和口语语料输入电脑,并以电子文本形式储存。本研究的语料库创建首先要采集默克尔总理2018年至2021年的新年致辞,其语料采集与预加工步骤如下:

第一, 通过环球网、路透社网站、明镜周刊等媒体,找到默克尔总理2018年至2021年的新年致辞,其中包括原视频内容与官方文本内容及翻译。

第二, 将采集到的语料内容录入电脑和进行整理,也就是将致辞内容进行标准数字化转换,将一些拼写错误的字母进行改正,单词拼写识别错误需要人工逐个校对,以及要把德语中的特殊字母?覿,?觟,ü,?覻改为可识别的字母:ae,oe,ue,ss。

第三, 需要用word中的“查找替换”将文本的中文标点符号“。”和德语标点符号“.”改为段落标记符号,即“。^p”,这样便能把文本以句子为单位分隔开。

2.语料的分词

汉语以字为单位,汉字之间没有空格。德语以词为单位,词与词之间以空格隔开。由于德汉语言之间的这一差异,我们往往很难以词汇为单位对汉语语料进行统计和分析,而且,国外研发的语料库软件常常不能识别未经分词处理的汉语语料。因此,有必要对汉语语料进行分词处理。目前,使用中国科学院计算技术研究所自主开发的汉语词法分析软件ICTCLAS3.0或78901中文切词工具, 可以对汉语语料进行自动分词处理。

本研究运用78901中文切词工具,对默克爾致辞内容的中文翻译进行切词,在此以默克尔2021年新年致辞中文翻译第一句为例:

“亲爱的同胞:过去是怎样的一年啊!2020年发生了一些世界都未曾预料的事情。”

使用切词工具后,如下:

“亲爱的同胞:过去是怎样的一年啊!2020年发生了一些世界都未曾预料的事情。”

由此可以看到,通过切词软件,中文文本以词为单位进行了分割,以此可以更好地对应德语单词,进行语料对齐与语料分析。

3.双语语料的平行对齐

双语语料的平行对齐是指源语语料与目的语语料之间的翻译关系或对应关系,具体表现为篇章、段落、语句和词汇等四个层面的对齐。其中,最常见的是语句对齐。

语料对齐的难度很大,因为源语和目的语译文在语句层面并不总是一一对应的。翻译过程中,由于语言文化间的差异,译者往往将一个源语语句译作多个目的语语句,或把多个源语语句译作一个目的语语句。语句层面的对齐需要借助于软件应用和人工干预相结合的方式来实现。软件Tmxmall、 Trados、wordsmith 等都可以实现双语自动对齐。本语料库的建设主要采用了Tmxmall对齐软件,取对齐界面例句,如下所示:

“2020年发生了一些世界都未曾预料的事情。”

“2020 ist etwas über uns gekommen, womit die Welt nicht gerechnet hatte.”

“一种陌生的病毒侵入我们的身体,我们的生活。”

“Ein bis dahin unbekanntes Virus dringt in unsere K?觟rper und unsere Leben ein.”

三.《默克尔新年讲话》汉德平行语料库创建的意义

本研究选择ParaConc作为语料庫软件,1995年第一个版本诞生至今,ParaConc已经实现多语言文本的对齐、词频统计、热词搜索搭配搜索等多种功能。

打开ParaConc软件,导入在此之前已经对齐过的Text中文与德语文本,此时的导入结果,是软件读取文本的分段标记,某些语料语句的对齐会有误,则需凭借ParaConc软件对语料进行人工对齐处理:单机鼠标右键根据需要选择”merger with Previous sentence/segment” 或是”merger with next sentence/segment”的选项,以将德语句子合并前句或后句,使其与中文对应。

进行调整后,整理出2018-2021年《默克尔新年讲话》汉德平行语料库高频词搜表格:

从数据结果看,默克尔总理2021年新年致辞的字数最多,约为1013字。其中,词汇“Pandemie(意为:大流行病)”和“Virus(意为:病毒)”各出现了6次,结合2020-2021年的国情,新冠病毒是各个国家的热词,默克尔总理也在本年的新年讲话中多次提到。检索这两个词汇可看到,默克尔总理有对病毒的突如其来和大范围侵袭表达担忧,也有对所有医护人员、病毒与疫苗研究人员、警卫、志愿者以及遵守规则的普通人表达感谢,也有对未来表达希望。2021年的致辞基本与大流行病相关。

2018-2020年的新年讲话字数波动不大,为800字左右。据检索,2020年出现频率较高的实词为“Menschen(意为:人们,人类)”,根据对该词的进一步检索发现,本年致辞聚焦于德国公民的就业、教育知识和气候问题。2019年的高频词为“安全”与“和平”,聚焦于世界公共问题,而2018年的高频词则为“工作”、“社会”与“团结”,更多关注的是民生问题。

本研究主要介绍了《默克尔新年讲话》汉德平行语料库的创建过程和意义,创建过程包括语料采集、语料对齐、语料分词和检索等。每个环节都要借助不同的软件,与此同时,也需要大量的人工投入,对每一个语料进行筛选与检查。创建意义是借助此汉德平行语料库,罗列出致辞中的高频词,为默克尔新年讲话的研究提供更全面、客观与深入的数据支撑,为中德研究的数字化整理和保存起到积极作用,同时也希望能为中德文化的交流与传播提供新的研究途径和视角。

参考文献

[1]胡开宝.语料库翻译学概论[M].上海交通大学出版社:上海,2011.

[2]冯丽君.贾平凹小说汉英平行语料库建设[J].商洛学院学报,2021,35(01):7-11.

[3]张伟红.《庄子》汉英平行语料库的创建:途径与意义[J].外国语言与文化,2020,4(04):125-132.

[4]胡开宝,田绪军.《政府工作报告》英译文本的语言特征与文本效果研究——一项基于语料库的研究[J].外国语文,2018,34(05):1-11.

[5]李静,任强.基于语料库的中外译者英译风格研究——以《管子》的两个英译本为例[J].山东理工大学学报(社会科学版),2021,37(01):72-77.

[6]胡开宝,毛鹏飞.国外语料库翻译学研究述评[J].当代语言学,2012(4).

[7]王华树.翻译技术简明教程[C].广州:世界图书出版公司,2019.

[8]葛囡囡. 语料库支持下的专利文献德汉翻译探究[D].北京外国语大学,2017.

[9]李小龙.《基于语料库对<论语>卫礼贤德译本的跨文化研究》出版[J].国际汉学,2020(03):93.

(作者单位:宁波大学外国语学院)

转载请注明:文章转载自 www.wk8.com.cn
本文地址:https://www.wk8.com.cn/xueshu/368717.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 wk8.com.cn

ICP备案号:晋ICP备2021003244-6号