王晓玉
摘要:文章探索了中古汉语研究型语料库的设计原则和具体构建方法。首先,明确了中古汉语语料库设计的总原则,并针对语料库构建过程中的每一个环节设立了分原则;其次,把语料库构建过程分为语料选取、语料加工、语料库管理及检索系统研发三大块,勾勒出了每一模块构建的具体流程和方法,并对构建环节中遇到的具体问题及对策做出了阐述。文章是对中古汉语研究型语料库构建过程和方法的总结,可以辅助人们更加深入地了解该语料库的总体概况和使用方法,对语料库理论的发展也可起到一定的补充作用。
关键词:语料库建设中古汉语语料标注语料检索
一、 前言
自20世纪80年代始,中古汉语研究取得了长足进展。然而遗憾的是,古汉语语料库的建设远远地落后于研究的进展。综观国内外研究现状,要么对中古的语料收录不多,要么没有进行精细加工。(董志翘2011)中古时期是汉语的质变期,中古汉语的研究对于理清汉语语音、词汇、语法等的发展脉络有着不可或缺的作用。现今语料库中收录的中古语料十分不足,而未做分词标注等深层加工又在很大程度上减弱了语料库的整体使用价值。为使中古汉语研究不断走向纵深,并有更加整体定性的研究方法和多层面的分析角度,建设深加工的研究型中古汉语语料库十分必要。
中古时期的语言面貌与现代很不相同,两者在语料库的构建上也必然存在差别。一方面,无论在语言学理论,还是语料库理论上,针对现代汉语的研究均更为成熟。特别是在分词标准、语法标注类别等方面,现代汉语成果颇多,不仅有权威的分词规范出版,句法分析、格语法、框架语法等多种语法研究也产生了大量研究成果。中古汉语及其语料库构建理论的相关研究则还很薄弱,尚有待进一步探索。另一方面,中古汉语语料库在构建技术上还比较落后,自动分词、自动标注的相关研究相对滞后,这不仅加大了人工操作的工作量,也不利于提高分词、标注的一致性,为语料库的构建质量埋下了隐患。除此之外,由于中古汉语只存留在文献中,并不会出现在日常交际中,这使得语料库在构建目的、加工方法、加工层级上与现代汉语语料库也有所不同。中古汉语语料库的构建目的较为单一,主要服务于汉语史研究和古汉语学习,这就要求在构建时更加注重传统句法、古代特殊语法、特殊语用现象的标注,以及疑难字的解析、与现代汉语的对译等。
中古汉语研究型语料库主要收录从东汉到隋的传世文献37本,除此之外还有汇集的诗歌杂帖及出土的中古文献。收录原始语料的库容约1000万字(化振红2014),加工后的库容将大大扩展,包括书籍库、句子库、词汇库、疑难字库、义项库、编码库六大不同层级的子库。语料库采用开源的MySQL数据库[1]对语料信息进行存取,本文拟就语料库构建的相关问题,进行较深入说明。
二、 语料库构建原则及方法
(一) 语料库构建目标及原则
中古汉语研究型语料库是基于中古汉语书面语的共时专语语料库,在建立语料库之初首先要明确的是语料库构建的目标和原则。
中古汉语语料库建设的主要目标有: 1) 提供经过校勘的中古文献已校注的电子版;2) 为中古各种词汇、语法、搭配等语言现象提供可进行统计的平台;3) 为中古文献提供可靠的释义,为机器翻译、语言学习领域提供基础材料;4) 为中古汉语语言研究提供大量好的语言实例。
中古汉语语料库设计遵循的总原则是: 1) 语料库的设计和建设在系统的理论语言学原则指导下进行;2) 语料库语料的构成有明确的语言学理论指导,按照一定比例收集语料,而不是中古文献的简单堆砌;3) 中古汉语研究型语料库作为中古时期语言运用的样本,须采用科学的方法确定各种语料的比例,使语料具有代表性;4) 语料加工时采用自动和人工相结合的方式;5) 语料库中语料以电子文本形式储存并且可以方便快捷地通过计算机对语料进行各种处理。
(二) 语料库模块划分
在明确构建目的和原则的基础上,初步确立了语料库构建所涉及的几个模块,具体如图1所示:
图1中“语料选取及整理”“语料加工”是针对具体语料进行的工作,是把选定、加工后的语料整合起来,以一定方式存储在数据库中。“语料库管理及使用”是提供管理和使用该数据库的平台,针对构建好的语料库设计管理、检索系统,以便为研究者提供共享服务。这三大模块在语料库构建中都至关重要,其中“语料选取及整理”是基础,“语料加工”是核心,这两者属语料库本体层,决定了语料库构建的质量。“语料库管理及使用”属语料库应用层,决定了语料库的功能和用户体验。这里先介绍本体层的两个环节。
(三) 语料选取及分类
语料是构成语料库的基础,语料的选取是影响语料库质量的重要因素。中古语料库所收录的绝大多数为东汉至隋朝时期的文獻,在选取语料时要遵循代表性、平衡性、关联性与区别度、特色性四大原则,(化振红2014)以保证对中古时期语言事实的覆盖率。入库的语料如表1所示:
由于影响语言全貌的内在因素有很多,单纯从某一特征来界定语料库的代表性、平衡性是不够的,萨默斯主张采用一种“广泛的客观定义的文本类型”(Leech 1991),基于该理论,本文主张从多个角度采用多种特征突出语料的区别度,如成书时代、作者、作者地域、类型、出土/传世文献、语体等,这就使得对语料库平衡性的界定突破了简单的线性描述。中古语料库在收录语料时,在确保语料规模的基础上,尽量均衡语料所具备的各种特征,并保证各种特征的值在所有特征值中不是独一份的(除“作者”外),从而提高语料库的代表性和平衡性。
中古时期的文献虽然以文言为主,但古白话已经开始兴起,文献中的口语成分在数量上虽然比不上文言成分,其增量也十分可观。然而文献中的口语成分与书面语成分并不是截然分开的,而是相互混杂、难以剥离的,比如,不少汉译佛经的受众是广大劳动人民,为了便于传播,其口语化程度更深;农书、医书强调实用性,口语性也较为突出,等等。基于中古汉语的这一特点,再加上目前市面上已有的文献情况,中古语料库确定各种语料的大致收录比例如表1,其中官修正史和汉译佛典类语料现存最多,也最具代表性,因此收录数量也分别为最多、次多;其次分别是出土文献、笔记小说、诗歌等。
除此之外,对语料的加工方式及层次也进行了分类。标记型指对分词后的语料仅进行句法层面的标注,加工层级较浅;标注型指对分词后的语料进行句法、语义、语用等方面的标注,加工层级较深;而自动型指仅借助中古汉语分词软件对语料进行分词的粗加工。从表1可以看出,目前中古汉语语料库中绝大多数为深加工语料,标注型与标记型语料的比例将近1∶6。
(四) 语料加工
语料库作为一种研究资源,其价值不能仅仅通过规模来衡量,语料库更重要的价值在于通过加工给语料库带来的“附加”价值。这种“附加”价值就是对语料库进行多种有用语言信息的加工标注,以扩展语料库的语言信息含量,从而对语言研究做出更大贡献。生语料库[2](尤其是汉语)包含的词法和句法等信息非常少,因此其应用价值也就相对有限。分词是汉语语料库建设的基础性工作,也是进行语料标注的前提,而词是从句子中提取出来的。因此,中古语料库语料加工流程包括断句、分词、标注三个部分,具体如图2所示。
图2中,断句是把文本拆成长短合宜的句子,并对句子进行篇章、书籍页码等相关信息的标注;分词是把断句后的句子根据中古时期语言的实际使用情况拆分为词语;标注是对拆分后的词语进行词性、句法、义项、按语等相关信息的标注。中古语料库中的断句过程相对简单,不赘述,这里主要介绍分词和标注两大部分。
1. 分词
汉语的词没有形式上的标记,因而分词对于汉语来说是一件麻烦事。为了确保分词的正确性和一致性[3],首先需要确立分词规范。中古汉语分词的难点已有专文论述(化振红2014),分词规范的细则也将另文阐释。中古汉语语料库的分词采取人工分词和自动分词两种方法。人工分词是逐句手工录入,并参考上下文对句子结构以词为单位分析判断并逐条录入,非常耗费人力和物力。自动分词采用CRF分词模型(陈晴2005),在模版中加入古汉语音韵、构字等信息,以提高分词正确率,详情另有专文论述(石民,李斌,陈小荷2010)。需要指出的是该论文的实验对象是先秦文献,先秦文献与中古文献存在一定差异,再加上中古文献内部本身存在着很大的区别度(陈小荷,冯敏萱,徐润华等2013),自动分词的准确率不是很高,目前仅在80%~90%,但已成倍提高了人工分词的效率。现今仍需通过提高分词一致性、细化分词规范、调整训练数据等方法进一步提高分词的准确率。
2. 标注
为了能够从语料库中抽取出更多有用信息,必须对语料进行标注。语料库是供许多带着不同目的的用户使用的。数字化手段让研究者能从多角度对多层次带标注语料进行数据挖掘,大大拓展了语言研究的深度和广度,有些研究目的甚至连语料库设计者都不曾想到过。因此,语料库的多层次标注很重要。中古语料的标注应遵循两个基本原则:
一是语料加工分为篇、章、句、词四个层级,由大到小对这几个层级进行标注。
二是标注资源具有复用性。语料库的标注昂贵且耗时,如果能复用就物有所值了。为保证语料库的复用性,需使每本文献、每层标注信息有足够的独立性,改变某文献、某层的标注信息不会对其他语料产生影响。
黄昌宁等(2002)指出,目前语言各层面的标注发展很不平衡。发展较快的有词汇层、句法层、语音层和音位层等,今后应重点加强语义层和语用层的标注。(黄昌宁,李涓子2002)由于中古时期汉语的语音系统与今天相比有很大不同,语音标注困难很大且并没有很强的实用性。语料库的标注取决于语料库的整体设计及具体研究目的,同时也是一个重要的检索依据。(梁茂成,李文中,許家金2010)中古语料库的标注信息宜涵盖篇章、词汇、句法、语义、语用各层,并对文献中涉及的疑难字以图片格式进行收录标注。据此,中古语料库中的标注从大到小包括以下五个方面。
(1) 语篇标注。语篇标注包括文本来源、版本、朝代、作者等相关信息。如果语料源于书籍,该书籍的版本、页码信息等也会标注出来。篇章书籍信息是古文献、古汉语研究专家进行相关研究的基本信息。语篇标注和校勘后的文献构成中古语料库中独立的书籍库。
(2) 句子标注。句子标注是把语篇中的句子标记上文本自身的信息,以便管理者统一管理语料库中的语料。常用的文本信息包括行分割符、行数、章、节、段落等,中古语料库中选取“章节段句”这四层信息组成编码对句子进行标注,形成句子标记。该标注信息属于篇章层,但在词汇层会自动生成词汇所从属句子的句子标记,从而使词汇层可以独立于句子层。该标记不仅方便语料库管理者统一管理语料,而且是词汇和句子进行关联的中介,为检索词汇时可以查询到上下文信息提供了条件。句子标注连同句子形成了句子库。
(3) 词汇标注。词汇标注是指对词汇从语法地位、词性、释义、用法四个方面进行标注,分别称为“句法标注”“词性标注”“义项标注”“用法标注”。其中词的句法、词性、用法标注信息均为封闭类,如表2所示:
由表2可知,句法标注、词性标注属于句法层;用法标注的层次比较复杂,大部分属于语用层,其中“古今字”“通假字”“假借字”属于汉字层面;义项标注属于语义层。义项标注后的词条汇总形成了义项库,句法、词性、用法标注信息与词汇共同形成了词库。
词汇标注中,尤其值得一提的是语义层的义项标注,它在中古语料库的构建中是一项十分重要的基础性工作。如果把古汉语中每个词的现代意义搞清楚,基本语义也就理解了。义项标注信息和中古文献信息形成了古今平行对比语料,因此,义项标注在中古语料库中是重中之重。为了提高义项标注的速度,避免把时间过多地花费在查阅相关资料上,中古语料库中设立了通用义项库,义项库的构成如图3所示:
中古语料库中的义项库目前共包括不重复的541456条义项,随着语料库构建过程中自拟义项的增加和其他相关研究成果的录入,义项库的库容仍会进一步增加。
(4) 按语标注。传世文献在流传过程中不可避免地会产生一些讹误,甚至会出现不同的文本;再加上时代的限制和编纂者认识上的局限,词典对古代文献的释义、对最早文献的引例也难免会有所疏漏。这种在对文本标注时需要特别说明的信息可放在按语中。按语信息可以避免研究者重复前人已进行过的工作,对研究工作会起到一定辅助作用。
(5) 疑难字标注。中古文献中存在着一些现代字库中不支持的字,还有一些出土文献中的字尚未能完全辨识。针对这些疑难字,语料库专门设置疑难字库,以图片的形式存储,并对该疑难字进行编号,通过编号可定位到该疑难字的上下文信息及语义信息。
使用Access进行标注的主界面设计图如图4所示:
综上可知,中古研究型语料库由其所包含文本的书籍、句子、词汇、义项、疑难字信息(分别对应于上图中的“shuji、juzi、cihui、yixiang、quezi”五张表)组成,包含书籍库、句子库、词汇库、义项库、疑难字库五大子库。此外,为了方便语料库的管理和使用,语料库中还设有用户信息库。
三、 检索管理系统研发
语料库不仅是文本的集合,它还应该具有良好的存储、扩展、检索、反馈、修正等性能,以便各种研究人员都能从中得到自己所需要的信息。为方便语料库的管理和使用,我们针对中古语料库研发了检索管理系统,其功能如图5所示。
(一) 管理系统
管理系统是提供给语料库内部成员使用以便操作和管理语料库的页面管理系统。它主要提供了书籍和疑难字的增加、删除、查询功能。书籍的管理功能是以已加工的语料作为对象按书籍为单位进行的,包括书籍库、句子库、词汇库、义项库。对疑难字的管理直接以疑难字库为单位,每个疑难字的记录中又有它所对应的语料及篇章段信息。如果需要对单个语料中的标注信息进行更改维护,无须直接操作语料库中的数据,只要在未导入的语料版本中直接通过Access数据库进行修改,确认无误后再次导入数据库即可。
(二) 检索系统
语料库建立之后将提供给研究者使用,使他们能够访问语料库内容,对相关语言现象进行分析研究。检索系统是实现语料库共享的必要条件,也是语料库应该向用户提供的基本工具。基于检索系统在语料库研发中的重要地位,中古语料库检索系统满足以下几个条件。
1. 检索条件多样化
检索条件设置得是否适宜、专业,这直接决定了语料库的用户功能适用性,也影响着使用者对整个检索系统的使用体验。由图5可知,中古语料库具有五种主要的查询方式:
(1) 标记型查询。检索条件是同一词的词形、词性、句法三种信息的组合。
(2) 标注型查询。检索条件是同一词的词形、句法、义项三种信息的组合。
(3) 组合查询。检索条件是两个不同词的逻辑关系组合,包括相邻、同句、或、非四种逻辑关系。其中“相邻”指这两个选定的词处于同一句子语料中的相邻位置;“同句”指它们处于同一句语料,但不是相邻位置;“或”指检索结果中包含这两个选定词中任何一个;“非”指检索结果中包含前一个选定词但不包含后一个选定词。
(4) 对比查询。检索条件是同一或不同的两个词的词形、句法、书籍信息的组合。用于对同一词的不同句法地位或所在文献(或者不同词的不同句法地位或所在文献)进行对比检索。
(5) 疑难字查询。检索条件为书籍、疑难字编号两种信息的组合。
除了这五种基本检索功能外,中古语料库还实现了检索结果是否附加上下文信息的可选项。还可以针对词的不同特征选择不同的查询范围,如高频词可以选择某本专书查询来减小用例的查询范围,低频词可以选择全语料库查询来扩大用例的查询范围。
2. 结果輸出方便快捷,且易于保存
中古语料库检索系统的输出结果以网页形式呈现,可直接保存为文本。
3. 解读清晰易懂
检索系统页面上不存在语料库设计时所使用的内部编码(如用法码“RM01”代表用法“姓加名”),内部编码均以转码形式转换为自然词汇,符合使用者的操作习惯,不需要研究者再去过多学习语料库操作规范,且转码后整个检索系统的页面显得更加清晰易懂。
4. 具有开放性和可维护性
整个语料库通过检索系统实现开放性,通过数据库维护或管理系统实现可维护性。用户在使用检索系统时如需交流意见,可在页面上直接进行反馈,反馈信息会以邮件的形式发送给语料库管理员,由管理员收集整理后提交给语料库维护专业人员进行讨论和回复。
四、 中古语料库的应用
(一) 汉语史研究
中古语料库最基本的服务对象是汉语史研究人员。由于在语篇、句子、词汇等多个层面对文献进行了标注,它可以支持多种检索方式,汉语史研究人员利用这些检索结果可以进行特定的语言学研究,例如以下四个方面的应用:
第一,使用中古语料库中最基本的句法、义项、特定句式、词性、疑难字查询、统计功能,以辅助相关的语言学研究及语文教学。
第二,根据不同的研究目的,可对句法、义项、词性三个条件变换各种组合进行查询、统计,可用以辅助对中古时期特定词汇、句法的研究。
第三,根据字词的使用频率统计结果,大致确定中古时期常用词的范围,然后结合句法、义项、语用查询来研究常用词在句法成分、语义等方面的应用、变化情况。
第四,检索同一词汇、句法结构在各个文献中的使用情况,以对不同类别、时期、作者的文献语言风格进行对比研究。
(二) 中古汉语词典编纂
中古汉语语料库收录了大批中古时期的文献,为词典编纂提供了大量可供筛选的例证。此外,语料库中对每个词进行了词性、句法、义项等方面的标注,标注时主要采用人工方法,在参考各种权威中古汉语词典的基础上,对各个词的义项、用法及例证进行考证、补充、修正,此外还对人名、地名、称号、离合式词等进行了语用标注。这些标注信息可以提供中古时期每个词汇各个层面的统计信息,为中古汉语断代词典的编纂提供了直接依据,专家只需根据分词情况对检索到的例证进行筛选,不仅为词项赋义提供了客观标准,也保证了词典可以真实反映中古时期的语言面貌,同时也大大减少了词典编纂人员的工作强度、缩短了编纂周期。
(三) 语言教学及文化研究
中古汉语语料库可以直接或间接用于中古文献的教学。不仅老师可以利用语料库向学生展示某些特定语法范畴、词汇在中古时期的使用情况,学生也可以自己利用语料库来检索词的用法、搭配、词义间的细微差别等,也就是所谓的数据驱动学习。这种学习方法不仅能为学生营造一个真实的语境,而且能提供一种探索语言的手段,对教学的意义是显而易见的。
除此之外,中古汉语语料库收录了中古时期多个领域(如历史、宗教、医学、农业等)的多本专书,并对这些书做了校勘、分词、标注,这就为相关领域的文化研究提供了可靠的电子检索资源。
五、 结语
中古汉语研究型语料库是我国第一个针对中古时期文献的断代专语语料库,目前在该语料库建设中仍不可避免地存在一些问题,随着分词规范进一步细化、分词一致性的提高、对中古词汇特点的深入了解、自动分词正确率的提升,这些问题也将逐步得到解决。该语料库目前已应用于中古时期专书、词汇、语法等方面的研究,并产生了一些成果。随着语料库的构建完成并实现共享,词典编纂、归纳性语法、语义搭配等相关应用研究不难预见,而更深层次的语言研究及其他专项应用研究也等待诸位同仁共同来发掘。
附注
[1]MySQL是一種开放源代码的关系型数据库管理系统,具有速度快、可靠性高和适应性强等优点。在不需要事务化处理的情况下,MySQL是管理内容最好的选择。
[2]生语料指收集以后未经加工的语料,生语料库指收录生语料的数据库;与此相对,熟语料指经过加工的语料。
[3]在保持语义同一性的前提下,结构体在语料库中的分合是否始终一致,如“猪肉”是否始终保持为一个整体,或者始终分开。(孙茂松1999: 90—93)
参考文献
1. 陈晴.基于条件随机场的自动分词技术的研究.东北大学硕士学位论文.2005.
2. 陈小荷,冯敏萱,徐润华等.先秦文献信息处理.北京: 世界图书出版公司,2013.
3. 董志翘.为中古汉语研究夯实基础——“中古汉语研究型语料库”建设琐议.燕山大学学报,2011(1).
4. 国家技术监督局.信息处理用现代汉语分词规范.北京: 中国标准出版社,1993.
5. 化振红.深加工中古汉语语料库建设的若干问题.西南大学学报,2014(3).
6. 黄昌宁,李涓子.语料库语言学.北京: 商务印书馆,2002.
7. 梁茂成,李文中,许家金.语料库应用教程.北京: 外语教学与研究出版社,2010.
8. 石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究.中文信息学报,2010(2).
9. 孙茂松.谈谈汉语分词语料库的一致性问题.语言文字应用,1999(2).
10. Leech G. The State of Art in Corpus Linguistics. English Corpus Linguistics, 1991(1): 1—16.
(南京师范大学中文系南京210000)
(责任编辑马沙)