张亚斌 赵胜男
摘要数字化辞书协同编纂系统是一个集数字化编辑加工、内容资源管理、内容资源修订为一体的数字编纂平台。该系统基于数字化业务流程对辞书的内容编辑和生产流程进行改造,充分利用全媒体语料库,采用基于XML的在线编排技术,实现内容的协同创作和审校,可使编辑人员摆脱大量机械性的工作,集中精力于智力创造工作,并在实际应用与逐步发展中充分利用已有出版资源,避免重复工作,提高工作效率,加快生产速度,节省成本。
关键词协同编纂辞书语料库流程管理辅助编纂
一、 引言
数字化辞书协同编纂系统是面向作者和编辑的内容生产创作平台,实现结构化内容的编纂、审校、管理和动态出版等全流程的数字化内容采编和辞书生产。协同编纂系统可以提升出版业务水平和生产能力、缩短辞书出版的周期、减少成本、节省人力资源。同时,在数字化、碎片化的基础上深度挖掘知识元,建设语料库,能够在实际应用与逐步发展中充分利用已有出版资源,避免重复工作,使出版社从传统的资源提供商向知识服务商转变,实现资源和知识的增值。
二、 概述
数字化辞书协同编纂系统的最重要目的是为辞书的编写做技术支撑。因此系统建设包含以下几个目标:
第一,设有协同编撰系统,为作者、编辑、设计和审核专家提供一个多人协同编辑、编排、批注、审核的工作环境,实现辞书生产精神劳动阶段的全面数字化转型升级。
第二,构建辞书编纂平台系列标准,主要包括为编纂工作构建条目元数据标准、XML格式标准、内容标引规范、知识描述体系标准、元数据应用规范,以及为编辑流程中的各项工作设定相应的各种规范。
第三,建设辞书语料库,直接支持协同编纂过程中的查询、引用,并及时回收资料素材和新版辞书资源及其元数据。
第四,建设专项检查工具集,最大限度地减少编纂活动的机械性工作量,利用计算机的运算能力,最大限度地提高所编纂辞书的质量。
为实现上述目标,辞书协同编纂系统平台主要包含内容创作编辑子系统、自动化流程管理子系统、全媒体语料库管理子系统、辅助编辑工具。它的主要框架结构如图1所示:
从图1可见,辞书协同编纂系统从内容资源、工作流程和工作方式等方面为辞书的编纂出版实现数字化转型做好了充分的准备。
三、 内容创作编辑子系统
内容创作编辑子系统是最为核心的子系统,主要面向辞书内容生产业务。整个子系统由全数字化的生产流程组成,基于XML元数据标准通过在线或离线方式完成辞书稿件,在平台上完成审稿、编辑加工、审定发稿流程,并进行结构化、碎片化加工处理,然后输出版式文件对接印刷型辞书生产,再输出文件到内容管理平台统一存储和管理,为辞书的数字出版服务。其核心功能以业务流程为主线将各个功能模块组合,各个功能模块之间相互协同和通信,完成一部辞书的内容生产过程。整个平台有一个集中工作平台,其示意界面如图2所示:
(一) 协同编辑
协同编辑是本子系统的核心功能模块,主要供多个作者进行协同创作和编辑人员处理稿件内容。编辑在选题立项后,首先是按选题策划报告的设想联系辞书主编,进行组稿。在主编提出辞书的词目单(或编纂方案)并经出版社审核通过后,编辑会同主编选择具体的撰稿作者,给各名作者分配编写任务。
作者可以登录平台在线编写条目;也可以离线利用格式模板文件按固定的格式写好稿件,再上传到系统。
1. 在线编写
作者登录系统以后进入个人工作界面,可以看到自己参与的选题列表。选择其中一个进入编辑界面后,系统自动显示分配的任务目录(词目单)列表,作者选择词目进行在线编写或修改。系统按段落编辑内容,支持图片、视频等内容的插入。
作者在线编写条目的过程中,系统可以适当开放出版社已有的内容资源库,包括图片库、视频库和已有辞书条目库,供作者参考、借鉴和引用。
2. 离线编写
离线编写时,作者可以先从平台上下载一个已经根据XML结构预设了部分内容域的模板。利用此模板,作者可直接在与Word软件类似的编辑界面上编写条目内容。完成编写的稿件上传到系统中后,系统会根据标注内容自动对稿件进行解析,生成半结构化的XML文档。
(二) 进度管理
进度管理主要是以项目管理的理念和方式对各个选题作者的创作过程和编辑工作过程进行全程监控和管理。责任编辑和出版社管理人员可以按书名、作者、时间多个维度实时查看各个选题的总体进展及各个作者的写作进度,查看他们完成的词条数量及其字数。系统能够对进度滞后的项目进行自动提示,并向相关作者发出提醒消息,督促按时完成编写任务。
(三) 合稿管理
合稿管理是把所有作者编写好的条目汇總组合起来,生成统一的初稿,提请主编审核、统稿、修改。
如果作者都是在线编写,则条目已经XML化,所以合稿时系统会根据模板自动生成固定格式的全书条目稿件,并输出为PDF文档或者Word文档,也可以用网页的形式输出。
作者离线用前述模板文件编写的条目,以用XML表示的内容单元存在。合稿时,系统先根据内容单元的从属关系,自动合并生成完整的XML格式的条目稿件,然后再组合成全书稿件。如果作者上传的稿件并非用前述模板文件编写,则需要先对稿件文档进行预处理,识别格式并从中抽取相关内容保存成XML文档,再由系统组合。
(四) 内容审校
内容审校模块包含众多子功能,用于对作者全部完成(即主编也已经审核过)的稿件进行在线审校。各级审稿人员填写的审稿意见都在线保存,后一级审稿人员可以查看前面各级审稿意见。
责任编辑进行初审时,可以先调用自动校对模块对稿件进行一次类似通读校对的校订。该模块基于海量的专业词典、错别字知识库和词语搭配知识库,对稿件进行全面扫描后,将发现的语言文字性错误按性质以不同的颜色显示,有助于编辑改正语言文字方面的简单差错,从而节省大量的时间。责任编辑按照稿件初审的规范要求,通读审核条目内容和体例后,再提交复审和终审。每一级审核人员对不合格的内容和体例都可以做出批注,甚至予以退稿。责任编辑根据终审意见进行处理: 凡是做退稿处理的稿件,联系辞书主编告知审稿意见,并在系统中进行撤销选题的操作;需要退修的稿件,告知修改意见或建议,请主编进行相应处理后,重新进入审稿流程;对经审稿同意出版的稿件,则进行编辑加工整理。完成编辑加工整理的稿件,再次提交复审者审核通过后,就可进入发稿程序。endprint
(五) 稿件管理
稿件管理模块主要是对选题的稿件内容进行管理和维护。包括两个方面,其一是对不同阶段和不同版本的稿件进行管理和维护,其二是对提交正式出版的最终版本稿件的XML内容进行管理。
作者每次提交稿件,系统就会自动根据日期生成一个新版本,并按时间先后顺序将各个版本的稿件关联,方便作者和责任编辑进行查看和管理。
责任编辑可以管理自己负责的所有选题,对各个选题的稿件内容进行更新和修改。社领导可以查看所有的选题稿件,可以查看不同版本的稿件,但对稿件对象和内容不能维护和管理。
(六) 发稿管理
发稿管理模块是对完成编辑加工并经过复审以后的稿件进行最终的内容审核。发稿一般是由总编或者社长一级的出版社领导来操作,具体由哪个人员执行,由后台的流程配置来设定。
发稿模块会形成一个稿件生产报告,展示整个编辑过程的相关统计数据,列出所有的稿件版本和各级审稿人员的审稿报告等,方便发稿人员对选题稿件有全面、详细的了解。
四、 全媒体语料库管理子系统
全媒体语料库是数字化辞书协同编纂系统的资源基础,直接支持协同编辑平台从中取用各种资源,并直接回收素材和资源及它们的元数据,进行有效管理和维护。其中的原始资源库包括排版文件、图片、书目、光盘数据、音频、视频、其他文件等。
全媒体语料库管理子系统可以有效收集、管理原始数据,还可根据不断更新的应用需求将加工好的成品数据分类归档,以方便日后更多应用。其主要特点包括:
1. 建立统一的数据标准,实现建库、信息发布、元数据管理、多库统一检索等功能。利用该管理系统,可将各种来源的文本、图片、视频、音频等不同媒体的信息从原始资源中分离出来,并统一保存到相应类型的核心资源数据库中。
2. 借助建成的核心资源数据库对所有的数字资源进行管理,实现查询和统计。
3. 利用自然语言理解技术与人工智能技术为各种数据设置合理的索引方式,使用户可以方便、快捷地在资源利用阶段对数字资源进行检索和利用。
(一) 字库管理模块
字库管理模块由三部分组成——由多种规格和字体的标准字库构成的字库群,与系统字库结构相适应的取字模程序和字模变换程序。
字库是汉字信息处理系统的重要组成部分,直接关系到汉字信息处理系统的性能。字库管理子系统面向程序员的接口功能是根据机内码、字体要求和字形要求把相应的字模信息送到指定的缓冲区。
(二) XML资源管理模块
XML资源管理模块主要对库中以XML文件格式储存的各种资源进行管理,具有多方面的功能。
1. XML存储
高性能地存储XML文档及片段数据。通过精巧的存储模式设计及压缩技术等实现对XML数据的原生、高效存储。
2. XML验证
在XML数据录入、更新,或者发出验证请求时,可以根据绑定的模式数据,对XML数据的合法性、完整性等数据语义信息进行验证。
3. XML索引
针对不同的应用需求和数据特点,为XML数据构建各种索引,包括基于数据内容的、基于数据结构的、面向全文的,等等。
4. XML查询
兼容标准化的XML查询语言,即XPath和XQuery,并针对具体业务需求提供个性化的扩展支持。
5. XML数据支持
XML可定义自我描述的文档架构,并且有RDF、XQL、DOM等附加标准的支持,通过XML可以实现异构数据库之间的相互操作,并可保持原有数据库的独立性。
6. XML备份与恢复
提供对数据的备份与恢复的完整解决方案,确保数据的安全与稳定。
7. XML安全管理
通过使用数据加密技术、基于角色的访问控制技术等,全方位地保护数据安全。
(三) 条目关联模块
条目关联模块主要以关联挖掘技术为核心,对采集到的条目元数据进行全面的智能分析和挖掘处理,揭示各条目信息之间、各知识元之间的显式关联关系和隐性关联关系,从而高效地进行条目的自动标引、关联与比较,并进行上下文分析,构建辞书各个版本之间的比對。同时对用户的访问日志进行挖掘分析,从而更好地为用户提供主动推送和精确检索等信息服务。
1. 与历版辞书条目的关联
依照通用关联规则进行分析后,从历版辞书数据库中调取相同或者相似的资源,供条目编写人员或编辑加工人员参考、借鉴。
2. 与网络百科条目的关联
依照通用关联规则进行分析后,自动对网络上的维基百科、百度百科、互动百科等网络资源进行搜索,提取相同或相似的内容信息资源,供条目编写人员或编辑加工人员参考、借鉴。
3. 关联挖掘
通用关联规则分析能够深入挖掘知识,有效地发现大量数据间的隐匿状关联关系。应用支持海量数据的关联规则分析,系统可以完成以下几个方面的关联分析,以向编辑提示条目之间的内容交叉关系:
(1) 关键词关联分析。通过挖掘分析关键词的同现关系和权重,挖掘出各个关键词之间的联系,从而通过关键词对标准数据进行导航。
(2) 词条之间建立关联。在不同条目之间根据内容相关度、关键词(主题词)等建立关联。
(3) 上下文关联分析。提取辞书中的重复字串,并进行上下文分析,充分考虑同音、缺词、别字等,过滤掉常用高频的词汇,保留不常用的词汇,然后比较这些字串的上下文,筛选出互相矛盾的地方供人工判断。
4. 内容揭示
内容揭示是在内容碎片化、关联挖掘的基础上,在条目内容单元上建立网状的关系,进一步揭示内容单元之间的关系,建立多维度的知识网络。endprint
五、 自动化流程管理子系统
自动化流程管理子系统为适应不同种类书刊在编辑生产过程中的业务多样性需求而提供灵活定制的功能。系统将各项业务拆分成最小的独立单元,结构性强,性能稳定,用户可自由设置业务模式、业务环节和任务功能。
用户首先需要按照业务类型新建一个流程或者编辑已有的一个流程。创建新流程以后,配置流程的各个阶段,并对各个阶段从流程节点库中选择节点进行配置,再配置节点提交的表单信息,并分配操作人员权限。
业务流程创建之后,系统通过业务流引擎的运用,按流程分别对各个业务项目实时监控,关注每个任务所处节点及其状态,查看每个节点上操作者的操作过程信息,分节点进行统计,并提示出现问题的相关环节,帮助管理者及时发现问题,解决问题。
监控模块还为其他业务系统提供接口,其他系统可以方便地查询到流程状态和各个节点上的过程信息。如在协同编纂过程中,责任编辑调用此功能模块就可以看到如图3所示的数据,以方便监控选题的进度。
流程管理中涉及的节点管理、表单管理、角色管理等功能,系统都设有专门的模块予以实现。这里就不展开细述了。
六、 辅助编纂工具集
辅助编纂工具集中集成参见条目检查工具、成套条目检查工具、明暗重复条目检查工具、专项检查工具、规范性检查工具、词目比较工具、统计工具、索引制作工具等一系列工具软件,辅助作者和编辑进行辞书的编纂。
(一) 参见条目检查工具
设置参见系统是辞书编纂中的一个重要环节。辞书要在异名同实条目之间、上下层次条目之间、成套条目之间、意义相近或相关条目之间建立参见关系。这项工作在辞书编写阶段实施,责任编辑需要对参见系统的设置进行复核、检查。参见条目检查工具主要帮助检查被参见条目是否存在、所使用的参见标记是否符合体例统一规定。发现问题及时提请作者或编辑进行处理。
(二) 成套条目检查工具
成套条目检查工具主要针对一个学科或者具体某个学科方向的一整套条目,检查其中是否有重复或遗漏,是否设置了必要的参见,体例与表述形式是否相对一致等。
系统建立成套词语表,用户可以直接在成套词语表中填充、删除和修改;还提供在线检索功能和在线浏览功能,用户可以在线浏览,建立词语知识体系。
(三) 明暗重复条目检查工具
对同名同实的明交叉条目,在条目稿件集中拼合后,系统就可以很方便地进行处理,做出标记,提请主编或责任编辑解决。
对异名同实的暗交叉条目,处理的难度较大。系统利用前述关联挖掘技术,对条目释文内容进行与其他条目释文的比对分析,找出疑似暗交叉的条目,提请编辑核实处理。
(四) 专项检查工具
专项检查工具用于对辞书中涉及的历史纪年、古今地名、外国地名、机构名称等进行检查。
系统设有各种专门词语的标准数据库。专项检查工具可从条目中提取需核查的词语与数据库中的记录比对,将不匹配的条目提取出来,提请编辑进一步核实。经编辑确认后自动按数据库中的正确词语修改条目。
专项检查工具可以将拼音、外文、图片等相关数据临时组合在一起,以便檢查。
(五) 规范性检查工具
规范性检查工具主要用于检查异形词(包括普通语词中的异形词和科技名词的异形词)。将异形词与对应的规范词语存储在规范数据库(该数据库是开放性的,允许用户在使用过程中不断增加新的数据)中,规范性检查工具对条目释文进行检查,把其中疑似异形词的词语搜找出来,提请编辑处理。编辑确认必须修改的,系统能自动根据规范数据库中的记录把异形词更改成规范词。
(六) 条目比较工具
条目比较工具的功能主要是将两套或多套条目进行相互比较。系统在需要进行比较的那套条目中,逐条按词目直接调取本辞书前几个版本中或者其他类似辞书中的多个相应条目的内容,直观地展示在界面上,方便编辑进行内容的对比和修改。
(七) 索引制作工具
系统提供的索引制作工具,能够按照音序、部首序、笔画序、四角号码序和义序等制作相应的索引。前四种顺序的索引,依照相应的汉字定序方法设置有不同的索引模板,而义序索引需要事先依照知识体系建立意义分类表。
系统同时提供索引的编辑工具,编辑人员可以方便地按照不同情况设置不同的索引规则和索引符号。
辞书的编纂是一项耗费大量人力和物力的工作,计算机和信息技术在辞书编纂上的应用可为辞书出版提供一个新的平台,实现工具书全产业链的数字化改造。借助计算机处理速度快、存储容量大、检索能力强的优势,编辑人员得以摆脱了大量繁琐的机械性工作困扰,提高工作效率,从而为编辑人员赢得了更多的时间从事智力创意性的工作。
参考文献
1. 李黎.参见系统的专项检查——以《辞海》(第六版)科技条目为例.//上海市辞书学会秘书处编.辞书论集(二).上海: 辞书出版社,2012.
2. 李宇明.关于辞书现代化的思考.//曹右琦,孙茂松主编.中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集.北京: 清华大学出版社,2006.
3. 杨季文,吕强,朱巧明.字库管理子系统的设计与实现.中文信息,1995(2).
4. 张国强.数据库化的辞书编纂.//中国辞书学会学术委员会编.中国辞书论集2000.北京: 中国大百科全书出版社,2000.
(同方知网数字出版集团北京100093)
(责任编辑郎晶晶)endprint