数字化辞书的技术基础

吴明致+刘天旸+张小东

摘要数字出版产业的迅猛发展使传统出版业面临新媒体和新业态的严峻挑战。实现辞书出版向数字化转型和融合发展，出版大量优质的数字化辞书，可以更好地满足用户的需要。广泛采用先进技术和生产方式，对加快辞书数字化转型，提高数字化辞书的质量，具有重要作用。文章根据我国辞书的特点、实现数字化转型的需求，扼要介绍可支持数字化辞书发展的计算机信息技术。

关键词辞书出版数字化技术基础

当今，以数字通信技术、多媒体交互技术、移动互联网技术为代表的技术革命正在改变和重塑传统出版业。数字出版以数字技术为核心，对传统出版理念、出版流程、传播方式发起了一场全方位的颠覆性创新。与传统出版相比，数字出版具有周期短、传输快、空间大、即时化、交互性、查阅方便、绿色环保等诸多优点。

辞书是图书中十分重要的一类，历来被视为“没有围墙的大学”“不开口的老师”，在方便用户解惑释疑、扩充知识、提高文化修养、顺利进行社会交际诸方面具有特殊的作用。辞书实现数字化转型发展，可借助计算机信息技术更好地为用户服务，多维度地满足用户需求。当然，因为数字出版的技术含量高，辞书数字化发展也极其需要先进的计算机信息技术支持。

从我国辞书界的现状来看，尚有相当多的辞书编纂者和辞书出版单位的出版专业技术人员，由于置身于非信息技术行业，对现今的计算机信息技术前沿状况不够了解，从而影响了采用已有先进技术来发展数字化辞书的主动性和积极性——或者根本不涉及数字出版，或者还在使用一些效率并不高的手段加工、制作数字化辞书，或者盲目地自行或委托相关企业重复研发一些技术系统。有鉴于此，本文拟对可以直接应用于数字化辞书的一些现有技术做简要的分析、介绍，以有助于加快辞书出版数字化转型的步伐。

一、多样化的内容展示技术

（一）支持全终端显示

随着互联网及移动互联网的发展，个人计算机、平板电脑、手机、手持阅读器等新媒介成为人们主要的信息渠道来源。与此相适应，使制作完成的数字化辞书自动适应用户接收终端的特点，在技术上已经没有任何障碍。数字化辞书能够很方便地同时支持PC端web服务、移动App及第三方应用内的使用场景，满足用户随时随地使用辞书的需求。

（二）支持富媒体形态

数字化辞书与传统纸质辞书的区别之一，就是“富媒体”，即可以同时运用多种媒体手段。在已经较为成熟的信息技术支持下，富媒体形态的数字化辞书已经能够实现这样一些功能：

1. 文本内容显示

采用流式排版技术，系统会根据用户使用的终端设备屏幕特点进行自适应显示，自动调整字行长度，保证在所有终端上均可完整显示整个字行，用户不必左右移动显示窗口就能顺利阅读。

对于一些非标准字符（也称“集外字”，如甲骨文、金文、篆文，古籍中的异体字、俗字，为辨识汉字形体或者展示汉字的笔画顺序而举的“缺胳膊少腿”的字例，等等），以往考虑到数字化辞书需在网络上传播而一般只能用图片形式置于文本内，不仅不能随意缩放和进行检索，而且常常不够清晰。现在对非标准字符已经能够准确地构造并通过网络在各种终端上正常显示，而且可与既有标准字库内的字符一样随意缩放、自如检索。

2. 图片内容显示

在用户浏览时，辞书中的图片会以缩略图的方式显示小图。用户点击图片后就会自动显示原始图片供用户仔细观看，用户还可按自己的需要对原始图片进行放大/缩小操作。数学公式、化合物分子式的显示，也与图片基本相同。

此外，纸质辞书中的图片只能从一个方向展现物品或者景色，而数字化辞书可利用360度全景技术生成全景视图，从而让图片中的对象自动或人机互动响应地做360度旋转，让用户逐一观察到物品的各个侧面或者四面八方的景象。利用动画展示技术，可以生动地表现物品内部的动态变化，如植物的生长机制、食物在人体内的消化过程、发动机的运行原理等。

3. 音频、视频内容播放

数字化辞书中如果包含用音频、视频方式表现的信息内容，用户利用辞书页面上设置的播放控制器，就可以根据自己的需要实现开始播放、暂停、停止播放等功能，通过相应的音频或视频信息来加深对辞书内容的理解。播放时显示的进度条能够随时告诉用户已经播放了多少内容、还有多少内容，音频、视频内容的总时长为多少等。

此外，音频、视频内容也可由用户选择设置自动播放与否，而播放视频内容时用户还可对全屏播放或自适应屏幕播放进行选择。

鉴于数字化辞书中音频与视频内容所包含的信息容量更加丰富，这些音频、视频内容有可能时长较长。数字化辞书可以帮助用户精确定位到想要查看的音频、视频片段，既可以节省时间，提高效率，又可以减少非必要的整个音频、视频文件传输的流量成本。

（三）支持多维度智能检索

多维度智能检索包括全文检索、单独资源检索、图片检索、音视频检索、全文关键词检索、跨库检索等方式，可满足用户对数字化辞书内容资源的全方位提取和利用。

在检索所采用的查询方法和检索结果的呈现上，通过相应的技术支持，数字化辞书也能够大大优化。根据不同用户的知识水平、使用习惯等，数字化辞书能够提供多角度的检索方法，不仅像纸质辞书那样可利用音序法、笔画笔形法、部首笔画法等在相应的索引中查询目标字词，还可通过在检索框内用多种输入方法（如直接打字、复制粘贴相应字符）输入目标字词查询，或者点击辞书中设置的“热词”通过超链接直接转到目标条目。

除此之外，数字化辞书还能实现“简繁体同查并现”，即无论用户提交的待检字词是简化字形式还是繁体字形式，检索系统能够自动将互相对应的简、繁体字视为同一个字进行查检，而呈现的检索结果也是既有简化字文本，又有繁体字文本。在進行跨库检索时，用户可以免除分别输入简化字和繁体字的繁琐。

数字化辞书还可以实现智能搜索，帮助用户更准确地查找到其需要的内容。借助人工智能技术手段，数字化辞书可以不再拘泥于用户所输入待查语句的字面本身，而是透过现象看本质，通过与知识库的结合，准确地捕捉到用户所输入内容的真正意图，并以此来进行搜索，从而更准确地向用户返回最符合其需求的搜索结果。endprint

用户的检索输入可以不限于文本输入方式，数字化辞书可结合语音识别技术来实现语音输入关键词。语音输入的语言单位不限于词（单音词或多音词），还可以是短语或短句。通过分词技术、语境分析技术、语义分析技术等方法，计算机能够较准确地识别用户意图，从而更便捷地满足用户需求。

二、数字化辞书资源加工与管理技术

（一）辞书资源结构化加工

对传统出版企业（尤其是专业的辞书出版企业）来说，将已有纸质辞书通过数字化加工制作成数字化辞书，是当前最为迫切的出版内容资源开发、利用、整合的途径。为此，需要对辞书出版资源进行结构化标引，以实现内容资源的汇聚与可控性。

将纸质辞书内容转化为二进制数字形态，不必耗费大量人力重新输入，可对辞书页面扫描后，利用光学字符识别（Optical Character Recognition，简称OCR）技术获得数字文档，对照原书校对后，再实施结构化加工。对已经采用数字形式保存的辞书资源（如电子排版文件，或者作者用计算机撰写的条目），可以直接进行结构化加工。

辞书资源数字化加工过程中的许多工作，诸如碎片结构化标引、格式转换、元数据标引等，都有相应的工具软件支持，可较快地形成采用XML（Extensible Markup Language，可扩展标记语言）定义的结构化数字文档。尤其是辞书，原本结构、格式就比一般图书规整（格型性是辞书的特征之一），结合人工智能和机器学习技术，资源加工的过程能够更加智能化，可以自动完成更多的工作，只在必要环节才需要人工介入处理。这就极大地提高了生产效率，节约了生产成本。

在辞书资源数字化加工過程中，针对音频、视频内容资源可以采用流媒体碎片化标引技术进行局部（即片段）标引，从而实现音频、视频内容的标记式“虚拟分割”。这种方法不同于物理分割文件，不会破坏音频、视频文件本身的完整性。

（二）辞书资源编辑加工

数字化协同编辑系统平台支持多用户共同在线工作。利用该平台进行新辞书的选题开发和审稿、编辑加工，可以大大提高工作效率，缩短出版周期。

辞书编纂对体例的要求特别高。以往辞书编辑在处理稿件时，除了审核内容的正误之外，常常需要花费大量时间对稿件体例进行修改、调整。数字化协同编辑系统平台能够按照具体辞书的特点，事先准备好各类条目的模板，作者编写条目时就像填表一样把有关内容置于相应的规定位置，而且有些模式化的用语可以让作者在规定的词表中选择。这样形成的辞书条目就可以保证体例统一、规整，有利于编辑集中精力于内容的审核、加工，而不必在体例上再耗费时间和精力。同时，作者和责任编辑及复审、终审人员都在同一平台上工作，相互沟通十分方便，可以在作者编写阶段就及时发现一些问题，并对原先所定体例中的不足之处进行完善。

数字化协同编辑系统平台不仅仅定位于辞书内容的编辑工作，更多地是用于各种数字出版产品的加工和制作，是一种全新的内容生产平台，其特点主要有：

第一，灵活多样的内容结构化重组。利用该平台，出版单位能够很方便地将已经实现碎片化、结构化的辞书资源灵活地重新开发、整合、增添多媒体表现方式等，生产出释疑解惑更加到位、更加切合用户需求的各种新辞书。

第二，在线的交互式排版。平台集成多种排版发布的模板，并与多种排版系统实现对接。技术编辑人员可以基于XML完成辞书内容的交互式排版，直接在线实现可视化的文本、表格、公式、图片、音频、视频、链接等各种元素的混合编排，再按照纸质辞书、一般数字辞书、交互式多媒体数字辞书等不同形态辞书产品的不同特点，选择相应的模板发布，真正达到“一次编辑、多元发布”。

第三，在线知识化标引。知识标引是数字化辞书开发、整合中很关键的一个环节，需要按照专业知识体系对辞书中的知识元、知识点等进行标引。需要由熟知学科、专业知识的专门人士来完成。作者和责任编辑是最了解辞书内容的，可由他们在平台上在线合作完成知识标引和主题标引。这可以使标引所用的关键词比较规整、统一。

第四，扎实掌握进度。辞书编纂常常是多人合作的项目，在数字化协同编辑系统平台上，主编和责任编辑都能随时把握各位编写者的工作进度，并针对存在的问题及时进行人力或工作任务量的调整，从而可保证辞书的编纂按预定计划完成。

（三）数字化辞书资源管理

数字资源管理技术是数字化辞书出版的底层支撑系统。它可将原来分散的文本、图片、音频、视频等多种形式的数字内容资源汇聚、整理、加工标引以后，统一存储在数字化全媒体资源库中进行管理、挖掘和服务。其核心目标是为数字化辞书出版提供一个集数据存储、管理、检索、加工、发布和服务于一身的资源服务中心，对各个业务系统提供数据支撑。

数字资源管理系统还支持版本管理，版权信息管理，以及资源的复用、导出管理。

此外，在数字化辞书的营销方面，有会员管理系统，按内容、时间、地域、用户数量灵活组合的多种计价模式，有用户数据采集分析等方面的新兴技术可供使用，以不断扩大数字化辞书的传播范围，提高营销的效率。此不赘述。

三、辞书的数字版权保护技术

发展和创新技术保护手段，可以有效地从源头上切断非法复制、传播和利用作品的途径。从技术方面对数字化辞书内容进行保护，是一种“未雨绸缪”的预防措施，比“事后补救”的保护方法更加有效。

数字版权保护技术已经能够解决以下几方面的问题：

一是数据内容保护。利用数据加密技术、数据包安装保护技术和数据授权控制技术，销售网站要从版权权利人那里得到数字化辞书的销售许可后才能向用户销售。用户通过网上支付方式购买使用权，获得授权后才能阅读辞书内容，进行各种查询，但是不能将整部辞书下载，并且销售的次数由软件自动计数，版权权利人可据以与销售网站进行款项结算。endprint

二是文本内容保护。利用相应的软件，版权权利人能够对用户的文本复制行为进行有效控制。最为严格的是严禁复制，用户只能阅读辞书文本内容，但是不能对屏幕上出现的内容进行包括打印在内的任何方式的复制，甚至连一般计算机操作系统自带的或第三方软件提供的“截屏”功能、屏幕录像功能等，都可被禁止。其次是受限复制，即允许用户在专门获得授权后，可以为善意的合理引用、搜集资料而适当复制辞书的部分词条，但是每次復制的字符数量是受到控制的，而且在24小时内只能复制一定的次数，过量复制会被版权保护系统自动禁止。

三是图片内容保护。通过数字水印技术，可以在辞书的图片中嵌入人类感官不能直接感知的隐蔽型版权标志。这样，如果有侵权者把从数字化辞书中复制下来的图片用于非法目的，版权权利人就可以很容易地鉴别相应图片的来源，并以此为证据请求法律保护。当然，如果用户出于善意目的复制图片，只要符合著作权法的规定，那就不会影响使用。离线库图片粉碎技术则对图片实施更加严格的版权保护，其实际效果与对文本的严禁复制类似。用户只有在其接收终端设备与权利人的数字化辞书发布服务器联机的状态下，才能正常看到辞书中的图片。一旦接收终端与服务器断开连接，图片就自动粉碎，变成无法辨认的乱码。显然，在这样的情况下，图片也是不能复制的。

四是内容篡改防范。利用这种技术，消费者对接收终端上呈现的文字、图片等内容，都只能观看，但是无法修改。这就能始终保证数字化辞书的内容不被他人歪曲、变更，有效地保护版权权利人的作品完整权。

四、结语

数字出版是以数据通信技术、移动互联网技术、多媒体技术、智能化技术等高新技术为基础，融合与传承人类文明和传统出版内容而发展起来的新兴出版业态，它的出现不会完全取代传统纸质出版物，但将在出版物市场中拓展出新的盈利空间和传播渠道。这为辞书出版带来了前所未有的生机与活力，为增强和完善辞书的使用价值与服务价值提供了现实的可能性。

辞书出版与数字信息技术的融合发展，是辞书出版的战略性转型，极具历史意义。借助于数字信息技术的大发展，打造辞书出版的新时代，是历史发展的必然趋势。传统的辞书编纂者和出版者要充分发挥自身优势，强强联合谋共赢，立足创新拓发展，积极利用新兴媒体和新技术改造编纂、出版流程，在跨媒体、多终端的数字化出版道路上探寻新的发展空间。

参考文献

1. 金翔宇，孙正兴，张福炎.一种中文文档的非受限无词典抽词方法.中文信息学报，2001（6）： 34—40.

2. 李广超，李欣.中国传统出版企业的数字化转型.今传媒，2014（12）： 77—79.

3. 李自满.传统出版企业数字化转型升级现状及对策——以中国商务出版社为例.出版广角，2015（5）： 34—36.

4. 王金凤.我国出版社数字出版的版权问题与对策研究.安徽大学硕士学位论文，2011.

5. 杨慧娟.传统出版向数字出版的转型及创新研究.郑州大学硕士学位论文，2013.

6. 曾伟，霍思远.数字出版版权保护存在的问题及对策研究.新闻界，2015（3）： 50—53.

7. 张国强.我国数字化辞书的现状与问题.辞书研究，2007（2）： 12—20.

8. 张绍麟.辞书与数字化研究.上海：上海辞书出版社，2005.

（吴明致大数据治理与服务重点实验室上海201203）

（刘天旸北京大学信息科学技术学院智能科学系北京100871）

（张小东上海精灵天下数字技术有限公司上海201210）

（责任编辑马沙）endprint

数字化辞书的技术基础

杂草学报相关栏目本月热门文章