江荔
摘 要:本体可以用于克服语义异质问题,但是直接使用不同的本体会将语义异质问题提升到更高的级别。本体匹配过程是通过确定两个本体中的实体之间的关系,从而解决两个本体间的异质问题。目前提出的各种本体匹配方法中,基于进化算法的本体匹配技术应用比较广泛,但是基于进化算法的本体匹配技术的效率和最后获取的本体匹配结果的质量都差强人意。为了解决这一问题,本文在提出了一种新的基于NSGA-II的本体匹配技术。在本文的工作中,提出了一种新的基于信息论的相似度度量技术,为本体匹配问题构建了一个多目标的优化模型,针对性地设计了一种NSGA-II算法以求解该问题。实验结果表明我们的方案是有效的。
关键词:本体匹配技术 NSGA-II 进化算法 相似度度量技术
中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2017)12(b)-0129-02
本体被认为是一种实现异质语义数据源交互的方案。然而由于人的主观性,同一个实体(如类、属性或个体)在不同的本体中可能用不同的名称或方式来定义。因此,直接使用不同的本体会将语义异质问题提升到更高的级别。本体匹配过程是通过确定两个本体中的实体之间的关系,从而解决两个本体间的异质问题。当本体规模庞大的时候,手动匹配本体是不可能的,因此人们近年来提出了各种本体匹配技术。通过各种能够提供本体元素之间相似度数值的相似度度量技术,本体匹配技术能够识别本体中的元素是否相同。总体上来说,相似度度量技术可以分3种:一种是基于字面的,一种是基于语言学的,还有一种是基于分类结构的。基于字面的相似度度量技术计算本体实体名称的字符串编辑距离。基于语言学的相似度度量技术通过电子词典来(如WordNet)来确定本体实体名称之间的同义关系。基于分类结构的相似度度量技术通过测试本体周边实体的相似度来估算该实体的相似度值。然而,上述任何一种相似度度量技术的性能都无法做到在所有的应用场合中都能比其他技术好,严重影响了本体匹配结果的质量。因此,如何设计一种高语义识别能力的相似度度量技术是本体匹配技术的关键。
1 相似度度量技术
除此之外,当两个待匹配本体中拥有的实体规模十分庞大的时候,从某种程度上来说,进化算法通常会被用于计算本体匹配结果。最著名的基于遗传算法的本体匹配技术是GOAL,它的本体匹配结果是通过遗传算法来确定最优的相似度度量技术的集成权重,参考的方案详见参考文献。但是这些方法只用了一种本体匹配结果的质量度量指标来评价本体匹配方案,可能导致本体匹配结果在进化过程中有偏好地改进,降低了最终的本体匹配的水平,同时对已有的基于进化算法的本体匹配技术时间消耗很大。因此,如何设计一种高效的基于进化算法的本体匹配技术是本体匹配领域的另一个挑战。
相似度度量技术是本体匹配技术的基础。本文引入了香农的信息理论,提出一种新的语义相似度度量技术。该技术能够组合基于字面的、语言学的和分类结构的相似度度量技术的特点以计算实体的相似度值。具体来说,本文的方法是通过实体提供的信息量来计算它们之间的相似度值。为了准确估计实体的信息量,本文提出通过本体的分类结构来获取实体内部的和其所有子类的信息以构建实体的信息档案,然后对于本体中的两个实体,通过以下的非对称度量的方式来计算二者的相似度值。当获取某个本体匹配结果之后,相应的相似度矩阵可以按照如下方法生成:矩阵的行列分别代表两个本体中的实体,矩阵中的元素代表相应实体的相似度值,过滤掉相似度矩阵中可信度不高的匹配结果。
2 基于实例的NSGA-II算法
2.1 基于实例的本体匹配多目标优化模型
这里我们预先定义好两个匹配本体OA和OZ,本体匹配问题的多目标优化模型如下:假设n是本体OA中的实例个数,m是本体OZ中的实例个数。群体中的每个个体是一个长度为n+1的一维数组,将当前代总群和父代种群放在一起,取出冗余的个体之后,依据NSGA-II的非支配排序和拥挤度计算方案来选出下一代种群。
2.2 NSGA-II算法
NSGA-II算法有3个算子,即选择算子、交叉算子和变异算子。本文采用赌轮盘选择算子,该算子为每一个个体赋予一个正比于它们的适应度值的选择概率,这就使得适应度值最高的个体拥有最高概率产生下一代个体,而适应度值不是那么高的个体也有机会产生下一代个体。选择算子依据变异概率判断某个基因位上的元素是否需要产生变异。若变异发生在某个基因位上的话,将该基因位上的值由1变为0,或者由0变为1。
2.3 有效的提升策略
由于在适应度计算过程中需要读取不同的本体匹配结果,集成并评价,用时很大。且每次将要集成的本体匹配结果读入内存,内存消耗也很大。因此本文在运行算法之前,将所有的相似度度量技术对应的相似度矩阵一次读入内存以提高算法运行的效率。精英策略是指每一代拥有最高适应度值的个体都可以尝试成为精英个体,精英个体另外保存并在算法终止后返回给用户。
2.4 实验的结果与分析
实验采用本体匹配领域公认的2012年本体匹配评价竞赛(ontology alignment evaluation initiative,OAEI)的测试数据集,其中的数据是Benchmark中所有测试数据的结果的均值。同时为了区分已有的本体匹配系统,本文采用传统的recall、precision和f-measure重新度量,从而获取本体匹配结果。通过对给出的基于实例的NSGA-II方法的运行结果是30次独立运行后得出的平均结果,与通过随机方法和概念聚类算法构建的局部标准匹配比较的结果运行时间进行比较,实验结果表明,在测试数据集Benchmark中,基于实例的NSGA-II方法的解的f-measure排在第1位,precision排在第2位。在测试数据集Anatomy中,基于实例的NSGA-II方法的解的f-measure排在第2位,而precision排在第1位。在测试数据集Library中,基于实例的NSGA-II方法的解优于所有其他的本体匹配系统。3种测试数据集的结果表明,基于实例的NSGA-II算法是可行并且有效的,通过在本体匹配过程中使用本体中的实例信息可以大大提高本体匹配结果的准确性,具体体现在实验结果中较高的precision值。
3 结语
本文建立了一个全新的多目标优化模型,该模型匹配以查全率和查准率为目标的本体,并提出了新的相似度扩散算法和实例相似度度量技术,根据这种算法重新设计了个体编码方案,从而提出了一种新的基于实例的NSGA-II本体匹配方法。实验数据采用OAEI 2012的Benchmark、Anatomy和Library测试数据集,通过对2组本体30次独立运行后得出的平均结果表明,基于实例的NSGA-II本体匹配方法获取的本体匹配结果的质量在目前流行的本体匹配技术中排名前列,并且查准率和查全率有了明顯的提高。
参考文献
[1]陈亮.一种改进的本体匹配方法研究[D].吉林大学,2015.
[2]邹黎君.基于多策略的本体匹配研究[D].苏州大学,2013.
[3]任建欢.基于多策略的本体匹配系统设计与实现[D].东南大学,2015.
[4]崔金栋,徐宝祥.IOPE视角下网格服务本体匹配算法研究[J].现代图书情报技术,2014(15):10-17.
[5]薛醒思.基于NSGA-Ⅱ的大规模本体映射方法[J].计算机应用,2014(6):1622-1625.
[6]薛醒思,王金水.采用双向个体标注的本体匹配技术[J].福州大学学报:自然科学版,2016(1):64-70.