张永富+李志宏+李军军+程树东
摘 要:提出一种基于自然语言处理模型的环境科学命名实体识别方法,该方法以自然语言处理模型为核心,在通用分词库的基础上加入环保专业分词库和外部特征识别技术,实现了从环评文件中自动提取准确的环境科学命名实体信息;同时采用MCTS蒙特卡洛树构建搜索引擎,提高了命名实体识别过程的搜索效率。
关键词:自然语言处理 命名实体识别 信息提取 环境影响评价
中图分类号:TP312 文献标识码:A 文章编号:1674-098X(2017)07(c)-0120-02
目前,在环保行业中,环境影响评价文件的数量日趋庞大,资料集成度越来越高,随着互联网和信息技术的发展,信息化管理技术已在各层次各系统广泛应用[1]。
然而,环评项目的资料中包含多项指标(如总投资、建设性质、行业等),也无法实现自动提取和统计汇总,环评项目的各种数据信息无法实现电子化,不能得到及时有效的利用。环境统计工作量大、耗时长,单纯地依靠人工完成,准确性难以保证。为减轻环评工作人员的劳动强度,提高工作效率,实施电子文件归档和管理制度,设计了一种基于自然语言处理的环境科学命名实体识别方法,实现环评信息的智能抽取。
1 理论基础
1.1 环境影响评价
环境影响评价是指对规划和建设项目实施后可能造成的环境影响进行分析、预测和评估,提出预防或者减轻不良环境影响的对策与措施,进行跟踪监测的方法与制度[2]。环境影响评价可以为开发建设活动的决策提供科学依据,为经济建设的合理布局提供科学依据,为确定某一地区的经济发展方向和规模、制定区域经济发展规划及相应环保规划提供科学依据,为制定环境保护对策和进行科学的环境管理提供依据,促进相关环境科学技术的发展。
1.2 自然语言处理
自然语言处理(Natural Language Processing,NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术[3]。自然语言处理又称自然语言理解(Natural Language Understanding,NLU),是人工智能研究的重要内容之一,可以定义为研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。
1.3 命名实体识别
命名实体(NE)是指人们感兴趣的特定的专有名词(如组织机构名)和特定的数量词(时间和数字)。命名实体识别的任务被定义为识别出文本中出现的专有名称和有意义的数量短语并加以归类。中文NE的识别研究开始较晚,同英文实体识别相比,汉语NE的识别更难。汉语文本没有类似英文文本中空格之类的显示标示词边界的标识符,分词和命名实体相互影响,缺乏明显的特征标志;组织复杂,长短不一,没有规律;缩略短语很多;实体名相互嵌套;缺少大规模语料库。
1.4 条件随机场模型
条件随机场模型CRF由Lafferty等人于2001年提出,又称为马尔可夫随机域,是一种用于标注和切分有序数据的条件概率模型。从形式上来说CRF可以看作是一种无向图模型[4],考察给定输入序列的标注序列的条件概率。
2 基于NLP的环评信息提取方法
2.1 基本原理
如图1所示,以自然语言处理引擎为核心,采用文档处理器对环评文件进行预处理,运用蒙特卡洛树搜索算法,结合外部特征识别器和环评专业分词库,从环评文件中提取目标信息。
2.2 关键算法
2.2.1 MCTS蒙特卡洛树
通过各个代表行业的环评报告书样本,建立MCTS蒙特卡洛树,通过对这些数据的挖掘,建立智能处理模型。当某个节点的被访问次数超过了一定的门限值,则在蒙特卡罗树上进一步展开下一级别的搜索。
最佳权重选择算法:
其中,R为正则表达式匹配,t为要匹配的文本R(t)表示,正则表达式匹配后的值,s为要匹配的值,函数d为编辑距离。这样通过度量性能,枚举所有的可能性并选取最大/小值,获取最佳权重。
2.2.2 环评专业分词库
创建外部特征识别器,引入外部特征,包括:组织机构字典、污染物单位名称字典、污染物数值范围(浓度、排放量等)字典、环评专业名词字典(分词中应用)和全国行政编制(省市区县村)字典等。
3 应用结果分析
3.1 采用MCTS蒙特卡洛树
采用采用MCTS蒙特卡洛树算法之后,通過蒙卡章节训练,搜索时间明显加快,如表1所示。
3.2 加入环评专业分词库
加入环评专业分词库后,搜索的准确率得到提升,搜索时间缩短,如表2所示。
4 结语
本文提出了一种基于自然语言处理模型的环境科学命名实体识别方法,该方法以自然语言处理模型为核心,在通用分词库的基础上加入环保专业分词库和外部征识别技术,实现了从环评文件中自动提取准确的环境科学命名实体信息;同时采用MCTS蒙特卡洛树构建搜索引擎,提高了命名实体识别过程的搜索效率。
参考文献
[1]J.Grudin.Computer-supported cooperative work:History and focus[J].Computer,1994(27):19-26.
[2]环境保护部环境工程评估中心.建设项目环境影响评价[M].中国环境科学出版社,2011.
[3]冯志伟.自然语言的计算机处理[M].上海外语教育出版社,1996.
[4]Lafferty J, McCallum A, Pereira F.Conditional Random Fields:Probabilistic models for segmenting and labeling sequence data[D].In: Proc.ICML 2001.endprint