智能查重方法在建设项目环评文件技术复核中的应用探讨
智能查重方法在建设项目环评文件技术复核中的应用探讨
高爽1,2,刘梅3,屈加豹1,2,王苏滨3,韩鑫勇4,康运峰3,吕巍1,2,卢力1,2*
1. 生态环境部环境工程评估中心,北京100012;
2. 生态环境部国家环境保护环境影响评价数值模拟重点实验室,北京 100012;
3. 中国科学院自动化研究所,北京100190;
4. 北京中科思瞳信息技术有限公司,北京100089
摘要:基于大数据和语义识别、深度学习等人工智能技术,创建了一套智能查重方法,用于辅助环评文件的人工技术复核。根据环评文件的内容特点,以地方实时上报的已审批的环评文件为数据库,介绍了智能查重方法的体系、算法和功能,并将该方法应用到环评文件技术复核中,分析了典型环评文件案例存在的问题。本研究创建的方法是人工智能技术在环评领域的创新应用尝试,通过聚焦环评文件的抄袭行为,实现对环境影响报告书(表)质量的初步筛查,对查处抄袭行为、惩治弄虚作假具有一定现实意义。
1 环评文件内容特点
首先,环评文件本身具有规范性和统一性。环评文件相关编制管理办法对环评文件应涉及的内容进行了明确的要求,如必须包含建设项目概况、环境影响因素、环境保护措施等[2],这就导致了不同环评文件在结构和规范性描述方面的相似性,环评文件在一定程度上允许重复,如何对关键章节和内容进行比对是查重工作的难点;第二,环评文件内容上的专业性和一些特殊的表格、符号给查重工作带来一定的困难。环评文件中包含了大量的环保专业术语、特殊符号、表格数据等内容,表格中的信息内容相对关键,但要识别所有表格内容和符号技术难度较大;同时,各地方环评文件格式并不统一,包括word文档、pdf和图片形式[3-4],针对不同形式的文件需要开发不同语言功能进行查重;第三,环评文件技术复核的时间要求是查重工作的重点和难点。传统的环评文件技术复核一般耗时较长,因而所复核的文件数量很有限,对于海量的环评文件开展查重,若单份文件的时间过长(比如超过1天),则查重工作的时效性较差,不便于环保管理者进行批量文件的快速复核,也无法有效指导开展后续进一步的技术复核工作,因此如何压缩查重时间、实现短时间内对海量文件查重、逐个给出重复率比对结果是本研究的重点和难点之一。
2 智能查重方法概述
2.1智能查重系统架构设计
基于上述难点,本研究结合大数据和人工智能技术,开发一套智能查重系统,并探索将该系统应用在环评文件技术复核中,为海量环评文件的初步复核提供支撑。查重方法以地方实时上报的已审批的环评文件为数据库,数据库内文件均为国家或地方审批后最终确认的电子版报告,2019年以来数据库内已有80多万份环评文件。通过将待查环评文件与数据库内已有环评文件进行比对查重得到重复率结果。
在搭建智能复核算法架构中使用了Hadoop+Spark分布式实时计算集群框架,它具备高可靠性、高扩展性、高效性、高容错性、低成本等特性,是专为大规模数据处理而设计的快速通用的计算引擎,底层算法利用王苏滨等[5]的算法成果,优化搭建了符合环保行业应用的算法模型。
智能查重系统从架构设计上分为3层,分别是:数据层、服务层和应用层。数据层用于存储、管理各种数据,包括:(1)存储与业务相关的基础数据(环评文件);(2)将数据进行碎片化处理后,以结构化数据存储到全文检索库中;(3)存储原始的环评文件。服务层是总体架构核心的部分,结合多种算法,对各个业务项提供计算分析服务。因数据量随着时间会持续增加,服务层会采用集群、分布式架构,可提供横向扩展来满足业务需求。应用层是给用户提供可视化操作的界面应用,有利于客户友好的操作。
2.2 智能查重方法介绍
本研究创建的智能查重方法通过3个步骤来实现,技术路线见图1。
第一步,快速筛选出与目标环评文件各个段落相似的段落。针对目标文件的每个段落,先通过simhash值快速从数据库文件中筛选出较为相似的前100个段落,再针对筛选出的结果进一步计算段落重复率。这样既可以保证速度,又可以保证文字的一致性和结果的可信度。
第二步,通过段落重复率计算文件重复率,从而找到最相似的前10份环评文件进行关键指标比对,由于关键指标具有提取耗时长、数据精细化程度高的特点,所以在可容忍范围内选择10份文件。得到关键指标重复结果。
第三步,结合环评文件文字重复率及关键指标重复结果,按照重复字段所在的段落进行标记,提示业务人员该环评文件的抄袭程度。
图1 智能查重技术路线图
2.2.1文字性重复率和段落重复率计算
基于simhash值对目标环评文件的所有段落和数据库内其他环评文件拆分段落做笛卡尔积,所有的配对返回对应simhash值的汉明距离[6-9],筛选距离小于28的配对(经过调整发现筛选距离设置为28可以较快找到一定量的相似段落),确定目标环评文件段落与数据库内文件最相似的28对段落,并计算段落重复率。针对目标环评文件中的段落,将与其最相似的28个段落按其所对应的库文件名进行分组,对涉及的每个库文件进行段落重复率求和[11-14],从而确定与目标环评文件重复率最大的相似文件,并给出目标环评文件与最相似文件的文字性重复率,完成重复率检测功能。
通过simhash值的方式计算重复率的优势在于可以快速定位到重复率最高的段落,经过多组测试,以一份20M的环评文件为例,与84万份环评文件查重比对,平均3分钟内可计算出最高重复率。因此该创新方法效率高、实用性强。
2.2.2 关键指标一致性校核
受环评文件特性影响,单一的文件重复率不能简单说明环评文件是否存在抄袭行为,因此需要对关键指标是否重复等进行多方位验证,以佐证环评文件是否存在抄袭行为。
由环评技术专家首先研究确定若干个关键指标,并完成对指标定义、指标提取、指标比对的研究[10]。以“地名”为关键指标为例来说明提取关键指标的过程,见图2。指标“地名”的提取流程为:(1)确定指标定义,这里规定只要县级以上行政单位,只针对文件前后5%的内容抽取;(2)建立指标规则库,包括所有地名、别名以及缩写;(3)遍历环评文件建设项目名称、地理位置坐标、评价等级、监测因子等指标项,抽取所有包含指标的段落;(4)数据标注,人工用数字标注标注抽取到所有段落中的抽取对象;(5)开发指标提取模型,搭建如条件随机场等的自然语言处理模型;(6)样本测试,用模型对样本进行测试,对测试结果进行评估,如果准确率达不到最低阈值则返回调优模型;(7)指标比对,运用提取到的指标进行文件之间的相互比对。
图2 关键指标的智能查重过程说明
2.2.3 专业术语及表格内容处理方法
环评文件中存在大量的专业术语和表格数据,需要采取针对性的方法进行处理。本研究针对环保专业术语和表格数据分别设置了不同的识别方法。
针对专业术语:由于环保专业术语一般是用来描述指标、规范和政策等,环评文件引用的这些专业术语大概率是一致的,也就可能增加段落重复率。据此根据环评领域行业专家研究讨论的结果设置“白名单”和专业术语库来解决此难点问题。“白名单”用来筛选不纳入重复范围的段落,即只要段落与“白名单”中段落相似性超过一定阈值,则此段落不计入重复率;专业术语库用来指导进一步的关键指标提取,某些专业指标还需要进一步借助人工经验、发挥行业专家优势进行判别,提取相关信息。
针对表格数据:为便于提取表格内容信息做重复率比对,在查重过程中首先舍弃表格数据的行列等位置信息,以字符串代替,只关注内容方面的重复;然后在提取关键指标的过程中,表格需保留包括单元格位置和内容的完整信息,以每个单元格的行列标签作为提取依据,通过匹配标签的方法获得关键指标的信息,解决了表格中关键指标难以提取的问题。
3 环评文件智能查重应用和结果讨论
3.1 大数据查重结果及主要问题
基于本研究创建的智能查重系统,将该方法应用到环评文件技术复核中,在2020年第一季度抽取了全国3500多份环评文件进行智能查重,根据查重结果,重复率50%以上的环评文件共82份,涉及13个环评行业大类,15个地区。针对这82份环评文件开展人工复判,发现存在抄袭问题的文件9份,重复率在50.1%~93.9%之间。针对9份文件进一步开展分析,归纳出主要存在的抄袭问题包括以下几方面:
(1)目标文件与最相似环评文件建设地点不同、但目标文件中的经纬度坐标、总用地面积与库文件完全相同,且与文中其他章节描述前后矛盾。
(2)目标文件与最相似环评文件项目地点不同,但厂界及敏感点处声环境现状、源强、预测结果等精确至小数点后一位均完全相同,且描述内容与目标文件建设项目实际情况不符。
(3)目标文件厂区平面布置与最相似环评文件中完全一致,且与厂区实际平面布置不符。
(4)目标文件与最相似环评文件项目不同,但目标文件源强核算与库文件完全相同,且与实际情况不符。
3.2 典型抄袭报告书查重分析
应用本研究开发的智能查重方法对某塑料行业项目进行查重。使用解析文件接口读取word/pdf文档的内容,执行文档拆解、语义理解、句子分割、拆分合并、计算段落simhash值、spark计算粗筛处理、细筛分组(从段落中筛选出重复语句及位置、重复字数)等操作,得到全文文字性重复率及与最相似文件的重复率。
根据查重算法分析结果,发现目标文件和库内最相似文件的重复率达54.5%,两份环评文件重复率达到100%的段落有8个。表1是两份环评文件的相似段落节选,其中,重复率超过90%的段落主要为:项目依据文件和技术资料、污染源调查、大气防护距离、选址合理性分析和环境质量监测计划等。
表1 部分查重案例结果展示
Table1 Display of results of some duplicate check cases
目标文件 | 库文件 | 段落重复率 | 备注 | ||
概述 | 企业于2019年4月15日委托某环保技术开发有限公司承担其环境影响评价工作。 | 概述 | 企业于2019年4月15日委托某环保技术开发有限公司承担其环境影响评价工作。 | 100% | 报告书附件1委托时间不一样(目标文件为2019年4月19日,库文件为2019年4月5日),概述中委托时间描述不应完全一致。 |
1.1.6项目支持文件 | (6)现有《某项目环境影响报告书的批复》,2015年2月13日; (7)现有《某项目竣工环境保护验收意见》、参会专家意见、验收公示截图。 | 1.1.6项目支持文件 | (6)现有《某项目环境影响报告书的批复》,2015年2月13日; (7)现有《某项目竣工环境保护验收意见》、参会专家意见、验收公示截图。 | 80% | 目标文件为新建项目,库文件为改扩建项目,目标文件支持文件中不应该有现有工程环评批复和验收意见等材料,存在目标文件抄袭库文件的嫌疑。 |
4.1污染源调查 | 表4.1-1至表4.1-3拟建项目点源参数表中DA001排气筒底部中心坐标为X628405.08m、Y3821620.69m、DA002排气筒底部中心坐标为X628441.86m、Y3821682.02m、DA003排气筒底部中心坐标为X628411.86m、Y3821652.02m。 | 4.1污染源调查 | 表4.1-1至表4.1-3拟建项目点源参数表中DA003排气筒底部中心坐标为X628405.08m、Y3821620.69m、DA004排气筒底部中心坐标为X628453.86m、Y3821672.02m、DA005排气筒底部中心坐标为X628411.86m、Y3821652.02m。 | 80% | 位于不同乡镇的两个建设项目,排气筒底部中心坐标不应完全一致。 |
4 结论及展望
本研究创建了一套智能查重技术方法,结合大数据和人工智能技术实现对环评文件的快速查重,并在实践中加以验证,主要形成如下结论:一是,智能查重系统主要包括对环评文件实时的拆解入库、全文文字性重复率计算、段落文字性重复率计算、多个指标项的一致性校核等功能;二是,通过开展2020年第一季度部分环评文件的智能查重,发现重复率超过50%的环评文件共82份,涉及13个环评行业大类,15个地区;三是,通过对某塑料行业项目的查重分析,发现目标文件和库文件全文文字性重复率达54.5%,两份环评文件重复率达到100%的段落有8个,主要相似段落包括项目依据文件和技术资料、污染源调查、大气防护距离、选址合理性分析和环境质量监测计划等。
运用大数据和人工智能技术手段辅助环评文件技术复核是当前发展趋势,智能查重作为技术复核重点研究方向,建议继续完善如下内容:一方面,以技术研究为核心完善智能查重。目前,智能查重仅仅实现了部分功能,并未完成所有的智能查重功能开发,需要依托当下先进技术进行深度应用,增强智能复核语义理解能力,增加指标提取的准确性。此外,智能查重是一项需要不断补充和不断完善的长期性研究工作,只有不断完善关键指标,才能更精准定位到弄虚作假的环评文件;另一方面,以环评管理驱动智能查重应用。智能查重作为技术复核辅助手段,其目的在于提升环评文件的质量,但在现行环评管理办法下,技术复核仅仅是对环评文件开展事后复核,无法有效倒逼环评文件质量提升。因此,在智能查重条件完善之后,应当在环评文件审批之前,优先进行智能查重,对有问题环评文件驳回修改,方能有效促进环评文件质量的提升。
参考文献(References):
略
编辑:君君.环评互联网
全国首例“COD去除剂”投加案宣判,环保公司主管被判刑一年! 排污许可领域|企业合规新趋势 第一期温室气体排放核算、核查及碳排放环境影响评价线上培训火热报名中 『建设项目环境信息公示平台』全新升级 『环评云助手』为全国百余家环境管理部门及技术评估机构开放专属服务 2022年底前,唐山全面关停1000立方米以下高炉、100吨以下转炉… 【环评云助手】小程序免费接入开放,支持公众号、小程序 【环评互联网】公众号运维团队首推『企业公众号』代运维服务 【环评云助手】开放19000余份『全国及地方法律法规及标准导则』数据接口服务 新大气导则推荐模型EIAProA2018从入门到精通线上课程重磅上线!
下载[环评云助手]app
扫描上方二维码 和50W+环评人一起进入云时代 20000+法律法规库、百万下载量、免费环评公开课
| 声明:本号对转载、分享、陈述、观点保持中立,目的仅在于传递更多信息,版权归原作者所有。如涉及作品版权问题,请与本公众号联系,我们将尽快删除!已申明原创之作品,转载需申请并获本号授权!
| 投稿、授权、商务及其他请加微信号:eianet2016
▶ 点击“阅读原文”,提前锁定『声环境评价专题编制技术要点和声环境预测软件应用公开课』直播间!