原载《财会月刊》2022年第24期
【摘要】以北京地区大气污染监测站点数据为例,运用无监督学习下的DBSCAN聚类算法和监督学习下的长短期记忆网络人工智能技术,挖掘大气污染监测记录中的虚假数据,发现大气污染监测数据中存在的审计疑点,并对审计结果进行分析,提出基于神经网络的异常检测的优越性。在数字化和智能化审计不断发展完善的背景下,审计人员应利用信息技术进行大数据审计,完善复杂数据的异常检测,提升大气污染防治审计的质量,确保大气污染数据的真实披露,并进一步促进环境保护的精准投资、精准施策和治理,改善生态环境,打赢“蓝天保卫战”。同时,信息技术和审计的交叉融合,有助于推动审计数字化智能化技术方法在审计全覆盖中的应用,为审计人员、审计机构和监管机构提供理论指导和实践价值借鉴,为“计算审计学”学科理论创新与发展提供学术铺垫。【关键词】大数据审计;DBSCAN;长短期记忆网络;异常检测;大气污染防治审计【基金项目】国家社会科学基金青年项目“审计委员会治理模式下资源环境审计的现实困境与协同机制研究”(项目编号:21CJY036);北京市社会科学重点项目“基于大数据的京津冀大气污染防治全过程跟踪审计模式研究”(项目编号:SZ202011232024);北京市教育委员会科学研究计划项目(项目编号:SM202111232006);北京信息科技大学教改项目(项目编号:2021JGYB28)
一、引言
随着社会逐步迈入大数据和智能化时代,审计人员应该重视计算机审计技术的发展,并运用大数据技术、机器学习等新兴方法查找审计线索,以计算机代替人工,去发现更为复杂的函数关系,学习数据分布,挖掘传统审计手段难以发现的审计疑点。尤其在大气污染防治领域,迫于环保压力,部分地区存在大气污染监测数据造假的情况,如2016年西安监测站空气采样器“戴口罩”现象,2017年宁夏监测站点周边被人为喷水雾等操作时有发生。北京地区的大气污染形势一直以来都受到人们的极大关注,2010~2020年出现了800多次重度污染,且持续时间长。同时,污染物来源的增加,使大气污染的监控和预防更加困难,因此需要新的大气污染监测技术,来满足环境监测与大气污染防治和预警的要求。我国的大气污染防治缺乏系统性技术和实践方案,在目前的审计工作中,很多审计人员还是采用SQL数据库导入数据进行数据查询和分析、利用Excel等电子表格软件进行数据处理和分析,在处理百万级审计数据时,无法通过简单查询语句、分类汇总、数据透视表等功能发现舞弊问题。此外,受限于计算机审计技术的发展,处理大量数据给审计人员造成很大困难,加之大气污染防治审计涉及主体较多(包括政府部门、相关企业、财政部门等),需要多个单位的协作,导致我国大气污染监测信息难以充分披露,透明度不高,信息质量难以保证。
针对以上问题和挑战,在大气污染防治审计中,运用大数据方法分析污染物成分,采用人工智能技术进行预测分析,有助于对大气污染实现防控和治理,能显著提升大气污染监测数据的透明度,减少政府在大气污染防治方面的经济损失,促进京津冀区域乃至全国其他地区的生态文明建设。
本文的创新之处主要有以下两点:一是将计算机信息技术与大气污染防治审计理论方法相结合,利用数字化技术与人工智能技术赋能审计过程,探索环境审计中异常数据的智能分析与挖掘方法,对于提升审计工作的效率和质量,丰富和促进“计算审计学”的理论发展具有重要的学术价值,同时该研究也将丰富人工智能技术的应用场景,对人工智能理论的应用具有重要的学术价值。二是研究成果将大大降低环境审计人员的劳动强度,便于开展全覆盖、全流程的环境审计,对于提升审计工作效率和质量具有重要作用,同时,可减少审计单位的经费投入,产生良好的经济效益和社会效益,且研究成果可供其他审计领域借鉴,具有重要的应用价值。
二、文献回顾
环境审计研究领域普遍认为,政府环境审计产生于受托环境责任理论,受托责任是指环保部门和审计机关的受托责任。自然资源是公众公有财产,企业、个人和社会发展在追求经济利益及社会效益时,对自然资源造成浪费和破坏,最终给人民生活带来负面影响,这种环境成本最终由公众来承担。为保证政府受托环境责任全面履行,公众有权委托审计机关对政府管理成果进行评价和考量,审查政府受托责任履行情况,以改善政府管理制度,促进政府部门高效工作并更好地履行环境保护责任。史晓燕和班景刚、卞兴忠等总结了环境审计的定义和内容,提出了健全的环境审计理论体系并进行了实证研究。曹键和李晓琴对企业环境管理进行绩效评价并将环境绩效审计作为环境管理的工具。周畅分析了政府环境履责审计的定义、内容和作用机制,研究了政府环境履责绩效审计。赵慧琪和李宏欣回顾了大气环境审计现状,通过对现存问题进行分析,对丰富审计内容、创新大气环境审计技术方法做出了贡献。刘桂春和王碧玉通过对北京地区大气污染防治情况的分析,提出了区域性环境绩效审计,建立了区域绩效审计评价指标体系,指出可运用环境费用效益分析进行绩效审计。张璐对政府环境绩效审计目标和方法进行了研究,将审计目标分为根本目标、具体目标和最终目标,并指出指标设计是政府环境审计的重要环节。
我国对大气污染防治审计的研究是近几年才开始的。喻亚敏研究了大气污染防治审计的依据,认为目前并未形成统一完整的大气污染环境审计依据。国内现有文献主要是翻译其他国家在大气污染防治审计方面的法律法规和一些经验做法。刘誉泽认为,我国的大气污染环境审计在制度制定方面、审计人员使用审计工具技术方面、政府财政拨款方面都存在很多不足,并借鉴英国和美国的雾霾治理经验,对我国审计部门执行大气污染防治审计工作提出了建设性意见。钟廷勇等指出我国环境审计方面的不足,如缺少完整的大气污染环境审计方面的法律法规,存在对环境专项资金管理使用不当、不及时的情况,同时资金的使用也缺少监督,以至于存在专项资金不能及时分发、被占用贪污的现象。《大气十条》对大气污染治理工作做出指示,即在大气污染防治工作开展过程中,对于政府对大气污染治理的经济性、效率性、效果性是否与预期目标相匹配,投入和产出是否合理,有必要通过绩效审计做出客观评价。
国外学者在较早时期就开展了大气污染防治审计方面的研究。英美等国进入工业化时代较早。在空气污染问题频发之后,英国审计署于20世纪60年代就颁布了相应法案,近几年又颁布了审计相关法律来规范大气污染防治工作。美国审计署也十分重视空气质量状况,十分重视对大气污染防治及相关工作的审计监督,逐渐发展形成了多种模型方法辅助空气质量预测,并发布审计报告。在大气污染监测技术和方法领域,国外运用的模型主要有统计预测模型、模糊时间序列模型、机器学习预测模型和综合评价模型等,但上述方法在我国大气污染防治审计领域的应用却十分少见。因此,借鉴国外机器学习预测模型的应用,本文尝试在大气污染防治审计中基于无监督和监督学习的相关理论,运用DBSCAN聚类算法和长短期记忆网络的方法,对大气污染相关数据的异常情况进行审计。
三、研究设计
2013~2015年北京出现了280次重度污染,且持续时间长、数据量较大,因此本文选择利用2013年12月31日~2015年8月10日北京地区95个监测站点的165140条大气污染物浓度数据,分析北京地区大气污染物的浓度变化,对大气监测数据进行审计。通过对不同监测点多年数据的分析,找出在大气监测数据集中存在的与模型预测值不同的数据,最终统计出异常数据出现次数较多的监测站点,发现审计疑点,从而助力审计人员的进一步调查分析。选择的六个大气污染物度量指标为:SO2、NO2、O3、CO、PM2.5、PM10的24小时滑动平均值。在大气污染防治审计中,本文采用监督学习和无监督学习的机器学习方法分别进行空气质量数据舞弊的监测。
(一)DBSCAN聚类算法
DBSCAN属于无监督学习方法的一种,是具有噪声的基于密度的空间聚类算法。该算法按照设定好的参数(根据参数可进一步确定密度),把数据归为不同的类。噪声点会被聚类算法孤立出来,异常检测就是要找出这些噪声点。由于获取的北京地区大气监测数据中存在的异常情况并没有被标注,不清楚具体是哪一条数据,而利用DBSCAN聚类算法可以对大量的样本集进行聚类,进一步找出异常数据。
1.模型设置和调参。研究样本的数据集中一共有六个指标,包括CO浓度、NO2浓度、O3浓度、PM10浓度、PM2.5浓度、SO2浓度,其中完整特征如表1所示。
在该算法中,需要设定两个超参数——eps(半径)和MinPts(半径内数据点的个数),参数的设置需要经过不断拟合,然后确定最优的eps和MinPts。模型结果对这两个参数的变化较为敏感,参数的变化会严重影响模型的聚类效果。
DBSCAN聚类算法对数据的处理过程是:①人为确定后输入eps和MinPts这两个参数。②算法会从输入的原始数据集中随机抽取一个尚未访问过的样本x。③如果样本x是核心对象,进入步骤④,否则重新回到步骤②。④找出从样本x出发的所有密度可达的数据,划分到同一个聚类,形成以x为核心对象的簇,并标记这些对象为已访问。⑤当全部数据集都被访问后,结束算法。否则再次回到步骤②。
最后,该聚类算法可以得到核心对象(coreSamples)和非核心对象(noiseSamples),将核心对象的数据标签coreSampleMask设置为True,通过代码coreSampleMask[db.core_sample_indices_]=True来实现。剩下的其他数据就是非核心对象,将其标签设置为False。经过不断调试,最终确定MinPts=30、eps=30,代入聚类算法的学习。通过查看noiseSamples的Excel文件,发现一共有7771条数据被划分为非核心数据(异常数据),该结果是在计算机现有内存和该算法结构下能得到的最好的一个,因此确定超参数MinPts=30、eps=30。
测试结果见图1。
2.结果判定。通过对异常结果的分析发现,165140条大气污染监测数据中,运用DBSCAN算法聚类生成7771个非核心对象,并应用本福特定律进行异常分析,发现原始输入数据中存在10处异常,算法生成的异常数据中存在21处异常,其中这21个异常中有7个与原始输入数据的异常情况一致,其余未被标注的地方是原始数据与异常数据不同的地方。由此看来,该聚类算法可以划分出异常数据,为大气污染防治审计人员的后续审计工作提供技术支持,缩小审计范围。
在10处异常中检测出7处,说明DBSCAN聚类算法准确度不够高,在处理输入数据集的时候,并没有考虑到获取的大气数据同时是一个时间序列,具有时序性。在整个算法处理过程中,只是简单地对数据进行密度聚类,找出了很多值为0(最小值)和最大值这种极端情况,没有充分利用原始数据的特征进行分析。如果联系数据所处时间前后情况看,该极端情况可能是数据平缓增加或减少得到的,并不是数据激增或者迅速减少的结果,所以生成的近4.71%(7771/165140)的异常数据很有可能偏多。
对于DBSCAN算法模型,可以对数据进行聚类处理以发现异常数据,但是在准确度上需要进一步提升。因此,本文结合大气污染物数据的时序性特点,进一步利用神经网络模型对异常数据进行更精确的检测。
(二)长短期记忆网络(LSTM)
LSTM是长短期记忆网络,是一种改进后的循环神经网络(RNN),属于监督学习方法,其显著的优点是可以解决长序列训练过程中的梯度消失和梯度爆炸问题。相比于普通的循环神经网络,长短期记忆网络可以更好地处理时序性数据。该方法中的异常检测是通过观察大部分数据分布,识别出分布罕见或不同的情况。对于时间序列数据的异常检测问题主要关注意外的峰值、意外的低谷、趋势变化与水平平移。现在个别大气污染监测站点存在数据造假现象,通过人为操控改变大气污染监测指标,这可能会使某个时点的数据与前一天相比出现很大变化,或者连续多天数据都保持不变。通过异常检测可以发现造假现象或者机器统计错误,并及时对错误数据进行改正。
1.模型设置和调参。采取同样的数据集并通过pycharm绘制子图,可以看到2013年12月31日~2015年8月10日这一时间段中数据的大致分布情况,如图2所示。
首先,将数据集清洗后进行归一化处理。为了应用多变量时间序列预测模型,通过Theseries_to_supervised()函数对输入数据进行处理,可以把输入的北京地区大气污染监测数据(时间序列数据)转化为监督学习问题。在这里监督学习就是由输入(X)和输出(Y)构成,能够实现输入到输出的预测。Theseries_to_supervised()函数会返回DataFrame,从而将原始大气监测数据转变为监督学习的X和Y部分。在此,将前一刻时间(t-1)的六个大气污染物指标和空气质量指数(AQI)作为X,将空气污染状况作为Y,创建一个X为t-1、Y为t的DataFrame。即通过过去时间(t-1)的污染物状况,预测下一段时间(t)的空气污染情况。
其次,把原始数据集分成训练集和测试集。在165140条数据中,选择使用25000条数据来拟合模型(选择25000条数据是经过多次模型优化后获得的最优结果),然后用其余140140条数据进行评估。在训练集中,实现把输入(X)重构为长短期记忆网络预期的格式,即[样本,时间步,特征]([samples,timesteps,features])。samples为输入数据的数量。timesteps=n,就意味着对前n个值的学习来预测目前状态下的值。features为变量的个数。例如:一个长短期记忆网络的输入输出格式是[samples,timesteps,features],那么[ [ [ 012 ] [ 345 ] ] ]也就是1条样本(samples),每条样本2个步骤(timesteps),每个步骤3个维度(features)。
然后,建立并优化LSTM模型,并对模型进行调参。在调参过程中,笔者发现epochs在达到50步左右的时候训练集和测试集的损失函数中期达到最小值,基本处于一个水平线,已经达到收敛,多增加步数会产生过拟合的效果;当在模型中设置较少数量的神经元时,发现模型拟合效果并不好,出现欠拟合的现象,应该适当增加神经元的数量,提升模型准确度;试着调整timesteps,改为7,即模型中每次细胞输入门所输入的数据量。将上一步骤中生成的变量和这一次的7行连续时间序列数据一起输入,再产生新的变量传递下去;接下来选择激活函数,虽然当数据值大小差异较大时,sigmoid会出现梯度消失的情况,但是在上文中已经对数据进行了归一化处理,不会出现梯度消失和梯度爆炸的情况,同时结合模型训练效果,最终选择sigmoid作为激活函数。通过多次调整参数,对比训练集和测试集损失函数的不同表现,最后确定最优参数:神经元个数(units)=256,epochs=128,batch_size=128,训练集数据量=25000,timesteps=1,激活函数选择sigmoid,损失函数选择mae,优化器选择Adam。测试结果如图3所示,拟合效果良好。
2.结果判定。在完成对LSTM模型的训练和优化之后,下面对模型预测生成的数据进行进一步分析。通过代码将numpy数据格式转化生成Excel文件(.xlsx),对数据进行整理合并处理后,将数据实际值和预测值的差值进行排序,得到可能出现异常的数据,一共1630条。对筛选出的1630条数据进行本福特定律分析,发现1630条数据首位数字分布出现的异常情况与全北京地区大气污染物数据异常情况是一致的,在165140条原始输入数据中,本福特定律得出的异常分布有10处,这里生成的异常数据显示异常分布有15处,其中有8处是一致的,2处不一致,剩下5处是新增的异常分布。例如在生成的异常数据当中,PM10都是在首位数字是7、8、9的数据偏离本福特定律分布,而且这里首位数字是6的分布也出现异常情况。在查询异常数据出现的时间后,发现部分异常数据出现在数据突起的时候,即出现极大值时,空气质量指数真实值和预测值之间的差值很大,这符合对异常值的定义。
(三)两种方法的对比将DBSCAN聚类算法和LSTM模型进行比较,结果如表2所示。
通过对两个算法模型能够正确检测出异常点的比例进行比较,LSTM模型能够更准确地检测出异常点的分布区域,进而对具体的每一条异常数据进行统计分析,重点关注出现异常频率较高的大气污染监测站点,审计人员可以前往站点进行现场审计,检查监测站点空气采样器是否经过处理,或者是否有喷水雾、周边车辆限行的情况出现。
在排除这些情况后,可以对大气污染监测系统进行审计。进一步实施的审计流程包括:①了解站点大气监测系统基本情况。比如大气监测系统的使用和运行年限、人员的工作流程、是否有明确的规章制度,对此形成一个初步印象,进而明确审计难度,确定审计所需时间以及人员等后续审计工作安排。②检测数据的生成过程,从数据处理流程入手,检查是否存在防错纠错的保护机制,有助于减少机器误差。③调查大气污染监测系统操作顺序是否标准化,调查系统管理维护人员在大气污染监测系统中的权限,是否存在对数据进行修改等导致数据失真的操作。
四、研究结论及建议
本文通过运用DBSCAN聚类算法和长短期记忆网络等机器学习算法,得到了相应的数据异常值。审计人员在审计工作中可以通过这些方法对不同大气污染监测站点的大气污染监测数据进行分析以及挖掘,了解大气污染物浓度的真实情况。此外,在LSTM模型中,不同时刻的数据都对应生成了空气质量指数(AQI)的预测值(inv_yhat),根据真实值(inv_y)和预测值(inv_yhat)之间的差值,审计人员可以进一步划分异常数据,特别是当审计时间和人力不足时,可以筛选出误差最大的异常数据进行重点审计调查,以此来提升审计效率,尽快为审计人员确定审计方向,可以在较短时间内及时确定需要进行审计的监测站点。
另外,本文通过相关分析发现,在2013年之前北京对地方环境方面的财政支出很少,导致北京市对大气污染的防控工作不能得到足够的财政支持,加剧了当时持续数年的空气污染;加之北京的发展十分迅速,经济增长也伴随着环境治理的压力。因此,加强监测站能力建设、利用大数据手段进行环境审计监督等就显得尤为重要。
对于大气污染防治审计工作,结合北京市具体情况提出以下建议:
第一,对能够影响大气污染防治审计的其他因素进行调查研究。文中主要选取了大气中六个污染物指标进行分析研究,如果要做到更为准确的预测防控,需要审计人员跟进现有审计特点,明确大气污染防治审计体系下的审计目标、审计主体、审计客体、审计范围、审计技术方法,调整大气污染审计报告出具标准等,使大气污染防治审计报告更为规范。
第二,财政部门要给予足够的资金支持,提高对大气污染防治审计的重视程度。因为大气污染防治审计数据量庞大,这就需要高性能计算机的支持,以有利于先进的大数据审计方法的施行。
第三,对于环保部门而言,应当不定期对大气污染监测站点的审计工作进行监督,了解大气污染防治审计人员是否真正落实审计工作,对各地大气污染监测站点是否执行了充足的审计程序。同时,应向人民群众普及大气环境保护的知识,提高大气污染监测信息透明度。
第四,对于大气污染防治审计部门而言,应当注重审计人员的培训,提升审计人员的专业能力。在大数据时代,审计人员应学会使用大数据审计方法,运用机器学习、深度学习等领域的先进算法模型进行审计,熟悉业务流程,快速建立算法模型来发现异常,提升发现审计疑点的能力。
五、信息技术推动“计算审计学”新兴学科的产生
随着信息技术的不断发展和广泛应用,计算数学、计算金融学等“计算机+”交叉学科陆续出现。信息化是审计事业发展的不竭动力,信息技术为审计业务的开展提供了各种科学技术方法和手段,与“计算机+”紧密结合的交叉学科“计算审计学”应运而生。计算审计学侧重审计业务逻辑和流程的研究,突破传统审计模式的局限,可提高审计质量和审计效率、节约审计成本,更加契合当前信息技术的发展以及新颁布的《审计法》对科技强审和审计功能全覆盖的需求。经过多年的发展与变革,我国审计对信息技术的应用逐步走向完善。计算审计学的提出,符合当前社会对计算机和审计领域复合型人才的需求,信息技术在大气污染防治审计中的运用,也进一步推动了计算审计学的实践应用。
信息技术在审计领域的应用具有重要意义。审计从业者要始终牢记科技强审的理念,在审计领域积极引入信息技术的应用,借助科技手段提高审计效率;信息技术能够简化审计实务中繁琐复杂的工作流程,有助于审计单位节约成本、优化审计实践;通过对审计与信息技术领域的多学科融合,研究人员能够加强“计算审计学”理论研究,构建“计审双强”团队,推动“计算审计学”学科体系的建设与发展;监管机构和决策单位应顺应信息技术的发展,推动审计信息化相关标准和应用指南的修订,不断完善审计准则和相关法律体系,加强审计人员在数字化和智能化审计领域的技能考评工作,推动审计改革浪潮的顺利到来。
[1]刘小海.基于国家环境审计视角的跨区域大气污染防治研究[J].财会通讯,2020(7):115~119+168.
[2]史晓燕,班景刚.环境绩效审计文献综述[J].审计与理财,2015(7):41~42.
[3]卞兴忠.政府环境绩效审计研究综述[J].环境保护科学,2015(2):21~25.
[4]曹键,李晓琴.我国环境绩效审计研究[J].中国商论,2016(4):174~175.
[5]周畅.政府环境履责审计作用机制与实施方式研究[D].兰州:兰州财经大学,2016.
[6]赵慧琪,李宏欣.基于雾霾防治视角的大气环境审计研究[J].中国乡镇企业会计,2018(111):176~177.
[7]刘桂春,王碧玉.京津冀区域环境绩效审计问题研究[J].审计月刊,2017(6):13~16.
[8]张璐.大气污染防治审计思路分析[J].山西农经,2019(19):164.
[9]喻亚敏.大气环境审计依据研究[J].审计月刊,2015(1):19~20.
[10]刘誉泽.英国审计署优化营商环境审计系列研究之三:节支增效系列审计工作情况及启示[J].审计观察,2020(1):86~93.
[11]钟廷勇,何玲,孙芳城.政策不确定性、政治关联与企业环境治理——来自地方官员变更的经验证据[J].江海学刊,2019(6):84~89+254.
[12]喻开志,王小军,张楠楠.国家审计能提升大气污染治理效率吗?[J].审计研究,2020(2):43~51.
[13]Donnelly A., Misstear B., Broderick B.. Real time air quality forecasting using integrated parametric and non-parametric regression techniques[J].Atmospheric Environment,2015(103):53~65.
[14]Wang D., Wei S., Luo H., Yue C., Grunder O.. A novel hybrid model for air quality index forecasting based on two-phase decomposition technique and modified extreme learning machine[J].Science of the Total Environment,2017(580):719~733.
1.北京信息科技大学信管学院, 北京 100192;
2.北京交通大学经济管理学院, 北京 100044