运用遗传算法优化税收风险分析指标模型的思考
作者:
李为人(中国社会科学院大学商学院)
王一杰(北京市海淀区人民政府办公室)
指标模型是税收风险分析的重要工具。如何建立科学、动态、高效的指标模型,一直是税收风险管理部门面临的重要课题之一。建立指标模型的传统方法依赖于专家经验的积累和税收实践的修正,缺陷在于过程漫长、内容局限、成本较高。当前,随着人工智能技术的快速发展,我们可以引入人工智能领域的遗传算法优化税收风险分析。运用遗传算法可以快速扫描税收元数据,遴选出有效指标,并将其随机交叉组合,然后通过不断变异和迭代,形成日臻完善的税收风险指标模型,从而快速、高效提升税收风险管理的质量和效率。
风险分析作为税收风险管理的核心环节之一,是指通过一定的方式方法,了解纳税人遵从税法的不确定性程度。在税收风险分析过程中,指标和模型起着至关重要的作用。指标是指预期达到的指数和标准。例如,通过“增值税行业平均税负率”这个指标,我们可以评判某一行业的增值税平均税负水平,并在此基础上确定某一纳税人的增值税税负的偏离程度,进而评判该纳税人风险程度的高低。模型是指由多个有共同指向性的指标、指标值和算法构成的集合。例如,我们可以用行业、企业从业人员、营业收入、资产总额等四个指标,评判一个企业是否符合小型微利企业的条件,判断条件的计算机语言为“行业=非限制和禁止行业、年度应纳税所得额≤300万元、从业人员≤300人、资产总额≤5 000万元”,这一判断条件就是一个简单的模型。
为了得到更好的分析效果,我们需要建立多个指标和模型,并将其存储为指标模型库。但税收政策、纳税人行为等因素都是在不断变化的,这决定了指标模型具有动态性和复杂性,指标模型的建设也是一个不断优化、持续迭代的过程。一般而言,指标模型的建设过程首先是找来若干税收专家,整合专家个人的工作经验,提出一批经税收实践检验过的指标,构成初始的指标模型1.0版;然后将指标模型应用于税收风险管理实践,根据反馈的情况不断进行补充、完善,构成指标模型2.0版、3.0版,以此类推。
以上这种通过吸收相关专家经验成果,形成并不断优化指标模型,然后将其应用于税收风险分析的传统做法,具有一定的优势,但其劣势也显而易见。一是更新过程慢。当前,我国经济转型升级步伐不断加快,新产业、新业态、新模式不断涌现,管理方式和运营模式也发生了深刻变革。这在税收风险领域表现为纳税人应对方式已发生改变,而风险分析的相关指标模型还是原来的套路,即使纳税人出现了一定的税收风险,传统的指标模型也无法及时发现,甚至完全失效。二是思路范围窄。只能对部分专家已经了解过的知识点进行归纳总结,而数字经济快速发展所产生的应用平台如工业互联网、智慧农业平台往往会产生庞杂的数据,专家的知识储备及人工分析无法全面涉及。除此之外,由互联网推动的一二三产业的融合发展,也会使得传统的指标模型生成方法缺乏发现更大范围相关数据的能力。三是工作成本高。新的政策出台,新产业、新业态、新模式的快速产生与发展往往需要再集中专家力量制发新的指标模型,这会产生较高的组织和经济成本。基于此,我们需要探索更为快速、有效的指标模型生成方法。
作为税收风险分析的重要工具,指标模型的有效性直接决定了重大税收风险的防范和化解水平,而指标模型是否处于持续优化状态直接决定了税收风险分析系统是否处于稳定运行状态。当前,经济社会的发展对税收风险分析系统的冲击使得传统的指标模型在应对风险变化上心有余而力不足,如何化危为机,关键在于能否构建可以快速更迭、与时俱进的指标模型,而大数据和人工智能算法的不断发展给我们带来了重要转机。
(一)遗传算法的基本原理
人工智能算法随着技术的发展变得复杂且多样,其基础算法中的遗传算法更加适合当前税收风险指标模型动态优化系统的构建。所谓遗传算法(Genetic Algorithm,GA),是指模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。遗传算法其本质所展现的就是优胜劣汰效应,不断筛选出最优秀的个体,在整个“进化”过程中,“最优”不是恒定不变的,而是不断发展和更新的。遗传算法的内在运行机制能够使得指标模型不断进行自我迭代,通过内设的适应度函数对指标优胜劣汰,把适合目标要求的指标保留下来,把无效或者次要的指标排除掉。
与传统算法不同,遗传算法不以单个初始值进行迭代求取最优解,而是以群体中所有个体为对象,利用概率(Pm)的变迁规则以及随机化技术对编码的参数空间进行随机搜索,以有效避免传统算法易于陷入局部最优解的困境,同时也易于实现并行化从而大幅提高全局搜索能力。遗传算法可以通过适应度函数直接对结构对象进行操作,基本不需要搜寻空间知识以及辅助信息,且适应度函数不存在求导和函数连续性的限定,其定义域也可以任意设定,这就使得遗传算法的应用范围得到了极大的拓展。参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定共同构成遗传算法的整体架构,而遗传操作主要包括选择、交叉及变异三种算法(见图1,略)。(二)遗传算法与税收风险分析指标模型的结合
通过对遗传算法基本原理和传统意义上的指标模型建设过程的简要介绍,我们可以发现,二者具有天然的相似性。一是具有共同的工作机理。遗传算法的原理是通过组合不同的基因构成染色体,形成不同的个体,个体在实际环境中得到检验,适应的被留下,不适应的被淘汰,如此循环往复、不断优化。指标模型也是通过组合不同的元数据,如销售收入、应缴增值税等信息系统中最基础的数据单位,形成指标模型,指标模型在税收实践中被检验,有用的被留下,没用的被淘汰,最终形成日渐精准的指标模型库。二是具有共同的复杂性。遗传算法的基因数据量庞大,凡是与目标相关的因素全部纳入计算范围。税收风险分析的指标模型建设与之相类似,也要考虑全部税收及财务指标。三是具有共同的突变处理机制。遗传算法中有选择、交叉和变异三种基本算法,其中,变异是指因内部或外部原因造成的染色体的变化。风险指标模型建设中也有类似过程,如税收政策的改变带来部分指标模型的变化,某个典型的税收分析案例发现了新的指标,等等。
在遗传算法运行初期,人工智能系统就像“刚出生的婴儿”,需要不断被“喂食”,而这食物就是我们所说的元数据。得到了“食物”之后,人工智能系统才有可能开始自己学习,慢慢成长为一个有智慧的“人”。在遗传算法中,人工智能逐渐变得“聪明”的过程称之为迭代。如在税收风险分析中,初期人工智能系统将税收元数据随机匹配成指标,再选取随机数量的指标形成一个指标集,即一条染色体,接着我们通过迭代的方式使之“进化”产生新的染色体,这个产生新染色体的过程我们称之为基因重组。遗传算法在运行初期所产生的初代指标集,是计算机根据概率随机组成的,因此,并不具有代表意义,要想使指标模型优化进而达到能够有效分析税收风险的目的,就要不断产生新的指标集。在以往税收风险分析指标的构建中,这个程序往往是通过人工筛选提炼的方式进行,过程漫长且具有不确定性,滞后于实际变化。而通过基因重组程序,可以将父代指标集进行切割、重组,从而自我形成新的指标集,虽然这个过程仍然存在随机性,但通过适应度函数和计算机的强大运行能力,在多次迭代后产生的后代指标集会逐步优化。税收风险分析指标模型的遗传算法主要操作包括选择、交叉和变异,以下分别说明。
1.选择。选择是指从群体中选择优良的个体并淘汰劣质个体的操作。这一操作是建立在适应度评估的基础上的。一般而言,适应度越大的个体,被选择的可能性就越大,其后代就越多,但并非适应度越高的后代肯定就越多,只能从概率上而言更多。那么,我们如何建立这种概率关系来选取父染色体和母染色体呢?目前常用的选择方法有轮盘赌算法、最佳个体保留法、期望值法、排序选择法、竞争法、线性标准化法等。本文以常用的选择方法——轮盘赌算法(Roulette WheelSelection)为例进行说明。
轮盘赌算法的基本思想是个体被选中的概率与其适应度函数值成正比。
假设群体大小为n,个体i的适应度为Fi,则个体i被选中遗传到下一代群体的概率为:p= Fi÷ΣFi。
每次进化后我们都要通过适应度函数计算新染色体的适应度。设想群体全部个体的适应度分数用一张饼图来表示(如图2所示,略)。
饼图中每一个小块即代表群体中每一条染色体,块的大小与染色体的适应度成正比,适应度越高,它在饼图中对应的小块所占面积也越大。为了选取一条染色体,要做的就是旋转这个轮子,直到轮盘停止时,看指针停止在哪一块上,就选中与之对应的那条染色体。因此,适应度越高的染色体便越有可能被选为父(母)染色体,这也就是为什么遗传算法能保留优良基因的原因。
在运用遗传算法构建税收风险分析指标模型过程中,如何通过算法来保留有效指标不被淘汰是关键问题之一。在计算机世界中,对一个问题的评价往往是通过概率的形式进行的,优与良对应着概率的高与低。通过适应度函数我们可以评价迭代产生的指标集,并为其打分,单个指标集所获得的分数就是决定其迭代过程中被选取概率的分子,而分母则是所有指标集所获得的分数的总和。通过这个概率我们可以决定被评价的指标集在下一轮迭代中“存活”的机会。但概率终究会出现偏差,即使某个指标集存活的概率达到99%,依然有1%的概率在下一轮迭代中不被选到。为了解决这个问题,我们运用微生物遗传算法的概念,将评分较高的指标集直接复制给下一代,这样就可以保证有效指标的存活,从而提高后代指标集的有效性。
2.交叉。交叉操作是遗传算法获取优良个体的重要手段,可以大大提高遗传算法的搜索能力。运行过程中我们选取两条父代染色体,可以理解为父染色体和母染色体,接着将两个父代个体的部分结构加以替换重组,形成一条子染色体,这条子染色体既包含父染色体的一部分也包含母染色体的一部分,这就是新染色体形成的过程。交叉操作按照事先设定好的概率(交叉概率一般取较大值,通常为0.6~0.9)在风险指标库中随机选取两条染色体并且在随机位置进行交叉重组。举例而言,在遗传算法运行初期,计算机会随机创建初始化种群,种群由大量随机产生的染色体组成,计算机随机选取两个具有各自特征的指标集(两条染色体)。(1)父染色体:毛利率、税收负担率、存货收入比……销售成本率、工资费用。(2)母染色体:原材料成本率、销售利润率、存货周转率……财务费用收入比、流动比率。遗传算法程序将父代染色体在第三个指标处切断,将母代染色体在倒数第五个指标处切断,在两者切断处重组,就可以形成一条新的子染色体:毛利率、税收负担率、存货收入比、财务费用收入比、流动比率(详见图3,略)。
尽管轮盘赌算法可以保证优良基因的代代相传,但并不能保证通过交叉重组形成的子染色体的适应度高于父母染色体,为了解决这个问题,我们引入微生物遗传算法(Microbial GA)这个概念,主要解决遗传算法中无法有效保留“好父母”的问题,即无论“父母”多么优秀,都不会被保留,只能将各自基因的一部分进行基因重组,但基因重组后的子代染色体并不一定优于“父母”。此过程是通过迭代将染色体中表现好的基因不作任何改变放入子代染色体中,这样可以避免交叉重组之后染色体适应度低于“父母”染色体所产生的不良后果,最大限度地保证染色体的质量。
实际上,这个过程在计算机的运行中并不需要很长时间,且计算机可以全天候运行,效率远远高于人力手段,可充分保证交叉程序的时效性和有效性。不仅如此,自我产生数据且自我分析学习数据也是人工智能超越以往计算机技术的一个重要方面,遗传算法的交叉程序可以通过父代指标集自动生成新一代子指标集,这就是人工智能自我产生数据的过程。与此同时,遗传算法的交叉程序还可以通过适应度函数不断评价产生的指标集的有效性,这是人工智能自我学习分析数据的过程。可以说,遗传算法是人工智能领域一个有效的智能算法,在税收风险指标模型构建中发挥着重要作用。
3.变异。在遗传算法中,变异是很重要的一步,原因是选择和交叉只能保证原有优良基因的保留。通过轮盘赌算法将原有的指标集中有用的指标传承下去,染色体中的基因并没有改变,只是通过改变排列组合的方式让指标集变得更加符合实际问题的解决。但这就存在一个问题,通过交叉机制只能保证经过n 次进化后,计算结果更接近于局部最优解,而永远没办法达到全局最优解,并且会造成某些有效信息指标的永久缺失。人工智能系统要想完全独立分析必须通过自己的机制找到全局最优解。如果仅是原有指标集的优化升级,只能解决大部分一般性的情况,而小部分具有特殊性的问题需要特殊的指标集进行处理,而此时引入基因变异则是最好的解决办法。
遗传算法中的变异过程与自然界的基因突变类似,即以很小的变异概率随机地改变染色体中某些基因的值。变异操作的基本过程是:产生一个[0,1] 之间的随机数(rand),若rand<Pm,则进行变异操作,随机选择子染色体上的部分基因,用基因库中的其他基因将其代替,从而给现有的染色体引入新的基因。在变异操作中,选择的变异概率尽可能低,通常取0.000 1~0.1,否则遗传算法就退化成了随机搜索。以前文例子进一步举例而言。
提取基因重组过程产生的子染色体:毛利率、税收负担率、存货收入比、财务费用收入比、流动比率。子染色体中包含许多基因如主营业务收入、主营业务成本、应纳税总额、存货余额、销售成本、财务费用、流动资产合计、流动负债合计等。现将其中的税收负担率、流动比率突变为:技术投入比率、速动比率。变异后的染色体为:毛利率、技术投入比率、存货收入比、财务费用收入比、速动比率。变异后的基因引入了其他基因,从而改变了染色体的性状,突破了当前搜索的限制,更有利于算法寻找到全局最优解(见图4,略)。
(三)税收风险分析指标模型的自我优化机制
遗传算法可以在税收风险分析指标模型优化过程中发挥重要作用。在运行初期,人工智能系统将收集到的涉税元数据进行随机匹配组合,形成指标模型,由于数据的组合方式多种多样,这个指标模型十分巨大,我们要利用遗传算法找到最适合分析企业实际税收风险的指标集。
第一步,系统随机选取任意数量的指标并任意搭配形成一组可行解,即第一代染色体,第一代染色体并无规律可循,是随机的。接着,我们利用适应度函数验证第一代染色体的可行性,检验这些指标集对税收风险的反应程度并凭此为第一代染色体打分,进而凭借适应度分数确定第一代染色体在下一次进化迭代中被选中的概率。
第二步,开始进化过程。为了保留优良的父代染色体,我们先将上一代中适应度最高的几条染色体原封不动地遗传给下一代,这是复制过程。接着将适应度较高的染色体进行交叉重组,形成下一代子染色体,再对新一代的子染色体进行变异操作,将组成染色体的基因随机突变,用其他基因进行替换,形成有别于第一代染色体的基因组合,提高染色体的适用范围。
到此为止,我们已完成第一次进化,新形成的第二代子染色体在理论上适应度整体高于第一代染色体,遗传下来的指标集对税收风险的反应程度要高于第一代随机组合的指标集。通过计算机强大的运行能力,在多次进化迭代之后,指标集的适应程度将会越来越高,对税收风险的敏感度也会越来越强,无效指标会逐渐被淘汰,指标模型的覆盖范围亦会越来越广,不仅能够处理税收风险常见问题,还能通过基因变异快速、有效地找到解决偶然问题的指标模型。此外,随着新税收政策的出台,新的指标模型会出现,原有指标模型会随之修订,不断优化的指标模型为税收风险防范提供了一张越来越细密的网,最终通过人工智能将纳税人涉税风险降到最低。
在分析利用遗传算法优化指型模型时,我们提到通过适应度函数给指标打分,从而将适应度较低的无效指标逐渐淘汰。除此之外,我们还可以通过将指标模型代入到案例库中,用实际案例对指标及指标模型进行检验和评分,达到淘汰分数较低、参考意义较小的指标,从而优化指标模型的目的。
(一)案例库的建立
进行案例库验证的前提,是要建立一个完善且典型的案例库。这需要有一个信息收集、提取和整理的过程。在建立和完善税收信息数据库时,可从以下几方面着手。
首先,要建立一个完善的全国统一的信息化平台,充分利用云计算和大数据技术,整合税务机关现有的涉税数据并划分归类,同时加强对纳税申报等信息收集的监管力度,保证信息的准确性和即时性。其次,要建立一个完善的信息共享机制,使得公共管理资源能够最大限度地服务税收,并打破各行业、各地区的数据隔阂,尤其在税务、海关、财政、银行、外汇、统计、行业管理、市场监管部门之间,要在建立信息共享和获取机制的同时建立部门联动数据库。最后,要加强与第三方机构的合作,充分挖掘各行各业的数据信息,做到信息不仅多样而且全面。
建立案例库时,要参考指标模型深度学习方法,通过拆解案例关键词信息、自动识别和归类,建立多维度的信息数据,以有利于后续指标的代入和验证。以某税务机关披露的利用商标申请隐匿收入从而逃税的案例为例。第一,要提取时间、地点等关键词,确定案件所适用的法律法规。第二,要提炼出涉案主体,主要提取企业名称。第三,要通过基于各部门之间建立的联动数据库,对应到该企业的具体类型、所属行业、行业地位、财务状况等信息。第四,根据案件背景、“作案”手法步骤(对应异常行为)、造成的影响和后果、相应的处罚结果等信息,建立多维度的案例库。第五,案例库分解后还需要通过人工智能将文字重新组合、整理,使各种不同类型的案例标准化,建立一个标准化的、能让计算机进行自动识别的新案例库。这个标准化的新案例库主要由代码组成,以便人工智能进行后续分析和预警。
(二)指标模型在案例库中的验证与优化
当纳税人案例库建立起来后,就可以将通过遗传算法获得的税收风险分析指标模型代入,以验证其是否能够用来分析和预测企业的税收风险,或者验证在企业发生税收风险时,这些指标模型能否及时和准确地预警等。我们可以通过正向和反向的验证,来对指标模型进行评分。评分完成后并不会就此结束,而是将这一过程循环往复地进行,直到按综合评分筛选出最优指标模型,并将其按实际情况修正成最符合要求的形式。此外,案例库也要随着税收法律法规、政策文件的变动而实时更新变化,这就需要将指标模型代入新的案例库进行验证。
例如,在一个税收案例中,某企业发生了偷逃税行为,那么将我们的税收风险分析指标模型代入到该企业的财务信息时,可能会发现我们的主要衡量指标显示异常(关键指标的异常衡量较为有效地揭示了企业税收风险的存在),或者某些重要的关键指标在其中并不显著(即该指标未能向税务机关发射出该企业存在的税收风险信号)。根据指标显著与否,我们可以对指标由高到低进行适当评分。当然,这样的衡量不是以个例为定论,因为可能100家存在税收风险的企业中,某个关键指标总是显著的,而只在3家企业出现了例外,这时候人工智能要去寻找出现这种“例外”的原因是什么,可能是由于受到该企业某个其他指标的连带影响,也可能与企业所处的特殊行业有关,或者与企业内部发展阶段有关,抑或只是衡量其显著的标准必须发生的变化……总之,人工智能要能从内而外地进行自主智能分析并记录下这些特殊的情况,最终通过海量的大数据和案例,不断对指标模型进行训练,即反复“验证—评分—修正—再验证—再评分—再修正”的过程,最终达到指标模型不断完善、税收风险分析更精准更高效之目的。
(本文为节选,原文刊发于《税务研究》2021年第5期。)
-END-
●数字人民币对税收正义的影响研判及因应对策——以涉税信息利用为切入点
点击“阅读原文”快速投稿~