联邦学习技术在税收风险管理中的应用构想
作者:
温有栋(江西财经大学统计与数据科学学院)
黄 婷(江西财经大学统计与数据科学学院)
罗良清(江西财经大学统计与数据科学学院)
数字经济具有虚拟性、隐匿性以及交易资产超流动性等特征,交易过程通常涉及复杂的价值链条和多方参与主体,使得课税对象界限模糊、税收属地原则难以适用、税基估值难以确定等问题日益凸显。这导致税务部门难以对纳税主体的涉税行为进行有效追踪和监管,使得税收风险管理面临前所未有的挑战。数字经济时代,数据犹如工业经济时代的石油,是推动数字经济发展的关键要素。人工智能的核心在于利用大规模数据,通过算法和模型对数据进行处理和分析,数据的数量与质量直接决定了人工智能系统的性能及效果。中共中央办公厅、国务院办公厅印发的《关于进一步深化税收征管改革的意见》(以下简称《意见》)提出,“2025年建成税务部门与相关部门常态化、制度化数据共享协调机制,依法保障涉税涉费必要信息获取”。当前,我国税收征管已迈入以数治税的新阶段,强调在数字经济时代进行数字化升级和智能化改造,标志着从以票证管理为基础的模式向以大数据、云计算、人工智能等数字技术为支撑的新型管理模式转变。税务部门必须积极顺应数字经济时代发展浪潮,将海量数据资源和强大算法算力作为核心竞争力和新质生产力。然而,在税收大数据共享共治的过程中,由于受到部门边界约束、数据安全风险以及安全共享技术薄弱等现实困难的限制,大量熵值较高的关键涉税数据无法被有效地整合到智慧税务建设之中。而引入联邦学习技术,则能够有效缓解数据价值共享中面临的“不愿、不敢、不能”等难题。探索联邦学习技术在税收领域的深度应用,对于破解“数据孤岛”难题,进而提升税收风险管理智能化水平具有重要的现实意义。
二、当前税收风险管理存在的问题
(一)涉税数据多源异构性存在不足
从来源角度进行分析,税收风险管理的涉税数据主要分为内部数据和外部数据。内部数据包括纳税主体自主申报数据以及税务部门全流程管理数据,是涉税数据的主体部分(蔡昌 等,2023),其中涵盖税务登记、纳税申报、税款征收等环节沉淀的大量数据,为税收征管提供了直接依据。外部数据分为其他公共部门数据和非公共部门数据。其他公共部门主要指市场监管、财政、统计、金融监管等部门。尽管税务部门与部分公共部门通过特定方式达成了数据共享协议,但其共享方式以数据协查为主,源数据不会通过互联网进行共享。这一情况的出现,主要有两方面原因:一方面,是因为其他公共部门对数据享有权利利益;另一方面,则是出于对数据隐私安全保护的考量。此种做法使得“数据孤岛”现象越发普遍。从结构方面进行分析,现有涉税数据的主要类型为基于关系型数据库存储的结构型数据,对文本、图片和视频类涉税数据采集不足,尤其是运用自然语言处理技术对纳税主体提交或公开发布的文本内容挖掘不够深入。
(二)先进算法分布式计算的应用较为有限
在数字经济时代,分布式计算作为大数据处理的关键技术,不仅能够满足不断增长的数据处理需求,还能够显著提升系统的稳定性与可靠性,为税收风险管理提供强有力的技术支撑。现阶段,随着“全面数字化的电子发票”的稳步推广,税务部门能够对企业发票、税负率异常、虚假开户、企业社会保险费缴纳等一系列问题进行有效的预警和全链条追踪,从而有力地打击税法不遵从行为。然而,这种做法的本质并非机器学习算法分布式计算的成果,更多是基于发票全流程管理和资金全过程监管经验,并且所运用的方法也较为集中,主要为数据比对和会计勾稽法,进而导致税收风险管理的效率和精准度受到一定限制,难以充分适应数字经济时代复杂多变的税收环境,无法高效挖掘潜在的税收风险点,也难以对新型税收风险模式进行及时有效的识别和应对。
(三)大数据风控技术的融入存在不足
《意见》明确提出要在2025年前基本建成以“信用+风险”为基础的新型监管机制。纳税信用等级管理制度自2003年实施以来,在激励纳税主体诚信纳税、提高税收征管效率以及推动税收信用体系建设等方面发挥了重要作用。税务部门在纳税信用体制机制构建、数据采集、定级评价、结果运用、联动提效等方面建设成效显著。与之对比,税收风险管理的重点在于对税收风险的识别、评估和监测,旨在预防和控制税收风险的发生,是一个持续的动态过程。而纳税信用等级主要反映纳税主体过去一段时间内的信用状况,是税法遵从度的客观评价结果,便于税务部门实施差异化的税收管理政策。鉴于此,税收风险管理目标的实现迫切需要借助大数据风控技术。一整套大数据处理架构应至少包括数据采集层、存储层、处理层、计算层、模型与策略层、决策引擎层、监控与预警层、用户接口层等。其中可采用Hadoop、Hbase等分布式存储系统,同时需使用Spark、Flink等大数据计算框架。然而,当前在税收风险管理实践中,这一完整的大数据处理架构并未得到系统应用。具体表现为:在数据采集层,未能充分利用大数据技术广泛收集多渠道、多类型的数据资源,导致数据来源较为单一,无法全面反映纳税主体的真实风险状况;在存储层,传统的存储方式难以应对海量数据的存储需求,无法实现高效的数据存储和快速检索;在处理层和计算层,缺乏大数据技术的有力支撑,使得数据处理速度和分析能力受限,难以对复杂的税收风险进行及时准确的识别和评估;在模型与策略层,未能充分运用大数据分析建立精准的风险预测模型和有效的风险管理策略,无法为决策提供科学依据;在决策引擎层,随着数据量的持续增加以及业务的日益复杂化,容易引发性能瓶颈问题,进而对决策制定的效率与效果产生影响;在监控与预警层,也因大数据技术融入不足,难以实现实时动态的风险监控和及时预警,无法有效预防税收风险的发生;在用户接口层,未能充分考虑大数据时代用户对数据可视化和交互性的需求,影响了税务部门与纳税主体之间的信息沟通和风险管理的协同效果。由此可见,大数据风控技术在税收风险管理中的融入不足,严重制约了税收风险管理的效率和精准度,亟待加强和完善。
(一)联邦学习技术的性能优势
联邦学习(Federated Learning,FL)属于一种新型的分布式机器学习技术,亦是隐私计算的具体实现方式之一。联邦学习的核心思想在于确保数据隐私安全及合法合规性。在中央服务器的协调下,多个设备或计算节点被允许在不共享原始数据的情况下进行模型训练,最终获得全局模型,能够真正实现“数据不动价值动、模型动”,从而破解“数据孤岛”的共享难题。机器学习(Machine Learning,ML)作为大数据时代人工智能技术的主要代表之一,在处理大量数据、挖掘数据中的模式和关系方面具有显著优势。然而,其需要在集中式计算环境中进行模型训练,由此带来难以实现数据充分共享、数据泄露风险高以及服务器计算负载高等弊端,主要适用于数据共享和隐私保护并非首要考虑因素的应用场景。联邦学习本质上是机器学习的一个子集,它借鉴了分布式计算的思想,并在此基础上增加了对用户隐私保护的考量。联邦学习根据参与方的特征和用户ID交叉重叠的程度,可进一步划分为横向联邦学习、纵向联邦学习和联邦迁移学习。不同类型的联邦学习技术在基本特征、系统架构或组成、关键技术、适用场景以及实践案例等方面存在显著差异(见表1,略)。
相较于传统的统计建模方法或机器学习算法,联邦学习技术的性能优势主要体现在以下几个方面。
1.具备强大且可靠的隐私保护机制。在隐私保护领域,联邦学习实现了重大革新。传统的建模或训练过程通常需要先将数据集中起来方可进行训练,容易导致数据被非法窃取或滥用,还可能在法律和伦理层面引发诸多争议。得益于大数据分布式文件系统的发展,联邦学习能够凭借其独特的分布式学习机制,实现对敏感、涉密数据的有效隐私保护。
2.具有较强的数据共享与协作能力。在传统方法中,数据的共享常常会面临数据所有权归属以及格式不统一等诸多问题。而联邦学习的协调合作方式能够有效打破这一壁垒,使各参与方共同参与到模型的训练过程中。这不仅有助于提高数据的利用效率,还可促进数据之间的互补与协同,进而提升模型发现数据内在规律和特征的性能。
3.模型训练效率高且稳定。由于无须将所有数据集中至中心服务器进行计算,故能够极大地降低存储成本和通信开销。各参与方在本地训练模型后,只需定期与中心服务器进行参数更新交互,从而使得大规模数据的处理更加经济高效。面对源数据的异质性,传统机器学习算法模型往往难以良好适应,而联邦学习在本地数据源上进行模型训练,通常能够获得更高的泛化能力与鲁棒性,从而得到更加准确、更适应实际应用的模型。
(二)联邦学习技术的工作机制
一个完整的客户—服务端联邦学习架构至少需要包括一台中央服务器(协调者)和两个以上的参与方(数据拥有方)。其常规的实现过程主要涵盖初始化、本地训练、本地更新、聚合、模型更新与分发、迭代与收敛等主要步骤。具体过程如下:初始化是指各参与方对本地模型进行初始化操作,模型既可以是全新模型,也可以是预训练模型;本地训练主要是基于机器学习算法或深度学习算法对模型进行训练;本地训练完成后,各参与方需将更新后的模型参数(主要是指梯度、权重等)发送给中央服务器;中央服务器在收集好所有参与方的模型参数后,采用加权平均或其他算法对其进行聚合处理,从而得到一个全新的全局模型,并将其分发至各参与方,作为下一轮本地训练的初始模型;重复以上步骤直至触发停止条件,停止条件包括达到预定的迭代次数或收敛标准。在此过程中,为确保训练过程中数据的保密性,联邦学习通常使用同态加密技术对传输的模型参数进行加密处理,以确保在参数交换和聚合过程中数据不被泄露(如图1所示,略)。
(三)联邦学习技术嵌入税收风险管理的必要性
第一,打破“数据孤岛”,实现安全的数据共享。税收风险管理高度依赖于全面且准确的数据支持。联邦学习允许各参与方在无须共享原始数据的情况下,通过加密的梯度信息或参数进行模型训练,从而实现数据的“可用不可见”。这一特性既保护了数据隐私,又成功打破了数据壁垒,促使高质量的涉税可用数据实现成规模增长。
第二,优化资源配置,提升税收管理效率。联邦学习技术的应用使得税务部门能够更为精准地识别税收风险,进而有针对性地调配资源,对高风险领域和纳税主体进行重点监管。如此既能避免资源浪费,又能提高税收管理的整体效率。同时,通过联邦学习构建的税收风险预测模型,还能够助力税收管理部门提前规划税收征管策略。
第三,建立协作机制,提升多方合作质效。在智慧税务建设过程中,税务部门需要与金融监管部门、企业以及其他政务部门紧密合作,共同应对税收风险。借助联邦学习框架,不同机构能够在保护各自数据隐私的前提下,共同参与税收风险管理模型的训练,实现知识共享与风险共担,促进各方在税务领域的深入合作与交流。
第四,推进合规建设,增强公众支持力度。联邦学习技术符合《数据安全法》《个人信息保护法》等相关法律法规的要求,保障了数据处理的合法合规性。这能够有效提升纳税主体的信任度与满意度,为智慧税务建设的深入推进奠定更为坚实的社会基础。
第五,实现动态预警风险,提升应急响应能力。联邦学习通过实时更新和动态调整模型参数,使税务部门能够及时掌握最新的税收风险态势,从而快速作出决策。同时,基于联邦学习的税收风险监测体系能够提供实时的风险预警和风险提示,助力税务部门提前做好准备,提高应急响应的效率与准确性。
综上所述,联邦学习能够有力地支撑以数治税在税收风险管理领域的深层次推进,更新税收风险管理理念,优化税收风险管理分析手段,连通税收风险管理全环节(刘昊,2020)。构建嵌入联邦学习技术的税收风险人工智能管理体系,对提升税收风险管理效能具有重要意义。
(一)制度修订:确保数据共享通道畅通
尽管《税收征管法》第六条提出要“建立、健全税务机关与政府其他管理机关的信息共享制度”,然而该规定仅为原则性表述,难以从根本上解决实践中数据共享方面存在的问题。其一,税务部门可能因无法获取外部涉税数据而致使征管乏力。其二,税务部门可能因获取外部数据的方式不当而侵犯纳税主体或外部数据持有方的合法权益(沈斌,2023)。同时,尽管税务部门已与部分公共部门达成数据共享协议,但主要以协查合作为主,所获取的数据通常为结果性数据,更多地发挥着数据比对功能,对税收风险管理的模型训练和预警功能未能起到数据支撑作用。
对此,税务部门应当在系统领会《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》《数字中国建设整体布局规划》《“数据要素×”三年行动计划(2024—2026 年)》等政策文件精神的基础上,密切关注国家数据局发布的关于数据共享方面的制度安排,适应《税收征管法》的修订进程,厘清涉税数据的持有权、加工使用权和产品经营权,对照未来数据共享的标准、方式、安全保障等方面的规定提前做好准备。依据涉税外部数据的质量高低,陆续选择与其他公共部门在国家数据局制定的统一合作框架下真正实现涉税数据的共享建模,确保涉税数据的共享渠道畅通。
(二)顶层设计:集成式部署大数据架构
云端计算是人工智能时代的基本特征,联邦学习的核心架构包含中心服务器以及数量众多的参与方。税收风险管理大数据体系应以集成方式构建,在税收大数据和风险管理部门现有的云平台建设成果基础上,最大限度地利用并发挥平台功能。同时,在条件允许的情况下,为降低数据传输成本和集中计算开销,可与其他公共部门联合共建节点服务器。不同公共部门在选取节点服务器建设地址时,可优先考虑该部门中心服务器所在区域,形成数据共享联盟后,即可按照既定的联邦学习任务定期开展税收风险人工智能模型的训练与预警,不断优化模型性能。基于数据安全的考虑,税收大数据和风险管理部门应自主建设并维护支持联邦学习的中心服务器。此外,还应从税收风险管理大数据体系的视角,明确建设目标和原则,统筹数据集成平台建设,开发风险识别与评估模型,强化风险监控与预警机制,提升风险应对能力,推进税收风险管理大数据体系的系统建设。联邦学习在近几年迅猛发展,技术逐渐完善并被广泛应用于不同平台。国内具有代表性的联邦学习开源框架主要有微众银行的FATE(Federated AI Technology Enabler)、百度的飞桨(PaddlePaddle) 和字节跳动的FedLearner ;国外比较有代表性的是谷歌的TFF(TensorFlow-Federated) 和OpenMined的PySyft。这些平台和框架提供了丰富的功能和工具,技术人员进行二次开发能够相对容易地完成联邦学习框架设计,但需结合具体的业务场景、数据特点和技术需求进行开发(李少波 等,2022)。本文构想的税收风险管理联邦学习大数据架构如图2(略)所示。
(三)实施路径:全链条嵌入联邦学习技术
在税收风险管理中全链条嵌入联邦学习技术,需首先考量涉税数据特性、算法适配性、隐私保护机制等问题。在涉税数据特性方面,应关注数据分布与多样性。不同地区的税务机关拥有相似的税收数据特征以及不同的纳税主体,这符合横向联邦学习的适用场景。然而,由于我国税务部门是垂直管理机构,且税务信息化发展目前已经能够打通不同地区的税收数据壁垒,所以在税收风险管理实务中应重点关注纵向联邦学习技术的运用。此外,由于税收数据分布在不同的参与方,需要对数据进行清洗、缺失值处理以及异常值检测等操作。算法适配性是指根据税收风险建模的实际需求选择合适的机器学习算法,并系统评估算法的收敛速度、性能表现以及资源消耗等情况。由于数据分布在不同的参与方,需同时考虑使用更高效的通信协议、设计更合理的模型更新策略。隐私保护机制主要包括加密技术、安全协议与审计。尽管联邦学习旨在保护数据隐私,但攻击者仍可能通过梯度信息、模型参数或其他中间结果恢复原始数据或获取敏感信息。本文的应对策略是联合使用区块链和联邦学习技术,利用智能合约管理数据访问权限,使用分布式记账技术记录所有数据交互行为,引入共识机制确保数据交互是一致且可信的。
基于前述顶层设计和联邦学习技术的框架结构,结合现阶段税收风险管理的特点,深度融合纵向联邦学习和区块链技术的税收风险智能化实现流程,应至少包括以下主要步骤。
1.数据标注。数据标注乃是机器学习模型理解并学习数据的关键环节。机器学习模型通过对大量标注过的数据进行学习,以优化自身性能。数据标注能够助力模型理解数据的特征与模式。常见的机器学习任务主要分为有监督学习与无监督学习两类,而有监督学习又可进一步细分为分类和回归。在税收风险管理的衡量中,既可以采用有无税收风险的分类标准,也可以采用基于综合指标评价法来测算风险的高低。考虑到“信用+风险”监督体系的构建,可尝试将纳税信用等级为A、B、M的样本标签标注为无税收风险,将纳税信用等级为C、D的样本标签标注为有税收风险;也可将税务部门现阶段需重点关注的几类税法不遵从行为界定为有税收风险。此外,税务部门还可以汇聚税收风险管理领域的内外部专家、学者,建立税收风险特征库。尤其对于涉及其他公共部门共享的特征数据,需确保其真实性、连贯性与可得性。
2.模型试建。在获取标注好的样本特征数据与标签数据后,将样本划分为训练集、验证集和测试集。选取逻辑回归、XGBoost、梯度提升决策树、因子分解机、神经网络等机器学习分类算法对数据进行建模。在此过程中,可运用智能优化算法对参数进行优化,并从准确率、精确率、召回率、F1分数、ROC曲线、AUC值等方面对模型的性能进行综合评估,从而得到最适合税收风险管理智能预测的机器学习分类算法模型。
3.系统部署。基于大数据生态体系结构,构建基于分布式文件系统的税收风险管理大数据平台。采用兼容智慧税务的云数据库产品搭建数据仓库,需最大限度地兼容其他公共部门共享数据的格式标准。在建设一个支持联邦学习的中心服务器的基础上,接入若干个联邦学习参与方,并部署支持分布式计算的SparkMLib框架。鉴于税收风险预警的客观需求,同时需部署支持数据流处理和数据可视化的大数据环境。
4.联邦建模。假设税务部门(以下称为“A方”)与某个公共部门(以下称为“B方”)进行税收风险纵向联邦学习建模。A方同时拥有数据特征和样本标签,而B方仅拥有其他数据特征。主要建模步骤包括:数据清洗、实体对齐、密钥生成与分发、加密梯度交换、模型参数更新、模型评估以及模型优化(见图3,略)。
5.结果运用。税收风险管理模型在经过多轮次的联邦学习建模后,可将预测的税收风险结果与传统税务稽查手段查验的结果进行比对。若二者的税收风险结果吻合度达到预期,则表明可以将税收风险预警结果进一步推广使用,并采用数据可视化方法进行多维呈现(宋震,2019),连通智慧税务数据平台结果界面。同时,基于涉税数据共享共治的原则,可将预警结果通过系统一并分享给其他公共部门。若结果吻合度不高,则需要继续向模型提供更高质量的训练数据,并重复上述步骤。
(本文为节选,原文刊发于《税务研究》2024年第11期。)
欢迎按以下格式引用:
温有栋,黄婷,罗良清.联邦学习技术在税收风险管理中的应用构想[J].税务研究,2024(11):68-74.
-END-
●个人所得税以家庭为单位征收的效应分析——基于CFPS 2020微观数据的测算