查看原文
其他

隐私计算技术在税收大数据共享共治中的应用展望

税务研究 税务研究 2024-06-03



作者:

国家税务总局深圳市税务局课题组







近年来,税务部门已建成初具规模的税收大数据体系,税收大数据逐步成为服务宏观经济决策和提升社会治理能力的重要资产。随着完善税务监管和优化营商环境要求的不断提高,仅凭税务系统内部采集的数据,无论在数据体量还是在数据质量上已难以满足税务执法、服务、监管的数据需求。为更好支撑税收共治建设,高效发挥数据要素驱动作用,税务部门迫切需要拓展涉税数据获取来源,提升涉税数据质量,积极发挥税收大数据服务经济社会发展的质效。与此同时,随着税收大数据价值被广泛认可,数据安全问题也引起了国家和社会层面的高度重视,我国陆续出台《网络安全法》《数据安全法》《个人信息保护法》等法律法规,寻求数据价值发挥和安全合规的动态平衡。隐私计算技术具有“原始数据不出域,数据不动价值动”的特性。将隐私计算技术应用在税收大数据共享共治中,可以在保护数据安全和促进数据高效流通上提供重要且关键的能力支撑。


一、隐私计算技术发展背景及现状

(一)数据安全应用的挑战与机遇

数据是数字经济的核心生产要素之一,数据安全共享是我国数字经济高质量发展的重要保障,数据应用要统筹好发展与安全。数据由于具有无形性、可复制性等特征,在数字经济发展中充分发挥基础资源作用和创新引擎作用的同时,伴生着数据安全风险与治理问题。数据安全问题贯穿于数据产权、数据流通和交易等基本制度之中,对保护民事主体合法权益、维护国家安全和促进数字经济发展具有举足轻重的作用。也正因如此,国务院发布的《“十四五”数字经济发展规划》将“统筹发展和安全”作为重要的指导思想,以“坚持公平竞争、安全有序”为底线式基本原则,要求在数字经济发展中“牢牢守住安全底线”。

数据共享有助于推动政府治理体系和治理能力现代化,不断提高决策科学性和服务效率。在政务服务中发挥上述积极功能的同时,数据特别是政务数据安全的重要性越发提高。当前,政务数据安全面临网络攻击、管理缺陷、数据推理、灾害事故等威胁。数据共享度越高,政务数据的体量就越大,不仅汇集大量公民个人数据,更包含众多国家秘密数据和不宜对外公开的内部工作数据,一旦在各种威胁下发生安全风险,将对国家利益、社会利益和公民合法权益带来严重威胁。因此,着力解决数据安全领域的突出问题,有效提升数据安全治理能力迫在眉睫。

(二)隐私计算技术及应用发展介绍

隐私计算是面向隐私数据全生命周期保护的计算理论方法和技术,是隐私数据的所有权、管理权和使用权相互分离时,对隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算的技术优势使其在数据安全领域具有极强的应用空间。

1.隐私计算的技术优势。隐私计算是一个融合了人工智能、密码学和数据科学等诸多领域的跨学科技术体系,能够在保护数据本身不对外泄露的前提下,实现对数据价值的挖掘和开发利用。隐私计算由多个参与方通过协作算法对数据进行联合计算,在明文数据不出本地的情况下,各参与方均可获得联合计算结果,形成多源数据跨域合作。这种技术优势既破解了数据保护与融合应用难题,也解决了传统数据流通所带来的数据安全不可控、隐私泄露等风险,实现了数据的“可用不可见、可算不可识、可控可计量”。

目前,隐私计算技术常见的实现路径包括联邦学习、多方安全计算和可信执行环境等。联邦学习是一种隐私计算和机器学习结合的技术,使用同态加密对传输的数据进行隐私保护,可以在各方数据不出本地的情况下联合多方数据源进行人工智能(AI)建模,并提供模型推理与预测服务。多方安全计算是一种基于密码学的计算技术,通过安全的算法和协议,在各参与方不泄露各自明文数据的情况下,得到与明文计算一致的计算结果,从而保证各方数据的安全和可用。可信执行环境是一种基于硬件的解决方案,通过使用具有特殊指令集的中央处理器(CPU),让数据仅在计算机中受保护的特殊区域进行明文计算,数据离开该区域则保持密文状态,可以有效防止数据泄露。

2.隐私计算与传统方法的区别。相比传统集中式的数据库处理,隐私计算无须将数据集中存储,而是分布在数据合作的双方或多方隐私计算客户端。数据分析师在控制台上撰写提交数据库查询语句,系统进行安全检查和解析,并调度各客户端一起进行计算。二者的区别主要有两点。一是隐私计算使用方便。分析师不需要了解系统底层细节和具体的密码学运算原理,只需要跟日常工作中一样根据分析需求撰写数据库查询语句,系统会自动检查并过滤掉不安全的语句,执行安全的语句。二是隐私计算部署方便。隐私计算可以基于已有的大数据集群算力和容器化引擎进行部署,并针对各种不同的场景灵活伸缩,系统高度集成,一次部署即可使用多种计算能力。

3.隐私计算政策环境。近年来,我国多部门密集出台了一系列政策文件,提出支持隐私计算技术探索、促进数据要素流通的意见,使隐私计算产业迎来良好发展环境。2022年12月,中共中央、国务院印发的《关于构建数据基础制度更好发挥数据要素作用的意见》指出,鼓励公共数据在保护个人隐私和确保公共安全的前提下,按照“原始数据不出域、数据可用不可见”的要求,以模型、核验等产品和服务等形式向社会提供。此种“原始数据不出域、数据可用不可见”要求恰合隐私计算技术的技术优势,为隐私计算技术在数据安全特别是政务数据安全中的广泛应用奠定了政策基础。其实,在《关于构建数据基础制度更好发挥数据要素作用的意见》发布之前,我国就已经在相关政策文件中明确提出了在政务数据运行体系中应用隐私计算技术,以保障政务数据安全。比如,2022年1月,中国人民银行印发的《金融科技发展规划(2022—2025年)》提出,充分释放数据要素潜能,着力打造布局科学、安全可靠的数字基础设施,筑牢金融转型与创新发展的“数字底座”,其主要依赖区块链、隐私计算等作为核心技术能力。

4.隐私计算典型应用案例。近年来,隐私计算因其技术优势已经在金融风控、数据交易、政务服务等多场景中得到应用。

(1)金融风控场景。环顾国内外,欺诈行为对金融市场和投资者造成了严重损失。为了做好风险防控,国内某商业银行搭建了隐私计算平台提升外部大数据安全融合能力,联通税务、司法、电信、市场监管、征信等十个部门的数据源,通过上千个数据维度的外部大数据进行小微企业风险控制建模。模型应用后,银行的不良贷款率大幅下降,大数据风控能力得到显著提升。

(2)数据交易场景。广州数据交易所围绕数据的开放、共享、交换、交易、应用、安全、监管等数据要素全周期,为经营主体提供了合规安全、集约高效的数据流通交易综合性服务,在数据交易模式、交易主体、交易标的等方面开展了一系列创新,严格按照数据“可用不可见、可控可计量”以及“数据不出域”的要求,建设登记平台、数据交易平台和监管平台等基础设施,引入多方安全计算、联邦学习等隐私计算技术,构建完善的数据交易安全防护体系,确保数据在合规登记、流通交易和监督管理等全流程中顺利开展。

(3)政务服务场景。隐私计算已被多地政府纳入数字化发展规划,作为促进数字经济发展的突破口,融入交易所、数字政府、数字社会建设等。比如,福建省公共数据资源开发服务平台以海量公共数据为基础,整合公共企事业及社会数据,以场景化开发模式,根据“数据可用不可见”原则,依托隐私计算环境,实现多源异构数据的开发利用,目前已有133家应用单位接入,形成数据目录2 042个,涉及数字金融、健康医疗、教育科技等领域。

5.隐私计算参与的角色。

(1)数据提供方。所有在可信计算平台中提供数据的参与方都是数据提供方。数据提供方要求在数据资源开发利用的过程中保护其数据隐私,对数据的具体用途和用量进行有效管控和统计分析,并根据数据的使用场景和使用频次对数据价值进行评估。数据提供方需要隐私计算提供标准化、便捷的接入规范和数据接口,以确保数据供给安全可靠。

(2)算法提供方。算法提供方提供数据资源开发利用场景中涉及的算法或模型。算法提供方具备足够的业务知识和算法开发能力,能够根据场景需求设计算法,并结合数据提供方的数据搭建数据服务或数据应用。算法提供方需要能够借助样例数据或模拟数据,在离线或在线开发环境中完成算法的开发、调试和发布工作,并对关键算法参数和模型进行有效保护。同时,算法提供方可以从隐私计算平台获得算法库和函数库的支持,提升算法开发效率,降低开发门槛。

(3)数据使用方。数据使用方是公共数据资源开发利用场景中的实际需求方。数据使用方能够发现在具体应用场景中的数据价值,并协同算法提供方完成对数据应用场景的设计和实现。所有组织或者个体都有成为数据使用方的可能。数据使用方需要通过浏览和搜索数据资源目录,了解数据资源详情,基于自身需求发起并完成数据资源申请流程,提出数据开发利用场景的需求,在平台方的支持下,协同其他各方完成数据服务或数据应用的实现。


二、隐私计算在税收大数据共享共治中应用的实践探索

(一)隐私计算在税务领域应用的实践背景与目标

1.实践背景。目前,税收大数据在安全共享方面存在以下方面的困难与挑战。一是获取外部高质量涉税数据存在困难。受制于部门边界约束,外单位进行数据输出的意愿不强,已公布的数据开放目录与税收业务的贴合度不高,资金流、项目投资、用水用电等高价值涉税数据获取难度较大,已获取的外部数据在税收治理中发挥的作用有限。二是对外提供税收大数据存在风险。按照国家法律法规有关规定和纳税人缴费人权益保护要求,纳税人缴费人明细数据未经授权不予对外提供,各级税务机关对外提供数据以汇总数据或结果数据为主,税务部门采集的大量与经济民生相关的明细数据难以发挥社会效能,税收大数据服务社会发展和支撑政务决策的能力有待提升。三是安全共享技术亟待突破。受制于网络环境复杂、存储制式差异、数据标准各异,数据传输难度较大。传统的批量数据迁移和数据服务接口等交换方式难以满足数据安全的要求,迫切需要新的安全共享技术驱动数据共享业务实现突破。

2.实践目标。大数据是智慧税务建设的重要保障,要使其在税收治理中充分发挥数据优势、职能优势与共治优势。但目前税收大数据在安全共享方面存在的困难以及税收大数据运用带来的个人信息权益、企业数据信息等安全保护风险,都对税收大数据共享共治带来实践挑战。为此,可以引入隐私计算等技术,探索建立税务内外部数据共享应用中规避敏感信息泄露问题的实现路径,有效缓解数据价值共享中面临的“不愿”“不敢”“不能”等难题,进一步探索隐私计算与区块链、可信身份验证、零知识证明等技术融合,研究建立可用、可流通、可追溯的数据可信流通体系。

(二)隐私计算在税务领域的探索应用

1.税务内部场景。为保障商业秘密和个人隐私,对个人所得税、社会保险费、房产交易等敏感数据,税务系统内部一般进行单独存储,并严格控制访问权限。此类重要信息难以用于日常税收大数据风险分析,数据价值发挥受限。通过多方安全计算技术,在不泄露个人所得税、社会保险费、房产交易等明细数据的基础上,可以利用各税费种征税对象之间计税依据存在关联的特性,对个人所得税、社会保险费、增值税、印花税等进行跨税种联动风险分析,精准挖掘出存在隐瞒收入、虚开发票等税收违法行为的纳税主体。比如,国家税务总局深圳市税务局(以下简称“深圳税务”)通过隐私计算技术计算出同一纳税主体增值税与个人所得税申报劳务报酬收入、生产经营所得的差异,筛选出潜在纳税遵从风险信息,并将计算结果发送给风险控制部门进行风险排查。

2.政务部门联合建模场景。比如,深圳税务联合市场监管部门共同部署隐私计算平台,围绕企业登记注册、经营情况、资质许可、信用遵从等主题,各自设计数十个不同维度的企业特征数据,开展联邦学习建模,在保证原始数据不出域的情况下,通过各自掌握的企业特征数据进行协同共治,先后探索建立了虚开企业识别、企业综合信用画像、企业外迁预测等典型应用场景。传统的税收风险管理模型往往基于税务内部数据建立,在日常的风险管理工作中已被反复使用,如何进一步提升虚开企业识别模型的准确率尚存瓶颈。经过联合机器学习,深圳税务利用市场监管部门提供的行政许可、企业资质、房屋租赁、个人征信等企业特征数据,对现有虚开模型进行丰富完善,提高模型识别准确率。再如,目前企业的信用报告中,税务相关信息仅有纳税人状态、欠税信息、A级纳税人信息等,税收大数据的维度较少。基于隐私计算平台,将企业纳税申报信息、税收缴款信息、税务风险管理信息等三十余个税务指标作为建模因子,与其他数十个现有信用指标共同进行联邦学习建模,所形成的企业综合信用画像更加全面、权威。

3.税务金融部门联合建模场景。比如,深圳税务与金融部门深度合作,利用银行账户余额、资金流、“黑名单”等信息共同建立了欠税企业银行账户余额查验模型、企业所得税少缴税款风险模型、大额开票纳税人资金流比对模型,将大额欠税企业作为重点清欠对象,与银行的账户信息进行联合建模,挖掘出可追缴欠税的线索,移交税收征管部门进行欠税清缴。此种联合建模场景对税收征管和风险控制的提质增效发挥了重要作用。再如,为提升银行贷前评估和贷后监管能力,降低中小微企业融资成本,深圳税务联合金融部门共同建立了银行贷款授信额度评估模型、银行贷前评估和贷后监控模型,与银行联合开展个体户贷前信用评价模型,运用经营主体相关登记、信用监管、业务办理、纳税信用、征信等多维度数据,训练出经营主体信用评价模型,并将模型打分结果应用于经营主体普惠贷前评估,助力解决优质经营主体的融资难题,发挥税收大数据在服务经济社会发展中的效能。此种联合建模场景为服务地方经济高质量发展发挥了重要作用。


三、隐私计算在拓展税收大数据共享共治格局中的应用展望

(一)隐私计算将加快现代信息技术在税收大数据共享共治中的深度应用

1.隐私计算与区块链结合增强数据安全保护能力。区块链是用于追踪溯源的技术,虽能够保障数据的完整性和不可篡改性,但难以解决共享过程中的数据保密问题,而隐私计算及其中的密码算法则能保障区块链每一节点数据账本的隐私性。同时,隐私计算通过与区块链融合,能够将过程可追溯、身份可信任、数据去标识等技术的信任特性融入隐私保护方案中,实现数据全流程可追溯、可计量。区块链与隐私计算的结合将显著增强数据安全保护能力。一方面,区块链共享平台结合隐私计算技术,可以解决共享过程中的隐私保护问题,有助于吸引更多数据参与方接入;另一方面,隐私计算平台引入区块链技术,可以解决数据确权和完整性问题,有助于达成多方数据协作。

2.隐私计算将拓展人工智能在税务领域的应用场景。人工智能技术需要依赖足够规模且多样化的数据,才能训练出预测效果好的模型。当前,“数据孤岛”和数据泄漏风险严重限制了人工智能对数据价值的深度挖掘。而隐私计算是人工智能的重要补充,能够解决数据的连接问题,有助于打破“数据孤岛”,为算法的持续进化提供数据补充。可以说,隐私计算的联邦学习是人工智能的升级版,是带有隐私计算功能的机器学习平台,既能够提供人工智能建模能力,又可以通过密码学技术进行隐私保护。通过引入隐私计算,税务部门可在拓展与外部门数据共享范围的同时,沉淀人工智能算法模型,基于联邦学习不断提升纳税人画像建模效果。

3.隐私计算将促进Web3.0与税收共治应用的深度融合。Web3.0是基于分布式账本技术、密码学技术实现价值点对点传递的“安全可信的价值互联网”,可归纳为以用户为中心,赋予用户数据自主权,提升用户算法自主权,建立全新的信任与协作关系的新型经济系统。在Web3.0时代,用户倾向于用更彻底的方式保护个人数据隐私,从而引发数据所有权和价值的转移,而隐私计算的技术特性可保证数据在使用过程中“可用不可见”,成为搭建Web3.0的重要抓手。综合运用Web3.0和隐私计算技术,可以在税务人、纳税人缴费人之间搭建安全可靠的数据传输、沟通交流平台,实现数据共享、远程办公、不接触办税、大企业直连等应用。

(二)隐私计算将提升税收大数据的治理能力和服务水平

1.完善政务数据共享应用体系。一是搭建支持各政府部门接入的隐私计算平台和区块链平台,统一技术标准,能够有效降低各部门应用新技术的门槛。具体地,政务和大数据、税务、统计、金融管理、市场监管等部门可率先试点,以点带面营造政务数据共享新生态。二是发挥新技术在特定应用场景的技术优势,与传统的数据共享技术结合,进一步完善政务数据共享交换机制,实现跨部门、跨地域、跨层级数据要素有效流通和充分共享,高效满足各地区各部门数据共享需求。三是推动公共数据和社会数据共享开放,形成政府、企业、个人等不同层面的数据协同共享机制。

2.提高税务风险的监管能力。借助隐私计算技术加强税务、金融数据的关联比对,实现对涉税违法行为惩处从事后打击向事前事中精准防范转变。比如,目前银行已将隐私计算应用在贷前审批、贷中监控、贷后管理等金融风控场景中,而税务部门和银行之间的数据交互,受制于各自数据安全管理规定,仍局限在银税互动产品及税务稽查立案后的资金往来查询上。有鉴于此,建议税务和银行之间通过搭建多方安全计算平台等方式,对发票信息中存疑的银行账号、交易金额、交易主体等信息与银行资金流水信息进行联合比对分析,降低税务部门查询资金流的门槛。此种做法不仅有利于税务部门的税收征管、监管,也可以有效提升银行对洗钱、虚假资金流的甄别能力,实现部门之间的“数据合作双赢”。

3.提升税收大数据服务社会治理效能。按照“原始数据不出域、数据可用不可见”的要求,以联邦学习、隐匿查询、多方安全计算等形式,提供模型、核验等产品和服务,丰富税收大数据的输出维度。比如,借助联邦学习平台,充分利用税务、银行、企业的三方更多维度数据进行协作建模,完善企业信用画像,实现企业综合评估、银行授信和税务监管的全闭环管理,降低企业融资的成本,进一步发挥税收大数据服务经济社会发展的效能。

(三)隐私计算将促进政务数据的安全共享应用

当前,在隐私计算领域,供应商众多且标准互不兼容,采用不同隐私计算平台的机构之间无法真正打破“数据孤岛”实现互联互通。因此,基于税收大数据的重要性,要先行打造政府内部数据安全流通试点,带动更多政府部门根据相同的协议标准接入,实现更大范围的数据互通,即通过税收大数据开放共享的先行先试,进一步促进政务数据的安全共享应用,助力打造政务数据的数据开放标准、数据应用标准、数据价值标准。一是在数据开放标准方面,要依托隐私计算技术打通政府内各部门间的数据壁垒,部门间可直接相互使用数据结果,节约发函时间,即以税收大数据开放场景助力政务数据开放,打造政务数据开放的示范案例。二是在数据应用标准方面,应用隐私计算技术后,数据安全性将得到保障,在此基础上,可以探索更多的部门间数据应用场景,为政务数据的多元应用打造标杆案例,助力建设政务数据应用标准。三是在数据价值标准方面,要加强对数据的深入挖掘,实现部门间数据的互通共享,让数据分析应用常态化,提升政务数据的利用价值,打造政务数据价值探索的标准。

(本文为节选,原文刊发于《税务研究》2024年第2期。)

欢迎按以下格式引用:

国家税务总局深圳市税务局课题组.隐私计算技术在税收大数据共享共治中的应用展望[J].税务研究,2024(2):73-78.

-END-

新一轮财税体制改革:重点突破与方向展望

中国式现代化与税制建设

税收:强国建设民族复兴的稳定鳍

服务中国式现代化的税收治理优化研究——基于全球公共风险的挑战

相对中性理念:破解增值税改革难题的钥匙

中国增值税改革:历程、特色与展望

生产、生活性服务业企业增值税加计抵减政策效应研析

税收政策促进就业的理论分析与实践探索

中国式现代化进程中的税收制度体系现代化研究

我国非居民企业机构、场所税收管理探讨——基于北京市的调查

推动高质量发展的绿色税收体系完善

协同推进降碳、减污、扩绿、增长的税收政策设计:理论逻辑与政策启示

服务中国式现代化的绿色税制优化研究

健全税费联动征管服务机制的思考——基于浙江实践的调研

《税务研究》2024年重点选题计划


点击“阅读原文”快速投稿~
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存