其他

聚焦 | 税务稽查网络爬虫到底有多厉害?

2018-01-24 监管与合规



最近,区块链的热潮引发了人们对技术革新的渴望。互联网、大数据、人工智能……正以改变一切的力量,掀起一场影响人类所有层面的深刻变革。

与区块链技术税务总局刚开始研究不同,网络爬虫技术已经应用于税收工作,成为税务机关治税的又一把利器。网络爬虫到底有多可怕?税务稽查网络爬虫到底能干什么?网络爬虫到底是怎么抓取纳税人涉税疑点的?2017年第12期《税务研究》杂志刊发的《爬虫技术在税务稽查中的应用与思考》一文解析了这些问题,小编这就带您去看看。




爬虫技术在税务稽查中的应用与思考

张福伟

一、

税务稽查面临的信息困境

(一)信息获取渠道单一,内容有限

在传统的税务稽查工作中,检查人员主要依赖于企业的报表(会计报表、纳税申报表)、会计凭证、发票和第三方的鉴证报告(会计师事务所或税务师事务所出具的审计报告等)来获取所需信息,但由于这些资料均是由被检查的企业提供,很难保证其真实性。为此,税务部门在纳税申报表上设计了大量的关联项目,在一定程度上规避了一些常见的涉税风险,同时也大大增加了纳税人的负担。虽然进行了多次的优化,但纳税申报表项目之多还是饱受争议。随着“放管服”工作的推进以及税务营商环境的进一步优化,纳税申报表也有从繁向简演变的趋势,而这会使税务稽查人员获取的信息进一步减少。

(二)第三方信息的获取还停留在初级阶段

目前,税务稽查工作采用的第三方信息更多的是来自于银行交易数据的查询与比对。而这些信息仅仅是流水账式的数据罗列,其中个别信息还只是不完整字段的纸质信息,极不方便分析、统计。

(三)市场主体资本运作模式、交易模式不断创新,对税务稽查工作提出了挑战

现如今,各种商业模式不断创新,从盈利模式、资本运作模式,到交易的结构、支付的手段等都在不断的变化。企业为了适应这种变化,便更加依赖信息化。集团企业的财务中心模式、人工智能在内外部审计的应用等对税务稽查工作提出了新课题、新挑战。

二、

爬虫技术在税务稽查工作中的应用与面临的问题

爬虫技术已经成为搜索引擎的重要组成部分。传统的搜索引擎虽然已成为人们检索信息的重要工具,但传统的搜索引擎也存在着一定的局限性,如:效率低,搜索引擎所返回的结果包含大量用户不关心的网页;有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾进一步加深;不能很好地发现和获取不同数据结构的信息。而“网络爬虫”可以完全不依赖用户干预实现网络上的自动“爬行”和搜索,可以根据既定的目标更加精准地选择抓取相关的网页信息,有助于在互联网海量信息中快捷获取有用的涉税信息。

(一)爬虫技术在税务稽查工作中的应用

在2010年前后,各地税务机关已经开始尝试使用爬虫技术进行第三方数据的采集和分析,并收获了一定成效。例如,青岛市国家税务局利用爬虫软件,爬取了某境外上市公司的减持信息,进而查处了某境外非居民企业股权转让案件,查补税款接近2亿元;2016年,福州市国家税务局爬取了企业十大股东变化信息,继而对涉及企业开展评估,查补税款6 399.8万元,调减以前年度亏损71.91万元。

爬虫技术在稽查工作中的应用呈现出以下特点:一是从地域上看,沿海地区由于经济发达,涉及股权等资本交易的事项较多,爬虫技术应用也较多;二是从采集的信息内容看,爬虫技术主要集中在股权等资本交易事项上,特别是上市公司、中小板、创业板的强制披露信息的采集与分析;三是从合作形式上看,大部分地区都依托第三方科技公司进行开发,自行开发的较少;四是从实施成效上看,亮点不少,但占比不大,尚未形成有品牌效应的核心产品。

(二)爬虫技术在税务稽查工作中面临的问题

1.信息覆盖面较窄。例如,爬虫技术主要针对的是上市公司的公告和流通股股东变化,对于非上市公司信息的变化和其他股东的变化情况还不能掌握。另外,股权异地转让和合伙企业的穿透问题还有待进一步的探索。

2.信息源不稳定。一方面是由于网络信息变化快,同时,数据的真实性差,所以常会出现数据差错。因此需要在多个网站之间进行数据比较,在生成数据结果后还需要再次通过多方面信息进行核实。另一方面是由于“网络爬虫”的技术特点,网页的框架结构的变动会对抓取数据产生极大的影响,因此需要时常关注目标网页是否发生变动,并及时对程序进行修改维护。另外,随着涉税信息采集面的增加,上述问题发生的概率也成倍增加,维护成本也会增加。

3.信息安全成本较高。为了保证数据安全,爬虫软件几乎都要实施严格的内外网物理隔离。因此,互联网采集的数据通常是通过人工拷贝的方式复制进内网再进行加工。这种方式打断了数据从采集到加工的过程,阻断了全自动化的进程,无形中增加了运行成本、降低了效率。

4.人才十分匮乏。运用爬虫技术采集信息,需要既精于税收业务又懂计算机技术的人员,但工作中,这种人才非常少。

5.缺少统筹规划。无论是内部的人力资源、财力资源的配置,还是外部环境的沟通与构建都没有一个明确的实施目标与路径规划,亦或是有规划但可行性不强。

三、

加强爬虫技术在税务稽查工作中应用的建议

(一)从零散、不成体系的应用向系统集成转变

集成的主要内容包括数据源和分析模型。其中,数据源不应该仅仅是上市公司的信息,也不仅仅是区域的信息,而应是全国交易市场的信息及海外交易市场的信息,这些可 49 35291 49 17570 0 0 2963 0 0:00:11 0:00:05 0:00:06 3718参照反避税工作所进行的数据采集和对比工作。关于异质的数据结构的问题,国家税务总局进行标准化并定义好税务端的接口即可,数据清洗和加工工作则可以交由专门的机构进行。此外,为了保证爬虫软件的效率,同时减少后期数据的清洗和校验工作,可以采取“买数据”的方式,从目前基于网页的海淘式采集向从专业的数据公司购买清洗后的数据源转换,以大大提高“网络爬虫”的效率。

(二)从关注交易向关注资本转变

税务稽查的核心是对交易的判定,从而了解交易各方的情况。但交易是隐形的、复杂的,交易实质不容易把握与甄别。因此,税务稽查工作应运用爬虫技术,抓住资本这个关键,用资本的轨迹来重构企业交易行为的轨迹,通过两者相互印证,从而还原商业实质,强化征管。另外,通过资本还可以定位税收的风险点,例如在税务部门“打虚打骗”过程中,利用爬虫技术勾勒出涵盖自然人的资金流图谱,用金税工程三期系统的数据勾勒出涵盖全国的发票流图谱,并将两者进行对比,从而发现交易实质。

(三)从精准发现问题向大概率预测转变

现在的爬虫技术还停留在发现问题(如在股东处置资产后是否进行了申报等问题)的阶段。未来,应从发现问题向大概率预测问题转变。例如某公司发公告进行股权激励,那么在数年后可以等待该股权激励的兑现和转让;某公司计划重组,引入其他非关联的投资者,那么可以预测该公司的留存收益很有可能发生减少,等等。

(四)完善人才队伍

人们通常谈的是人员的素质无法适应现在新形势下的税务稽查工作,而笔者想强调的并不是当前人员素质不高的问题,而是人才错配的问题。在实践中,精通所有工作的人才几乎是不存在的。笔者认为,要想加强爬虫技术在税务稽查工作中的应用,首先要进行的是把税务部门现有的人力资源按照技术人员与业务人员进行分类,在分类的基础上实现对接和融合;其次才是考虑构建全方位人才队伍,实现技术人员与业务人员的统一。

(本文作者系北京市燕山地区国家税务局局长)



来源:《税务研究》2017年第12期


猜你喜欢(点击阅读)

【原创连载2】何渊:论数据权的区分保护和利用制度——政府数据篇

【原创连载1】何渊:2018数据权元年——从炮轰支付宝开始 

何渊:欧盟议会全球首个“关于制定机器人民事法律规则的决议”(介绍部分)

 何渊:政府数据开放的整体法律框架

 何渊:人工智能时代“大数据”加上“差异化算法”带来的身份歧视,就是商业领域隐匿的穷人与狗不得入内!

【前沿7】可识别个人信息、隐私以及新概念

【前沿6】打破匿名化的迷思:数字时代的匿名化挑战

【前沿5】美国布鲁斯的经典隐私理论和德国的人格权理论:四种类型的隐私侵权体系比整体保护体系更好吗?

【前沿4】这是私人的,但归我所有吗?—走向财产权的个人信息

【前沿3】关于马的法律—网络法到底该教些什么?

【前沿2】《自动驾驶的监管挑战:面对悲剧性选择人工智能如何决策》

【前沿1】监管人工智能系统:风险、挑战、能力和策略



诚意推荐 欢迎关注


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存