400-0011-866

大数据分析库—PetaBase

定位于管理大规模结构化数据

首页 > 产品 > Petabase > 热门文章

大数据在防范偷税漏税方面的作用


本讲座选自华宇软件吕宾先生于2015年6月5日在RONG系列论坛之四——大数据与诚信社会研讨会上所做的题为《大数据在防范偷税漏税方面的作用》的演讲。

吕宾先生于1997年毕业于中科院软件所,获得硕士学位。1997年就职于北京九州计算机网络有限公司,担任副总经理职务,先后负责了公司多项产品的研究开发和推广工作,2001年获得北京电子政务推荐应用。2003年开始就职于北京华宇软件股份有限公司(原北京紫光华宇软件股份有限公司),现担任董事、副总经理职务,主持华宇集团大数据应用与服务相关的经营业务,涉及行业包括税务、金融、政法、食品药品监管、卫生等。

吕宾:尊敬的韩院长、各位专家、各位同仁,大家上午好,非常感谢组织者给我这么一个机会能向大家汇报一下我们正在做的大数据应用方面的具体工作。

05年我开始在集团主管与数据应用和服务相关的工作,包括现在非常热门的大数据应用。多年来,华宇参与了很多行业的数据应用信息化建设,比如在税务、银行、卫生、政法等,同时我们为越来越多的行业监管分析工作提供专业的数据应用服务。

这是我们公司从2001年11月上市以来的股票价格走势,我们公司奉行的是稳定发展的理念,发展还是比较平滑、向上的。人家说不对,这上面有两个断崖式的跳水,那是因为我们做了两次10送10的分配,因此总体来讲还是很连续的,从上市的发行价到现在,公司又成长了八倍多,也给股东带来了比较好的回报。围绕着大数据业务,整个集团在多个方向进行布局,有今天要给大家介绍的税务方向,也包括我们长期服务的司法领域、工商信用领域以及食品安全相关的互联网营销等方向。

具体汇报内容分三个部分:

第一,大数据在税务领域的实践介绍。

第二,防范偷税漏税的大数据应用。

第三,应用的挑战和展望分析。

税务的大数据应用可以从宏观和微观两个层面来展开。微观层面的主要目标是提高企业纳税遵从度,查处涉税的违法、犯罪行为,保证财政收入的稳定发展。宏观层面通过税收相关的指标分析,反应宏观经济的真实状况,对国家出台的政策进行后续的效果评估,对税收工作本身的开展进行成本效益的分析。

我们通过增值税发票的流向、流量分析支撑政策效应评估选题,选择增值税作为研究的主要依据有两个,第一个是它符合我们国家以流转税为核心的税制体系;第二,所有的增值税数据都源自实际发生的业务,纳税人对增值税的遵从度比较好。

分析的难点有两个:第一个难点是数据量非常大。目前增值税专用发票数据将近十亿条,每条数据不到1K,但是在新的改革方案上,增值税数据将涵盖商品交易的明细,数据量将扩大到每条200K到2兆的量级。增值税发票数据采集的力度增加使今后分析难度增大的同时将会给管理部门带来更好的应用价值。如果真正实现全社会的交易数据都在发票中体现,现在互联网上流行的比价软件就没有了实际的意义,当然,这是以数据公开为前提的;第二个难点是发票变化规律难以表现。基于这样的一些特点和难点,我们采用了大数据的处理方法和可视化的改进技术来研究这个课题。

先看一个动态分析图,这是我们系统中用可视化工具实现的增值税流量、流向分析图。圆点代表地区贸易总量,弧线的宽度和地区之间的贸易量成正比。从2007年到2013年的7年间,各地区的圆点越来越大,说明地区的贸易总量越来越大。反应地区之间贸易关系的弧线越来越粗,说明地区间的贸易量在快速增加。

弧线在2009相对2008年略有变细。反映2009年度贸易活动比2008年有所减弱,这跟经济危机的发生比较吻合。

我们进一步对出口退税数据进行分析,从图上看出,这段时间出口退税的增幅迅速下滑,经济危机对国内贸易活动的影响得到了印证。

为了应对金融危机,国家采取了四万亿拉动内需的行动,投资的流向从税收数据上可以非常明显的反应出来,流向了铁路公路等基础建设方面。分析图上不难看出,建筑行业快速增长,与之对应的整个行业的增长率则是比较明显的下滑。

从发票流向动态分析图中,我们可以看到,07年北京和广东的贸易往来是非常弱的,弧线非常不清晰。但是从07年之后到2013年,北京和广东之间的贸易关系增强了,特别是2013年之后贸易关系变得更强,这个阶段正好是京广线高铁全线开通的过程。参考相关数据指标,我们可以得出铁路的发展对实体经济有正向影响的结论。

从图上可以看出,弧线的热度形成了三个闭合的贸易区域即长三角经济区、珠三角经济区和京津冀经济圈,这正好和国家的宏观经济规划相吻合。

我们可以选定京津冀经济圈对税务大数据按行业往来进行进一步的分析,为国家宏观经济决策提供产业规划信息。

大数据在防范偷税漏税的应用讨论中,我们以纳税人画像技术为例。纳税人画像技术最早应用于电子商务的消费者行为画像,是互联网思路的体现。举个例子,如果一个消费者,经常在超市买红牛饮料和方便面,大家会有什么样的想法呢?这个人很可能是一个搞IT的程序员,或者是咨询师,如果同时他平均每天中南海香烟消费量超过一包,很可能是还没有女朋友的男程序员。纳税人也可以利用这个思路来进一步精细化的管理,把纳税人的行为特点和诉求进行分群,有针对性地调整风险评估的策略。

我们按照纳税人的“性格”、“行为”等特征对其分群,比如我们可以根据选定标签指标值的区间范围将纳税人划分为稳健守法型、激进冒险型等等。

对下图中的指标标签,大家可能有些疑问,比如大家可能认为交易用现金和刷信用卡没有太大的区别,或者在交易频率跟涉税有什么关系。举例来说,庆丰包子、海底捞和湘鄂情他们都是餐饮行业,他们在规模上可能也曾经都规模较大,但是从涉税管理的视角,他们的细分差异是非常大的,庆丰包子开发票的比例是非常低的,海底捞可能有一半人开发票,但是在湘鄂情因为公款消费比较多,几乎都是要开发票,他们的涉税特点是非常不一致的。

实际工作中我们将影响纳税人涉税行为的基本指标打上标签,选择单个或多个指标,根据其实际的值,完成纳税人画像。

纳税人画像和传统的底层数据挖掘分析相结合,使纳税人精细化管理更加有效。举个例子:我们根据绩效压力、信用等级、交易频率等基础指标的值将纳税人划分为稳健守法型和激进冒险型两类。针对稳健守法型企业,我们认为他不需要在纳税环节节省他的经费,他偷税漏税的风险相对比较低。于是我们选择激进冒险型的企业做进一步的监管,通过传统的数据挖掘分析,对风险指数在0.6以上的纳税人,采取现场纳税评估,确实是查到了很多的违法行为,也为国家查补了相应的税款。

大数据应用在加强税收监管的同时,也可以为纳税人提供纳税服务。针对不同的纳税人画像提供适合其业务现状的税收法规处理指导,比如,提供一年中获得奖惩的记录,推送给他重要的减免税的优惠信息,设定他在纳税方向的信用评级,这些都是现在正在进行的工作。

目前我们国家税收法律、法规繁多,对于一项税务处理可能会涉及到几个甚至十几个来自国务院、财政部、税务局等多部门的相关文件,对于非法律专业出身的纳税人税务处理人员难以准确理解政策内涵,造成不恰当的会计处理。另一方面国家在出台法律法规的时候由于没有纳税人的全面画像考虑,容易遗漏特殊情况的纳税人,举个例子,我们下属的一个子企业,09年成立,连续两年未盈利,没有享受到(财税《2008》1号)自盈利起两免三减半的政策;2011年,(国发《2011》4号)政策的出台没有明确我们这类企业如何处理,如果不享受4号文件的优惠政策,我们将面临几百万量级的所得税费用。经过多次政策的研究和相关部门的沟通,这个政策后来做了修正,修正对于众多的和我们有类似情况的企业意义很重大。如果有很好的基于纳税人画像的服务体系,把这个信息推送给企业,我们将节省很多资源。纳税人的政策解读及税务处理服务对于万众创新、创业会有很好的帮助。

大数据在防范偷税漏税方面的应用,面临的最大的问题是数据的采集和整合,税务大数据分析涉及到社保、海关、银行、财政、保险、交通等多部门、多行业数据。

政府数据整合面临着方方面面的困难,这张图只能是一个很理想的状态,我们所有相关的政府基础数据都能够按照统一的数据标准,将数据推送到统一的数据平台,并且在这过程中进行有效的数据清洗、转换,通过统一的平台发布给各个行业使用。

以个人所得税为例,基于数据整合平台,个人所得税的申报会更真实。目前国家层面正在进行个人所得税税制改革的研究,有可能推出综合和分类相结合的个人所得税的税制,我们应用前面在企业纳税人方面提到的基于纳税人画像的风险评估策略,去开展个人所得税风险防范方面的分析。

税务大数据应用面临巨大挑战,需要丰富的行业经验与很强的资源整合能力,需要掌握数据分析核心算法与模型,要在大数据可视化技术方面有很好的积累,需要整个团队有全面的技术和服务经验。

谢谢大家!

整理:祁德力

校对:祁德力

有容乃大,Petabase大肚能容大数据
<< 上一篇
下一篇 >>
大数据时代到来亿信华辰发力数据挖掘
产品资料

客服
热线

您好,商务咨询请联系

渠道咨询电话:137-0121-6790

直销热线电话:137-0121-6791

技术
支持

您好,技术支持请联系

QQ:400-0011-866

(工作日9:00-18:00)