《基于多级阈值指数加权平均的异常报税数据检测方法.pdf》由会员分享,可在线阅读,更多相关《基于多级阈值指数加权平均的异常报税数据检测方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103366091 A (43)申请公布日 2013.10.23 CN 103366091 A *CN103366091A* (21)申请号 201310291913.9 (22)申请日 2013.07.11 G06F 19/00(2011.01) (71)申请人 西安交通大学 地址 710049 陕西省西安市咸宁西路 28 号 (72)发明人 刘烃 桂宇虹 刘杨 郑庆华 屈宇 (74)专利代理机构 西安通大专利代理有限责任 公司 61200 代理人 汪人和 (54) 发明名称 基于多级阈值指数加权平均的异常报税数据 检测方法 (57) 摘要 本发明公开了一种基于多级。
2、阈值指数加权平 均的异常报税数据检测方法 : 基于纳税人的历史 报税数据, 计算报税数据的统计指标 ; 利用残差 指数加权滑动平均算法, 迭代计算各统计指标的 预测值、 预测误差和多级误差阈值 ; 根据多级误 差阈值, 检测异常报税数据并评估异常等级。 本方 法可以有效提高异常报税数据的检测精度, 并实 现异常程度的评估。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图1页 (10)申请公布号 CN 103366091 A CN 103366091 A *CN10336609。
3、1A* 1/2 页 2 1. 基于多级阈值指数加权平均的异常报税数据检测方法, 其特征在于, 包括以下步 骤 : S100、 采集纳税人的历史报税数据 ; S101、 根据步骤 S100 采集的纳税人历史报税数据, 计算出各类报税数据在每个报税周 期的统计指标 ; S102、 根据步骤 S101 中所计算的统计指标, 构建统计指标向量 ; 根据统计指标的报税 周期, 生成统计指标向量的时间序列S(i), S(i)表示第i个报税周期的统计指标向量 ; 采用 指数加权滑动平均算法计算第 i 个报税周期的统计指标预测向量 PS(i) 和误差向量 E(i) : PS(i) 1S(i)+(1-1)PS(。
4、i-1) E(i) |S(i)-PS(i-1)| 其中, 平滑系数 1为 0.3, PS(i-1) 为第 i-1 个报税周期预测向量, PS(0) 为第 1 个报 税周期的统计指标向量 S(1) ; S103、 采用残差指数加权滑动平均算法, 计算第 i 个报税周期的估计误差向量 PE(i) : PE(i)2 2E(i)2+(1-2)PE(i-1)2 其中预测误差系数 2为 0.1, PE(0)=0 ; 计算获得多级误差容忍阈值向量 ; S104、 对比报税数据统计指标误差向量 E(i) 与多级误差容忍阈值向量中的误差容忍 阈值, 判断各报税周期各项数据指标是否含有异常报数数据。 2. 根据权。
5、利要求 1 所述的基于多级阈值指数加权平均的异常报税数据检测方法, 其特 征在于, 纳税人的历史报税数据包括各类进项、 支出、 各税种报税额中的一种或多种。 3. 根据权利要求 1 所述的基于多级阈值指数加权平均的异常报税数据检测方法, 其特征在于, 步骤 S102 中统计指标向量的时间序列生成过程为 : 将在同一报税周期内的 各项统计指标 Z1,Z2,Zn, 生成一个统计指标向量 S=(Z1,Z2,Zn) ; 根据报税数据的时 间顺序, 对统计指标集排序, 并生成统计指标向量的时间序列 S(1),S(2),S(i), 其中 S(i)=(Z1(i),Z2(i),Zn(i), Zn(i) 表示第。
6、 i 个报税周期的第 n 个统计指标。 4. 根据权利要求 1 所述的基于多级阈值指数加权平均的异常报税数据检测方法, 其 特征在于, 步骤 S103 中计算多级预测误差容忍阈值向量的方法为 : 设置 m 级不同的置信 度 1,2,m, 计算对应置信度的正态分布区间值 U1,U2,Um; 与估计误差向量 PE(i) 相乘, 得到多级误差容忍阈值向量 CL_1,CL_2,CL_m, 其中 i 个报税周期第 x 级误 差容忍阈值向量 CL_x(i) 计算公式为 CL_x(i) Ux PE(i-1) ; x、 m 为正整数, 1 x m。 5. 根据权利要求 4 所述的基于多级阈值指数加权平均的异常。
7、报税数据检测方法, 其特 征在于, 步骤 S104 中, 在第 i 个报税周期, 寻找预测误差向量 E(i) 中是否有分量超过多级 误差容忍阈值, 若含有则该分量所对应的报数数据有异常 ; 若预测误差向量 E(i) 没有任何 分量超过多级误差容忍阈值, 则报税数据中未含有异常数据。 6. 根据权利要求 4 所述的基于多级阈值指数加权平均的异常报税数据检测方法, 其特 征在于, 步骤 S104 中, 在 i 时刻, 寻找预测误差向量 E(i) 中是否存在任何分量超过多级误 差容忍阈值向量的对应分量, 若含有则该分量所对应的报数数据有异常, 并按照误差容忍 阈值向量所对应的置信度的大小分为不同的异。
8、常度 ; 若预测误差向量 E(i) 没有任何分量 超过多级误差容忍阈值, 则报税数据中未含有异常数据。 权 利 要 求 书 CN 103366091 A 2 2/2 页 3 7. 根据权利要求 1 或 6 所述的基于多级阈值指数加权平均的异常报税数据检测方法, 其特征在于, 步骤 S103 中所述多级误差容忍阈值向量包括第一级误差容忍阈值向量和第 二级误差容忍阈值向量 ; 第一级误差容忍阈值向量和第二级误差容忍阈值向量所对应的置 信度分别为 95% 和 99%。 权 利 要 求 书 CN 103366091 A 3 1/5 页 4 基于多级阈值指数加权平均的异常报税数据检测方法 技术领域 : 。
9、0001 本发明涉及数据检测领域, 特别涉及一种异常报税数据的检测方法。 背景技术 : 0002 税务审计是指税务机关依法对纳税人、 扣缴义务人履行纳税义务、 扣缴义务情况 所进行的税务稽查和处理工作的总称。 税务法律法规复杂、 审计点多, 通用审计点多达2000 项以上 ; 同时审计对象数据庞大, 一个大型企业仅财务凭证数据一项, 约有数千万笔, 按照 传统人工方式, 完成一家较大企业审计一般需要 5-10 个人团队工作 6 个月时间。如何通过 对纳税人的报税数据进行自动分析, 筛查出异常的报税数据, 降低人工审计的数据量, 成为 税务审计领域亟待解决的问题之一。 发明内容 : 0003 本。
10、发明主要目的在于提供一种基于多级阈值指数加权平均的异常报税数据检测 方法, 采用多级阈值指数加权平均算法分析纳税人的历史报税数据, 检测出纳税人的报税 数据是否存在异常。 0004 本发明的目的通过以下技术方案实现 : 0005 基于多级阈值指数加权平均的异常报税数据检测方法, 包括以下步骤 : 0006 S100、 采集纳税人的历史报税数据 ; 0007 S101、 根据步骤 S100 采集的纳税人历史报税数据, 计算出各类报税数据在每个报 税周期的统计指标 ; 0008 S102、 根据步骤 S101 中所计算的统计指标, 构建统计指标向量 ; 根据统计指标的 报税周期, 生成统计指标向量。
11、的时间序列S(i), S(i)表示第i个报税周期的统计指标向量 ; 采用指数加权滑动平均算法计算第 i 个报税周期的统计指标预测向量 PS(i) 和误差向量 E(i) : 0009 PS(i) 1S(i)+(1-1)PS(i-1) 0010 E(i) |S(i)-PS(i-1)| 0011 其中, 平滑系数 1为 0.3, PS(i-1) 为第 i-1 个报税周期预测向量, PS(0) 为第 1 个报税周期的统计指标向量 S(1) ; 0012 S103、 采用残差指数加权滑动平均算法, 计算第 i 个报税周期的估计误差向量 PE(i) : 0013 PE(i)2 2E(i)2+(1-2)PE。
12、(i-1)2 0014 其中预测误差系数 2为 0.1, PE(0)=0 ; 0015 计算获得多级预测误差容忍阈值向量 ; 0016 S104、 对比报税数据统计指标误差向量 E(i) 与多级预测误差容忍阈值向量中的 误差容忍阈值, 判断各报税周期各项数据指标是否含有异常报数数据。 0017 本发明进一步的改进在于 : 纳税人的历史报税数据包括各类进项、 支出、 各税种报 说 明 书 CN 103366091 A 4 2/5 页 5 税额中的一种或多种。 0018 本发明进一步的改进在于 : 步骤 S102 中统计指标向量的时间序列生成过程为 : 将在同一报税周期内的各项统计指标 Z1,Z2。
13、,Zn, 生成一个统计指标向量 S=(Z1,Z2, ,Zn) ; 根据报税数据的时间顺序, 对统计指标集排序, 并生成统计指标向量的时间序列 S(1),S(2),S(i), 其中 S(i)=(Z1(i),Z2(i),Zn(i), Zn(i) 表示第 i 个报税周期的第 n 个统计指标。 0019 本发明进一步的改进在于 : 步骤 S103 中计算多级预测误差容忍阈值向量的方法 为 : 设置 m 级不同的置信度 1,2,m, 计算对应置信度的正态分布区间值 U1,U2, ,Um; 与估计误差向量PE(i)相乘, 得到多级误差容忍阈值向量CL_1,CL_2,CL_m, 其中i 个报税周期第 x 级。
14、误差容忍阈值向量 CL_x(i) 计算公式为 0020 CL_x(i) UxPE(i-1) ; x、 m 为正整数, 1 x m。 0021 本发明进一步的改进在于 : 步骤 S104 中, 在第 i 个报税周期, 寻找预测误差向量 E(i) 中是否有分量超过多级预测误差容忍阈值, 若含有则该分量所对应的报数数据有异 常 ; 若预测误差向量 E(i) 没有任何分量超过多级预测误差容忍阈值, 则报税数据中未含有 异常数据。 0022 本发明进一步的改进在于 : 步骤 S104 中, 在 i 时刻, 寻找预测误差向量 E(i) 中是 否存在任何分量超过多级误差容忍阈值向量的对应分量, 若含有则该分。
15、量所对应的报数数 据有异常, 并按照误差容忍阈值向量所对应的置信度的大小分为不同的异常度 ; 若预测误 差向量 E(i) 没有任何分量超过多级预测误差容忍阈值, 则报税数据中未含有异常数据。 0023 本发明进一步的改进在于 : 步骤 S103 中所述多级预测误差容忍阈值向量包括第 一级误差容忍阈值向量和第二级误差容忍阈值向量 ; 第一级误差容忍阈值向量和第二级误 差容忍阈值向量所对应的置信度分别为 95% 和 99%。 0024 本发明进一步的改进在于 : 步骤 S104 中中异常数据的检测方法为 : 在 i 时刻, 寻 找预测误差向量预测误差向量 E(i) 中是否存在任何分量超过多级误差容。
16、忍阈值向量的对 应分量, 若存在分量 Ej(i) 大于第 x 级的误差容忍阈值向量的分量 CL_xj(i), 且小于第 x+1 级的分析 CL_x+1j(i), 则输出 :“异常检测结果 : Zj, 其异 常度为 x” ; 若没有任何分量超过多 级预测误差容忍阈值, 则输出 :“未发现异常数据” 。 0025 相对于现有技术, 本发明的有益效果是 : 0026 (1) 算法复杂度低, 有利于大规模使用 : 全国的纳税人数量已经接近千万数量级, 分析算法的复杂度直接影响使用的效果 ; 本发明利用残差指数加权平均算法对纳税人历史 数据进行分析, 算法复杂度低, 运算速度快, 可以支持大规模纳税人的。
17、数据分析 ; 0027 (2) 异常检测精度高, 实现异常度评估 : 常规方法异常检测方法依靠单一置信区间 设定以检测异常, 本发明通过设置多级阈值以评估数据的异常程度, 一方面可以更灵活的 设置检测阈值, 无需担心阈值设置造成的误报与漏报间的矛盾 ; 另一方面, 通过对数据的异 常度进行评估, 给税务审计人员提供决策支持, 协助其更快发现异常事件。 0028 本发明基于纳税人的历史报税数据, 计算报税数据的统计指标 ; 利用残差指数加 权滑动平均算法, 迭代计算各统计指标的预测值、 预测误差和多级误差阈值 ; 根据多级误差 阈值, 检测异常报税数据并评估异常等级 ; 本方法可以有效提高异常报。
18、税数据的检测精度, 并实现异常程度的评估。 说 明 书 CN 103366091 A 5 3/5 页 6 附图说明 : 0029 图 1 为基于多级阈值指数加权平均的异常报税数据检测方法框图。 具体实施方式 : 0030 请参阅图 1 所示, 本发明一种基于多级阈值指数加权平均的异常报税数据检 测 方法, 包括以下步骤 : 0031 步骤 S100, 采集纳税人的历史报税数据, 包括各类进项、 支出、 各税种报税额中的 一种或多种 ; 0032 步骤 S101, 根据纳税人的历史报税数据, 计算出各类报税数据在每个报税周期的 统计指标 ; 本示例中选择上海 XX 企业 2005 年至 2012。
19、 年的报税数据作为分析对象, 选择增 值税比例 (A) 、 营业税比例 (B) 、 销售额年增幅 (C) 和支出额年增幅 (D) 作为统计指标, 具体 数值如表 1 所示 ; 0033 表 1 上海 XX 企业 2005 年至 2012 年报税数据统计指标 0034 20052006200720082009201020112012 增值税比例25.1%25.2%25.3%24.9%25.3%25.7%25.4%20.7% 营业税比例14.2%13.8%13.4%12.9%13.1%12.8%12.9%21.2% 销售年增幅13.5%11.2%18.6%10.5%10.6%19.1%18.8%1。
20、5.3% 支出年增幅12.1%13.3%15.9%11.2%13.8%17.4%16.9%38.1% 0035 步骤 S102, 根据步骤 S101 中所计算的统计指标, 构建统计指标向量 S=(增值税比 例, 营业税比例, 销售额年增幅, 支出额年增幅) ; 根据统计指标的年份, 生成统计指标向量 的时间序列 S(1)-S(8), 分别表示 2005 年至 2012 年的统计指标向量 ; 采用指数加权滑动平 均算法计算统计指标预测向量 PS(i) 和误差向量 E(i) : 0036 PS(i) 1S(i)+(1-1)PS(i-1) 0037 E(i) |S(i)-PS(i-1)| 0038 。
21、其中, 平滑系数 1为 0.3, PS(i-1) 为上一报税周期的预测向量, PS(0) 为统计指 标向量 S(1) ; 计算统计指标预测向量和误差向量, 如表 2 和表 3 所示 ; 0039 表 2 报税数据统计指标预测结果 0040 20052006200720082009201020112012 增值税比例25.1%25.1%25.2%25.1%25.2%25.3%25.3%24.0% 营业税比例14.2%14.1%13.9%13.6%13.4%13.2%13.1%15.6% 销售年增幅13.5%12.8%14.5%13.3%12.5%14.5%15.8%15.6% 支出年增幅12.1。
22、%12.5%13.5%12.8%13.1%14.4%15.1%22.0% 0041 表 3 报税数据统计指标误差结果 0042 2005 2006200720082009201020112012 增值税比例00.00100.00170.00280.00200.00540.00080.0464 营业税比例00.00400.00680.00980.00480.00640.00350.0806 销售年增幅00.02300.05790.04050.02730.06590.04310.0048 支出年增幅00.01200.03440.02290.01000.04300.02510.2296 0043 步。
23、骤 S103, 采用残差指数加权滑动平均算法, 计算估计误差向量 : 说 明 书 CN 103366091 A 6 4/5 页 7 0044 PE(i)2 2E(i)2+(1-2)PE(i-1)2 0045 其中预测误差系数 2设为 0.1, 计算估计误差向量, 计算结果如表 4 所示 ; 0046 表 4 报税数据统计指标估计误差结果 0047 2005 2006200720082009201020112012 增值税比例00.00030.00060.00110.00120.00210.00200.0148 营业税比例00.00130.00250.00390.00400.00430.0042。
24、0.0258 销售年增幅00.00730.01960.02250.02310.03020.03170.0301 支出年增幅00.00380.01150.01310.01280.01820.01900.0748 0048 设定 2 级误差容忍阈值, 置信度分别为 95% 和 99%, 计算得到置信度的正态分布区 间值 U95%=1.96 和 U99%=2.58, 由此计算得到 2 级误差容忍阈值向量, 如表 5 和表 6 所示 ; 0049 表 5 第 1 级误差容忍阈值 (95% 置信区间) 0050 2005 2006200720082009201020112012 增值税比例00.0006。
25、0.00120.00210.00230.00400.00390.0290 营业税比例00.00250.00480.00760.00780.00840.00820.0505 销售年增幅00.01430.03840.04420.04520.05920.06220.0591 支出年增幅00.00740.02250.02560.02510.03570.03730.1466 0051 表 6 第 2 级误差容忍阈值 (99% 置信区间) 0052 2005 2006200720082009201020112012 增值税比例00.00080.00160.00270.00310.00530.00510.0。
26、382 营业税比例00.00330.00640.01000.01030.01100.01080.0665 销售年增幅00.01880.05050.05820.05950.07800.08190.0778 支出年增幅00.00980.02960.03370.03300.04700.04910.1930 0053 步骤 S104, 对比表 3 报税数据统计指标误差结果与表 5 和表 6 中的误差容忍阈 值, 得到各年度各项数据指标的异常度, 判断各报税周期各项数据指标是否含有异常报数 数据 ; 结果如表 7 所示 ; 0054 表 7 报税数据异常度评估结果 (NULL 表示无异常 (报税数据统计。
27、指标误 差结果小 于对应的所有误差容忍阈值) , II 表示 2 级异常 (报税数据统计指标误差结果小于对应的所 有误差容忍阈值大于 1 级和 2 级误差容忍阈值) , I 表示 1 级异常 (报税数据统计指标误差 结果小于对应的所有误差容忍阈值大于 1 级误差容忍阈值, 小于 2 级误差容忍阈值) ) 0055 表 7 报税数据异常度评估结果 0056 2005 2006 2007 2008 2009 2010 2011 2012 增值税比例NULL IIIIIINULL IINULL II 营业税比例NULL IIIINULL NULL NULL NULL II 销售年增幅NULL III。
28、INULL NULL IINULL NULL 支出年增幅NULL IIIINULL NULL IINULL II 0057 分析结果可以看出, 2006、 2007、 2010 和 2012 年存在显著异常, 通过分析发现, 2006年和2007年的异常是由于模型处于数据训练阶段导致 ; 2010年的异常是2010年经济 环境回暖, 企业各项指标出现显著增长导致 ; 2012 年的异常显示企业的增值税大幅下降而 营业税大幅增长, 可能是纳税人违规转化税种导致, 同时支出成本的增幅也存在显著异常。 因此, 输出 2012 年企业的报税数据存在异常, 其中增值税比例、 营业税比例和支出年增幅 说 明 书 CN 103366091 A 7 5/5 页 8 数据存在显著异常。 说 明 书 CN 103366091 A 8 1/1 页 9 图 1 说 明 书 附 图 CN 103366091 A 9 。