一种金融信息处理方法和系统.pdf

上传人:小** 文档编号:6106475 上传时间:2019-04-12 格式:PDF 页数:12 大小:915.09KB
返回 下载 相关 举报
摘要
申请专利号:

CN201610791921.3

申请日:

2016.08.31

公开号:

CN106339942A

公开日:

2017.01.18

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06Q 40/02申请日:20160831|||公开

IPC分类号:

G06Q40/02(2012.01)I; G06F17/30

主分类号:

G06Q40/02

申请人:

国信优易数据有限公司

发明人:

武洋

地址:

100070 北京市丰台区南四环西路188号总部公馆(ABP)B座9楼

优先权:

专利代理机构:

北京青松知识产权代理事务所(特殊普通合伙) 11384

代理人:

郑青松

PDF下载: PDF下载
内容摘要

本发明提供一种金融信息处理方法,包括以下步骤:采集和存储金融数据,并将采集后的金融数据进行抽取;对采集的金融数据进行预处理,包括清洗、关联和分类;对预处理后的金融数据进行加工处理,包括脱敏保护、分级处理和封装存储;对预处理和加工处理后的金融数据进行风险分析;将风险分析后的结果进行输出展示。本发明还提供一种金融信息处理系统。本发明提供的方法和系统能够准确判断贷款用户还款的能力和还款的意愿以及贷后风险。

权利要求书

1.一种金融信息处理方法,其特征在于,包括以下步骤:
(1)采集和存储金融数据,并将采集后的金融数据进行抽取;
(2)对采集的金融数据进行预处理,包括清洗、关联和分类;
(3)对预处理后的金融数据进行加工处理,包括脱敏保护、分级处理和封装存储;
(4)对预处理和加工处理后的金融数据进行风险分析;
(5)将风险分析后的结果以预设形式进行输出展示。
2.根据权利要求1所述的金融信息处理方法,其特征在于,所述步骤(2)和所述步骤(3)
处理后的金融数据通过数据传输总线进行传输,并且在传输过程中,对敏感数据通过加密
进行传输。
3.根据权利要求1所述的金融信息处理方法,其特征在于,所述步骤(1)包括:通过安放
在金融数据中心的具有专门数据采集功能的前置机对金融机构的业务数据进行采集,同
时,爬取互联网上的金融相关数据,并将采集的数据进行统一存储;以及针对行业细分和业
务需求对采集的金融数据按类型进行分类抽取。
4.根据权利要求1所述的金融信息处理方法,其特征在于,所述步骤(2)包括:
对采集的金融数据进行包括去除无效性、删除重复性、纠正错误性的操作;
对清洗后的金融数据进行相关性分析,利用Apriori算法来发现数据属性之间的规律;
对相同数据属性之间的规律进行数据分类。
5.根据权利要求1所述的金融信息处理方法,其特征在于,所述步骤(3)包括:
对于金融数据中特定内容的敏感信息,通过预设的脱敏规则对相关金融数据进行变
形;
通过分级界限的标定和特定的分级方式,将金融数据进行分级处理,最终将金融数据
聚类;
将分级后的金融数据存储于系统指定的数据库中。
6.根据权利要求1所述的金融信息处理方法,其特征在于,所述步骤(4)包括:
通过相关风险分析方法对上述步骤(2)和步骤(3)得到的金融数据进行风险分析,得到
贷款用户下个周期还款逾期的风险得分,并给出风险用户的风险原因。
7.根据权利要求6所述的金融信息处理方法,其特征在于,通过Rocchio算法结合朴素
贝叶斯模型Naive Bayes Classifier来计算出贷款用户下个周期还款逾期的风险得分。
8.一种金融信息处理系统,其特征在于,包括数据采集服务单元、数据汇集服务单元、
数据处理封装存储服务单元、数据模型服务单元和前端展示接口单元,
其中,所述数据采集服务单元采集和存储金融数据,并将采集后的金融数据进行抽取;
所述数据汇集服务单元对采集的金融数据进行预处理,包括清洗、关联和分类;
所述数据处理封装存储服务单元对预处理后的金融数据进行脱敏保护、分级处理和封
装存储;
所述数据模型服务单元对封装存储的分级好的金融数据进行风险分析;
所述前端展示接口单元将风险分析后的结果以预设形式进行输出展示。
9.根据权利要求8所述的金融信息处理系统,其特征在于,所述数据采集服务单元和所
述数据汇集服务单元处理后的金融数据通过数据传输总线传输给所述数据模型服务单元,
并且在传输过程中,对敏感数据通过加密进行传输。
10.根据权利要求8所述的金融信息处理系统,其特征在于,所述数据采集服务单元包
括数据采集模块和数据抽取模块,
所述数据采集模块通过安放在金融数据中心的具有专门数据采集功能的前置机对金
融机构的业务数据进行采集,同时,爬取互联网上的金融相关数据,并将采集的数据进行统
一存储;
所述数据抽取模块针对行业细分和业务需求对采集的金融数据按类型进行分类抽取。
11.根据权利要求8所述的金融信息处理系统,其特征在于,所述数据汇集服务单元包
括包括数据清洗模块、数据关联模块和数据分类模块,
所述数据清洗模块对采集的金融数据进行包括去除无效性、删除重复性、纠正错误性
的操作;
所述数据关联模块对清洗后的金融数据进行相关性分析,利用Apriori算法发现数据
属性之间的规律;
所述数据分类模块对相同数据属性之间的规律进行数据分类。
12.根据权利要求8所述的金融信息处理系统,其特征在于,数据处理封装存储服务单
元包括数据脱敏模块、数据分级模块和分布式数据存储管理模块,
所述数据脱敏模块对于金融数据中特定内容的敏感信息,通过预设的脱敏规则对相关
金融数据进行变形;
所述数据分级模块通过分级界限的标定和特定的分级方式,将金融数据进行分级处
理,最终将金融数据聚类;
所述分布式数据存储管理模块将分级后的金融数据存储于系统指定的数据库中。
13.根据权利要求8所述的金融信息处理系统,其特征在于,数据模型服务单元包括风
险评分模块,
所述风险评分模块通过相关风险分析方法对经预处理和加工处理后的金融数据进行
风险分析,得到贷款用户下个周期还款逾期的风险得分,并给出风险用户的风险原因。
14.根据权利要求13所述的金融信息处理系统,其特征在于,通过Rocchio算法结合朴
素贝叶斯模型Naive Bayes Classifier来计算出贷款用户下个周期还款逾期的风险得分。

说明书

一种金融信息处理方法和系统

技术领域

本发明涉及互联网金融大数据领域,具体涉及一种金融信息处理方法和系统。

背景技术

随着互联网技术的普及,越来越多的企业和个人通过贷款来创业,以实现人生价
值。放贷的机构基本上都是专业的金融机构,金融机构希望的是越来越多的人去贷款,而随
着贷款数量和种类的增加,这些贷款数据将成为庞大冗杂的大数据,需要有效的对这些数
据进行妥善的管理才不会使得金融机构陷入混乱状态,从而避免不必要的经济损失。

现有金融贷后风险管理中存在以下弊端:

(1)需要人为经验居多,很多管理者经验缺乏

客户管理者的队伍中尚有许多刚毕业的大学生,缺乏工作经验,难以判断哪些客
户存在还款风险;而资历深厚的老信贷管理者有一部分则在风险识别、信息反馈、风险处置
的能力上略显不足。大多数客户管理者凭经验判断风险客户情况,对将要遇到的风险很难
做出正确的判断。

(2)管理工作效率低

由于贷款业务量大,贷后管理工作量也逐年增多,目前采取的逐一进行的流程化
管理或基于经验的预判,人工、时间成本逐年增高,管理者在查看用户信息不能通过一个统
一的管理系统进行搜索数据。

(4)结合内部数据居多,外部数据很少

对于风险评判的依据只是单凭金融机构内部的数据作为支撑,比如银行存款数
据、用户交易数据、贷款历史记录、还款历史记录等内容。评判用户风险的依据略少,维度不
够丰富,缺乏外部数据的支撑,不能更全面的刻画贷款用户的画像。

由于以上因素,使管理者对于贷款用户还款的能力和还款的意愿的判断不够准
确,对于贷后风险提升很难发现,导致很多贷款很难被收回。

因此,亟待需要一种能够准确判断贷款用户还款的能力和还款的意愿以及贷后风
险的金融信息处理方法和系统的出现。

发明内容

针对上述技术问题,本发明提供一种能够准确判断贷款用户还款的能力和还款的
意愿以及贷后风险的金融信息处理方法和系统。

本发明采用的技术方案为:

本发明的实施例提供一种金融信息处理方法,包括以下步骤:(1)采集和存储金融
数据,并将采集后的金融数据进行抽取;(2)对采集的金融数据进行预处理,包括清洗、关联
和分类;(3)对预处理后的金融数据进行加工处理,包括脱敏保护、分级处理和封装存储;
(4)对预处理和加工处理后的金融数据进行风险分析;(5)将风险分析后的结果以预设形式
进行输出展示。

可选地,所述步骤(2)和所述步骤(3)处理后的金融数据通过数据传输总线进行传
输,并且在传输过程中,对敏感数据通过加密进行传输。

可选地,所述步骤(1)包括:通过安放在金融数据中心的具有专门数据采集功能的
前置机对金融机构的业务数据进行采集,同时,爬取互联网上的金融相关数据,并将采集的
数据进行统一存储;以及针对行业细分和业务需求对采集的金融数据按类型进行分类抽
取。

可选地,所述步骤(2)包括:对采集的金融数据进行包括去除无效性、删除重复性、
纠正错误性的操作;对清洗后的金融数据进行相关性分析,利用Apriori算法来发现数据属
性之间的规律;对相同数据属性之间的规律进行数据分类。

可选地,所述步骤(3)包括:对于金融数据中特定内容的敏感信息,通过预设的脱
敏规则对相关金融数据进行变形;通过分级界限的标定和特定的分级方式,将金融数据进
行分级处理,最终将金融数据聚类;将分级后的金融数据存储于系统指定的数据库中。

可选地,所述步骤(4)包括:通过相关风险分析方法对上述步骤(2)和步骤(3)得到
的金融数据进行风险分析,得到贷款用户下个周期还款逾期的风险得分,并给出风险用户
的风险原因。

可选地,通过Rocchio算法结合朴素贝叶斯模型Naive Bayes Classifier来计算
出贷款用户下个周期还款逾期的风险得分。

本发明的另一实施例提供一种金融信息处理系统,包括数据采集服务单元、数据
汇集服务单元、数据处理封装存储服务单元、数据模型服务单元和前端展示接口单元,其
中,所述数据采集服务单元采集和存储金融数据,并将采集后的金融数据进行抽取;所述数
据汇集服务单元对采集的金融数据进行预处理,包括清洗、关联和分类;所述数据处理封装
存储服务单元对预处理后的金融数据进行脱敏保护、分级处理和封装存储;所述数据模型
服务单元对封装存储的分级好的金融数据进行风险分析;所述前端展示接口单元将风险分
析后的结果以预设形式进行输出展示。

可选地,所述数据采集服务单元和所述数据汇集服务单元处理后的金融数据通过
数据传输总线传输给所述数据模型服务单元,并且在传输过程中,对敏感数据通过加密进
行传输。

可选地,所述数据采集服务单元包括数据采集模块和数据抽取模块,所述数据采
集模块通过安放在金融数据中心的具有专门数据采集功能的前置机对金融机构的业务数
据进行采集,同时,爬取互联网上的金融相关数据,并将采集的数据进行统一存储;所述数
据抽取模块针对行业细分和业务需求对采集的金融数据按类型进行分类抽取。

可选地,所述数据汇集服务单元包括包括数据清洗模块、数据关联模块和数据分
类模块,所述数据清洗模块对采集的金融数据进行包括去除无效性、删除重复性、纠正错误
性的操作;所述数据关联模块对清洗后的金融数据进行相关性分析,利用Apriori算法发现
数据属性之间的规律;所述数据分类模块对相同数据属性之间的规律进行数据分类。

可选地,数据处理封装存储服务单元包括数据脱敏模块、数据分级模块和分布式
数据存储管理模块,所述数据脱敏模块对于金融数据中特定内容的敏感信息,通过预设的
脱敏规则对相关金融数据进行变形;所述数据分级模块通过分级界限的标定和特定的分级
方式,将金融数据进行分级处理,最终将金融数据聚类;所述分布式数据存储管理模块将分
级后的金融数据存储于系统指定的数据库中。

可选地,数据模型服务单元包括风险评分模块,所述风险评分模块通过相关风险
分析方法对经预处理和加工处理后的金融数据进行风险分析,得到贷款用户下个周期还款
逾期的风险得分,并给出风险用户的风险原因。

可选地,通过Rocchio算法结合朴素贝叶斯模型Naive Bayes Classifier来计算
出贷款用户下个周期还款逾期的风险得分。

本发明能够获得以下优点:

(1)提高了判断贷后风险的准确性

以往的客户管理者单凭自己的经验来判断贷款客户的风险,但是管理者经验也不
能完全正确的判断风险的大小,从而使风险出现的几率增大,导致对金融机构的财产造成
了损失。贷款人风险评分系统可客观的将贷款者的风险进行打分,分值越高风险越大。同
时,将风险因素分析出来供管理者参考,可提前预防风险。

(2)提高了管理工作效率

大量的贷款业务导致,贷后管理工作也渐渐增多,仅仅凭借人工的经验进行预判,
大量的人工和时间都用在查看各种内部数据的过程中,导致工作效率的极低。贷款人风险
评分系统可将银行内部数据结合外部互联网数据进行分析,统一的管理系统大大提高了管
理者的效率,不必再从各个系统中查看用户数据。

(3)内部数据结合外部数据风险判断更加准确

以往的风险评判只单单依据金融机构已有的内部数据,评判用户风险的依据不够
丰富,缺乏外部数据的支撑。贷款人风险评分系统可将银行内部数据结合外部互联网数据
进行分析,增加了风险分析的维度,更全面的刻画贷款用户的画像。

附图说明

图1为本发明实施例提供的金融信息处理系统的结构示意图。

图2为本发明实施例提供金融信息处理方法的流程示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行描述。

图1为本发明实施例提供的金融信息处理系统的结构示意图。图2为本发明实施例
提供金融信息处理方法的流程示意图。

首先,参考图1,对本发明的金融信息处理系统进行介绍。

如图1所示,本发明一实施例提供的金融信息处理系统的整体架构包括5层架构,
即数据采集服务单元、数据汇集服务单元(数据预处理单元)、数据处理封装存储服务单元、
数据模型服务单元和前端展示接口单元,其中,数据采集服务单元包括数据采集模块、数据
抽取模块,数据汇集服务单元包括数据清洗模块、数据关联模块和数据分类模块,数据处理
封装存储服务单元包括数据脱敏模块、数据分级模块和分布式数据存储管理模块,数据模
型服务单元包括风险评分模块,前端展示接口单元包括展示输出接口模块,例如可包括用
户打分数据信息展示接口。其中,数据汇集服务单元和数据处理封装存储服务单元处理后
的数据经由数据传输总线输入到数据模型服务单元中进行处理,利用数据汇集服务单元传
送的数据进行数据分析后得出关于用户打分数据信息。

其中,数据采集服务单元通过使用安放在金融数据中心的具有专门数据采集功能
的前置机进行金融机构内部数据的采集,例如,采集用户交易流水记录、用户账户余额、历
史违约记录、历史贷款数据、历史交易数据、是否购买金融理财产品、对外投资记录数据等,
同时爬取互联网上金融相关的数据,即互联网外部数据,包括互联网消费行为数据、、房产
信息数据、法律起诉数目等。数据在抽取模块中,针对行业细分和业务需求对数据按类型进
行分类抽取,并通过数据传输总线进行传输工作。

数据汇集服务单元,针对多来源、多平台、多传感器数据特点,面向不同种类的结
构化、非结构化数据,将数据汇总并进行数据的预处理,并使用多种大数据算法将数据进行
清洗、去重,同时根据数据的关联性发现数据之间的规律和关联,最终将数据进行分类。

数据处理封装存储服务单元,提供数据处理封装存储服务,以实现数据隐私脱敏
保护,并通过数据分级模块将数据进行分级处理,最终将数据聚类并通过分布式数据存储
管理模块将数据存储,为风险评分模块提供数据基础。

数据模型服务单元,将之前汇集并整理好的数据输入到风险评分模块中的模型
中,通过相应算法实现对贷款用户的风险打分。

前端展示接口单元将数据模型服务单元处理的数据输出到贷后管理层的各个展
示平台上,为贷后管理提供科学的评判依据。

以下对本发明的金融信息处理系统的各模块进行具体介绍。

(1)数据采集模块:对金融机构的相关数据进行采集,同时爬取互联网上金融相关
的数据,将数据进行统一存储在指定的数据库中,为后续数据处理服务提供数据来源。

具体地,可通过安放在金融数据中心的具有专门数据采集功能的前置机对金融机
构的业务数据进行采集,同时,通过互联网采集金融相关数据,为下一步数据处理、共享以
及后期供用户进行相关数据挖掘、信息分析、研究等数据增值工作打下基础。

(2)数据抽取模块:针对行业细分和业务需求对数据按类型进行分类抽取,例如,
在内部数据中分类抽取用户交易流水数额,在外部数据中分类抽取用户消费流水数额,这
为节省数据空间提供了有效的方式。

(3)数据传输总线:支持HTTP、FTP、TCP/IP等多种传输协议进行数据传输,同时针
对敏感数据支持加密传输,例如,通过MD5加密传输。

(4)数据清洗模块:使用大数据算法,如使用多重插补、单重插补、随机森林和多元
回归算法等,针对汇集数据进行去除无效性、删除重复性、纠正错误性等“脏数据”。

(5)数据关联模块:针对数据清洗模块清洗后的数据进行相关性分析,利用
Apriori算法来发现数据属性之间的规律,例如,发现位于同一时间段的数据会具有一定的
相关性,发现位于同一时间段的所有数据会具有相同的属性,以及发现每月在同一商品上
消费的数额几乎相同的规律等。

(6)数据分类模块:针对相同数据属性之间的规律,根据收入和支出来进行数据分
类,为随后数据脱敏、分级及存储工作打下基础。

(7)数据脱敏模块:针对特定业务的敏感信息,例如,用户的联系方式,购买产品的
名称等,可通过不同的脱敏规则将数据进行变形,将文字内容变形为数字内容,以实现对敏
感隐私数据的可靠保护。在本发明中,可随机利用脱敏原则来将数据进行变形,以随机数代
替真实值。

(8)数据分级模块:系统通过分级界限的标定和特定的分级方式,将经脱敏处理后
的数据进行分级处理,例如,直接涉及金融数据的内容为最高级,金融外围的数据为次级,
最终将数据聚类。

(9)分布式数据存储管理模块:为了提高海量数据和文件的存储、检索和管理效
率,系统对经数据脱敏模块和数据分级模块处理后的海量数据和文件进行结构化、半结构
化、非结构化的划分,并将属于结构化数据的数据存储于系统指定的数据库中,如存储在数
据封装存储系统中。

(10)风险评分模块:

将数据汇集服务单元汇集的数据和数据处理封装存储服务单元整理好的数据通
过数据传输总线输入到风险评分模块中的模型中,通过相应算法实现对贷款用户的风险打
分,即对用户的下个周期还款逾期的风险进行评估。具体地,可通过Rocchio算法结合朴素
贝叶斯模型Naive Bayes Classifier来计算出贷款用户下个周期还款逾期的风险得分。

首先,可利用Rocchio算法来通过原有的逾期情况、金融内部数据和互联网数据得
到相关数值,Rocchio算法如下:

<mrow> <msub> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> <mi>m</mi> </msub> <mo>=</mo> <mi>&alpha;</mi> <msub> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> <mn>0</mn> </msub> <mo>+</mo> <mi>&beta;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mi>r</mi> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>D</mi> <mi>r</mi> </msub> </mrow> </munder> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>-</mo> <mi>&gamma;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>n</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>D</mi> <mrow> <mi>n</mi> <mi>r</mi> </mrow> </msub> </mrow> </munder> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> </mrow>

q0是原始用户预期情况数据,Dr和Dnr是已知的相关和不相关文档集合(金融内部
数和互联网外部数据),dj是用户支出次数(包括金融机构内部数和互联网数据),j为查询
判断的时间段(以日期为单位)。α、β及γ是q0、Dr和Dnr三者的权重。此权重能够控制判定结
果和原始查询向量之间的平衡:如果存在大量已判断的文档,即通过系统判断过的用户信
息,那么会给β及γ赋予较高的权重,也就是说,权重会随着已判断的文档数量增加,具体的
权重可根据实际情况来确定。

接着利用贝叶斯定理与概率密度来得出历史交易数据、流水数据的支出与收入的
对比值,贝叶斯定理与概率密度公式如下:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Integral;</mo> <mrow> <mo>-</mo> <mi>&infin;</mi> </mrow> <mi>&infin;</mi> </msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>x</mi> </mrow> </mfrac> <mo>.</mo> </mrow>

f(x|y)是给定Y=y后,X的后验分布;f(y|x)=L(x|y)是Y=y后,X的相似度函数
(为x的函数);f(x)和f(y)则是X和Y的边际分布;f(x)则是X的先验分布。

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>|</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>|</mo> <mi>A</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考虑任何B方面的
因素。P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。P(B|
A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。P(B)是B的先验
概率或边缘概率,也作标准化常量(normalized constant)。

在本发明中,X:为历史交易数据支出,Y:流水记录收入,A:Rocchio算法结果,B:贝
叶斯定理结果。

如上,可通过Rocchio算法结合朴素贝叶斯模型Naive Bayes Classifier来计算
出贷款用户下个周期还款逾期的风险得分。

(11)展示输出接口模块:用于将分析评分模块处理的结果输出到展示平台进行展
示。具体地,可将分析的关于贷款用户下个周期还款逾期的风险得分结果以预设形式通过
展示接口输出到展示平台中,例如,显示重点数据为图形或者曲线形式,并以红色提示语言
等。

本发明的另一实施例提供一种运用上述金融信息处理系统进行自动化预警的方
法,参考图2对其进行描述。

如图2所示,本发明的金融信息处理的方法,包括以下步骤:

S101:采集和存储金融数据,并将采集后的金融数据进行抽取

具体地,首先,对金融机构的相关数据进行采集,同时爬取互联网上金融相关的数
据,将数据进行统一存储在指定的数据库中,为后续数据处理服务提供数据来源。可通过安
放在金融数据中心的具有专门数据采集功能的前置机对金融机构的业务数据进行采集,同
时,通过互联网采集金融相关数据,例如,采集用户交易流水记录、用户账户余额、历史违约
记录、历史贷款数据、历史交易数据、是否购买金融理财产品、对外投资记录数据等,同时爬
取互联网上金融相关的数据,即互联网外部数据,包括互联网消费行为数据、、房产信息数
据、法律起诉数目等,为下一步数据处理、共享以及后期供用户进行相关数据挖掘、信息分
析、研究等数据增值工作打下基础。

接着,针对行业细分和业务需求对数据按类型进行分类抽取,例如,在内部数据中
分类抽取用户交易流水数额,在外部数据中分类抽取用户消费流水数额,这为节省数据空
间提供了有效的方式。

S102:对采集的金融数据进行预处理,包括清洗、关联和分类

具体地,可使用大数据算法,如使用多重插补、单重插补、随机森林和多元回归算
法等,针对汇集数据进行去除无效性、删除重复性、纠正错误性等“脏数据”。针对数据清洗
模块清洗后的数据进行相关性分析,利用Apriori算法来发现数据属性之间的规律,例如,
发现位于同一时间段的数据会具有一定的相关性,发现位于同一时间段的所有数据会具有
相同的属性,以及发现每月在同一商品上消费的数额几乎相同的规律等。针对相同数据属
性之间的规律,根据收入和支出来进行数据分类,为随后数据脱敏、分级及存储工作打下基
础。

S103:对预处理后的金融数据进行加工处理

具体地,针对特定业务的敏感信息,例如,用户的联系方式,购买产品的名称等,可
通过不同的脱敏规则将数据进行变形,将文字内容变形为数字内容,以实现对敏感隐私数
据的可靠保护。在本发明中,可随机利用脱敏原则来将数据进行变形,以随机数代替真实
值。系统通过分级界限的标定和特定的分级方式,将经脱敏处理后的数据进行分级处理,例
如,直接涉及金融数据的内容为最高级,金融外围的数据为次级,最终将数据聚类。为了提
高海量数据和文件的存储、检索和管理效率,系统对经数据脱敏模块和数据分级模块处理
后的海量数据和文件进行结构化、半结构化、非结构化的划分,并将属于结构化数据的数据
存储于系统指定的数据库中,如存储在数据封装存储系统中

S104:对经预处理和加工处理后的金融数据进行风险分析

具体地,将经预处理和加工处理后的数据通过数据传输总线输入到风险评分模块
中的模型中,通过相应算法实现对贷款用户的风险打分,即对用户的下个周期还款逾期的
风险进行评估。具体地,可通过Rocchio算法结合朴素贝叶斯模型Naive Bayes Classifier
来计算出贷款用户下个周期还款逾期的风险得分。

首先,可利用Rocchio算法来通过原有的逾期情况、金融内部数据和互联网数据得
到相关数值,Rocchio算法如下:

<mrow> <msub> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> <mi>m</mi> </msub> <mo>=</mo> <mi>&alpha;</mi> <msub> <mover> <mi>q</mi> <mo>&RightArrow;</mo> </mover> <mn>0</mn> </msub> <mo>+</mo> <mi>&beta;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mi>r</mi> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>D</mi> <mi>r</mi> </msub> </mrow> </munder> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>-</mo> <mi>&gamma;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mi>n</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>D</mi> <mrow> <mi>n</mi> <mi>r</mi> </mrow> </msub> </mrow> </munder> <msub> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> </mrow>

q0是原始用户预期情况数据,Dr和Dnr是已知的相关和不相关文档集合(金融内部
数和互联网外部数据),dj是用户支出次数(包括金融机构内部数和互联网数据),j为查询
判断的时间段(以日期为单位)。α、β及γ是q0、Dr和Dnr三者的权重。此权重能够控制判定结
果和原始查询向量之间的平衡:如果存在大量已判断的文档,即通过系统判断过的用户信
息,那么会给β及γ赋予较高的权重,也就是说,权重会随着已判断的文档数量增加,具体的
权重可根据实际情况来确定。

接着利用贝叶斯定理与概率密度来得出历史交易数据、流水数据的支出与收入的
对比值,贝叶斯定理与概率密度公式如下:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Integral;</mo> <mrow> <mo>-</mo> <mi>&infin;</mi> </mrow> <mi>&infin;</mi> </msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>x</mi> </mrow> </mfrac> <mo>.</mo> </mrow>

f(x|y)是给定Y=y后,X的后验分布;f(y|x)=L(x|y)是Y=y后,X的相似度函数
(为x的函数);f(x)和f(y)则是X和Y的边际分布;f(x)则是X的先验分布。

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>|</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>|</mo> <mi>A</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考虑任何B方面的
因素。P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。P(B|
A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。P(B)是B的先验
概率或边缘概率,也作标准化常量(normalized constant)。

在本发明中,X:为历史交易数据支出,Y:流水记录收入,A:Rocchio算法结果,B:贝
叶斯定理结果。

如上,可通过Rocchio算法结合朴素贝叶斯模型Naive Bayes Classifier来计算
出贷款用户下个周期还款逾期的风险得分。

S105:将风险分析后的结果进行输出展示

具体地,可将分析的关于贷款用户下个周期还款逾期的风险得分结果以预设形式
通过展示接口输出到展示平台中,例如,显示重点数据为图形或者曲线形式,并以红色提示
语言等。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序
产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产
品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程
图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造
性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优
选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请
实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施
例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含
这些改动和变型在内。

一种金融信息处理方法和系统.pdf_第1页
第1页 / 共12页
一种金融信息处理方法和系统.pdf_第2页
第2页 / 共12页
一种金融信息处理方法和系统.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《一种金融信息处理方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种金融信息处理方法和系统.pdf(12页珍藏版)》请在专利查询网上搜索。

本发明提供一种金融信息处理方法,包括以下步骤:采集和存储金融数据,并将采集后的金融数据进行抽取;对采集的金融数据进行预处理,包括清洗、关联和分类;对预处理后的金融数据进行加工处理,包括脱敏保护、分级处理和封装存储;对预处理和加工处理后的金融数据进行风险分析;将风险分析后的结果进行输出展示。本发明还提供一种金融信息处理系统。本发明提供的方法和系统能够准确判断贷款用户还款的能力和还款的意愿以及贷后风险。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1