《数据分群、分段、以及并行化.pdf》由会员分享,可在线阅读,更多相关《数据分群、分段、以及并行化.pdf(87页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104054073A43申请公布日20140917CN104054073A21申请号201280067076522申请日2012111561/560,25720111115US61/660,25920120615USG06F17/3020060171申请人起元科技有限公司地址美国马萨诸塞州72发明人阿伦安德森74专利代理机构隆天国际知识产权代理有限公司72003代理人张浴月李玉锁54发明名称数据分群、分段、以及并行化57摘要通过第一处理实体来处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段。至少一些所述原。
2、记录中的每一个的所述处理包括402生成所述原记录的至少一个副本,及将第一分段值与所述原记录关联,并将第二分段值与所述副本关联。该方法还包括404基于与所述第二组中的记录关联的所述分段值将所述第二记录组在多个接收方处理实体之中进行分区,并且在每个接收方处理实体处,基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。30优先权数据85PCT国际申请进入国家阶段日2014071586PCT国际申请的申请数据PCT/US2012/0652492012111587PCT国际申请的公布数据WO2013/074770EN2013052351INTCL权利要求书4页说明书43页附图39页19。
3、中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书43页附图39页10申请公布号CN104054073ACN104054073A1/4页21一种方法,包括通过第一处理实体来处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段,并且至少一些所述原记录中的每一个的所述处理包括生成所述原记录的至少一个副本,以及将第一分段值与所述原记录关联,并将第二分段值与所述副本关联,其中所述第一分段值对应于所述原记录中各字段的一个或多个数据值的第一部分,而所述第二分段值对应于所述原记录中各字段的所述一个或多个数据值的第二部分,该第二。
4、部分不同于该第一部分,以及基于与所述第二组中的记录关联的所述分段值将所述第二记录组在多个接收方处理实体之中进行分区,并且在每个接收方处理实体处,基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。2如权利要求1所述的方法,其中所述第一分段值对应于来自第一字段的第一数据值的字符的第一序列,该第一序列取自所述第一数据值中所述字符的第一位置组,而所述第二分段值对应于来自所述第一数据值的字符的第二序列,该第二序列取自所述第一数据值中所述字符的第二位置组。3如权利要求2所述的方法,其中所述第一位置组与所述第二位置组是不重叠的。4如权利要求3所述的方法,其中所述第一位置组是相对于所述数据。
5、值第一个字符的偶数位置,而所述第二位置组是相对于所述数据值第一个字符的奇数位置。5如权利要求1所述的方法,其中将分段值与记录关联包括将所关联的分段值写入所述记录的新字段中。6如权利要求1所述的方法,其中基于该接收方处理实体处接收的记录的一个或多个数据值执行操作包括确定存在于第一记录的一个或多个数据值中的字符串与存在于至少第二记录的一个或多个数据值中的字符串之间的匹配。7如权利要求6所述的方法,其中所述匹配为近似匹配。8如权利要求7所述的方法,其中所述近似匹配允许所述字符串匹配得不同处多达一指定编辑距离。9如权利要求7所述的方法,其中所述近似匹配是基于一匹配标准而定,该匹配标准限定所述第一记录的。
6、数据值与所述第二记录的数据值之间所允许的差异,并且其中,对于每个原记录,所述一个或多个数据值的所述第一部分以及所述一个或多个数据值的所述第二部分被选择成使得所述第一分段值或所述第二分段值的至少其中之一并不响应于根据任意所述允许差异造成的所述一个或多个数据值的改变而改变。10如权利要求9所述的方法,其中所述允许差异包括存在于所述第一记录的数据值中的第一字符串与存在于所述第二记录的数据值中的第二字符串之间的差异。11如权利要求9所述的方法,其中所述允许差异包括存在于所述第一记录的数据值中的第一二进制值与存在于所述第二记录的数据值中的第二二进制值之间的差异。12如权利要求1所述的方法,其中基于该接收。
7、方处理实体处接收的记录的一个或多个数据值执行操作包括代理键分配。13如权利要求12所述的方法,其中对于所述接收方处理实体处接收的每个记录,在权利要求书CN104054073A2/4页3所述接收方处理实体处生成的所述结果包括随着基于所述记录的一个或多个数据值所分配的代理键而增长的所述记录。14如权利要求1所述的方法,其中基于该接收方处理实体处接收的记录的一个或多个数据值执行操作包括将所接收的记录分群成一个或多个群。15如权利要求14所述的方法,其中对于所述接收方处理实体处接收的每个记录,在所述接收方处理实体处生成的所述结果包括,随着基于所述记录的一个或多个数据值以及在所述接收方处理实体处接收的至。
8、少一些其他记录的一个或多个数据值所分配的群而增长的所述记录。16如权利要求1所述的方法,其中所述操作包括以下至少其中之一代理键分配、分群、汇总、或添加。17如权利要求1所述的方法,其中所述第一分段值对应于所述原记录中各字段的多数据值的第一部分,而所述第二分段值对应于所述原记录中各字段的所述多数据值的第二部分,该第二部分不同于该第一部分。18如权利要求1所述的方法,还包括在第二处理实体处接收来自每个接收方处理实体的结果,以及处理所接收的结果以去除冗余的结果。19如权利要求18所述的方法,其中所述第二记录组包括所述原记录以及每个原记录的所述至少一个副本。20如权利要求19所述的方法,其中处理所接收。
9、的结果以去除冗余的结果包括选择以下的至多其中之一与一原记录关联的第一结果,或者与该原记录的一副本关联的第二结果。21如权利要求1所述的方法,还包括在所述第一处理实体处接收来自每个接收方处理实体的结果,以及处理所接收的结果以去除冗余的结果。22如权利要求1所述的方法,其中每个所述接收方处理实体独立地执行各自的操作。23如权利要求1所述的方法,其中所述接收方处理实体的数目至少和与每个原记录及其副本关联的不同分段值的最小数目一样大。24如权利要求1所述的方法,其中所述处理实体是多核处理器中的核芯,并且所述第一处理实体经由所述多核处理器中的互连网络将经过分区的记录从所述第二记录组发送至所述接收方处理实。
10、体。25如权利要求1所述的方法,其中所述处理实体是多处理器计算机系统中的处理器,并且所述第一处理实体经由所述多处理器计算机系统中的互连网络将经过分区的记录从所述第二记录组发送至所述接收方处理实体。26如权利要求1所述的方法,其中所述处理实体是机架安装式服务器系统中的服务器计算机,并且所述第一处理实体经由所述机架安装式服务器系统中的互连网络将经过分区的记录从所述第二记录组发送至所述接收方处理实体。27如权利要求1所述的方法,其中所述处理实体是经由网络进行通信的计算机系统,并且所述第一处理实体经由所述网络将经过分区的记录从所述第二记录组发送至所述接收方处理实体。28一种计算机程序,存储在计算机可读。
11、存储介质上,该计算机程序包括指令,该指令用于使计算机系统权利要求书CN104054073A3/4页4通过第一处理实体来处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段,并且至少一些所述原记录中每一个的所述处理包括生成所述原记录的至少一个副本,及将第一分段值与所述原记录关联,并将第二分段值与所述副本关联,其中所述第一分段值对应于所述原记录中各字段的一个或多个数据值的第一部分,而所述第二分段值对应于所述原记录中各字段的所述一个或多个数据值的第二部分,该第二部分不同于该第一部分,以及基于与所述第二组中的记录关联的所述分段值将所述。
12、第二记录组在多个接收方处理实体之中进行分区,并且在每个接收方处理实体处,基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。29一种计算系统,包括第一处理实体,被配置为处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段,并且至少一些所述原记录中每一个的所述处理包括生成所述原记录的至少一个副本,并且将第一分段值与所述原记录关联,并将第二分段值与所述副本关联,其中所述第一分段值对应于所述原记录中各字段的一个或多个数据值的第一部分,而所述第二分段值对应于所述原记录中各字段的所述一个或多个数据值的第二部分,该第二部。
13、分不同于该第一部分,以及多个接收方处理实体,接收基于与所述第二组中的记录关联的所述分段值而将所述第二记录组分区成的各个子组,并且每个接收方处理实体被配置为基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。30一种方法,包括通过第一处理实体将一记录组分区成多个记录子组;以及通过各个不同的接收方处理实体处理所述记录组的不同子组,并将结果存储在每个所述接收方处理实体可访问的数据存储部中,每个接收方处理实体的处理包括基于确定所述记录中一个或多个字段的一个或多个值与由该接收方处理实体维护的本地参考信息内的条目之间或者与由任一其他所述接收方处理实体提供的所述数据存储部内的条目之间是否存。
14、在近似匹配来对所述子组中的每个记录执行操作,以及基于由该接收方处理实体维护的所述本地参考信息来更新所述数据存储部。31如权利要求30所述的方法,其中每个所述接收方处理实体可访问的所述数据存储部包括非易失性存储介质。32如权利要求31所述的方法,其中由每个接收方处理实体维护的本地参考信息被存储在易失性存储介质中。33如权利要求30所述的方法,其中所述近似匹配允许所述值匹配得不同处多达一指定编辑距离。34如权利要求30所述的方法,其中对所述子组中的每个记录执行操作包括代理键分配。权利要求书CN104054073A4/4页535如权利要求34所述的方法,其中对于接收方处理实体处接收的每个记录,在该接。
15、收方处理实体处生成的结果包括随着基于所述记录的一个或多个值所分配的代理键而增长的所述记录。36如权利要求30所述的方法,其中对所述子组中的每个记录执行操作包括将所述记录分群成一个或多个群。37如权利要求36所述的方法,其中对于接收方处理实体处接收的每个记录,在该接收方处理实体处生成的结果包括,随着基于所述记录的一个或多个值以及在所述接收方处理实体处接收的至少一些其他记录的一个或多个值所分配的群而增长的所述记录。38如权利要求30所述的方法,其中所述操作包括以下至少其中之一代理键分配、分群、汇总、或添加。39一种计算机程序,存储在计算机可读存储介质上,该计算机程序包括指令,该指令用于使计算机系统。
16、通过第一处理实体将一记录组分区成多个记录子组;以及通过各个不同的接收方处理实体处理所述记录组的不同子组,并将结果存储在每个所述接收方处理实体可访问的数据存储部中,每个接收方处理实体的处理包括基于确定所述记录中一个或多个字段的一个或多个值与由该接收方处理实体维护的本地参考信息内的条目之间或者与由任一其他所述接收方处理实体提供的所述数据存储部内的条目之间是否存在近似匹配来对所述子组中的每个记录执行操作,以及基于由该接收方处理实体维护的所述本地参考信息来更新所述数据存储部。40一种计算系统,包括第一处理实体,被配置为将一记录组分区成多个记录子组;以及多个接收方处理实体,每个接收方处理实体被配置为处理。
17、所述记录组的不同子组,并将结果存储在每个所述接收方处理实体可访问的数据存储部中,每个接收方处理实体的处理包括基于确定所述记录中一个或多个字段的一个或多个值与由该接收方处理实体维护的本地参考信息内的条目之间或者与由任一其他所述接收方处理实体提供的所述数据存储部内的条目之间是否存在近似匹配来对所述子组中的每个记录执行操作,以及基于由该接收方处理实体维护的所述本地参考信息更新所述数据存储部。权利要求书CN104054073A1/43页6数据分群、分段、以及并行化0001相关申请的交叉引用0002本申请要求2011年11月15日所提交美国专利申请第61/560257号和2012年6月15日所提交美国专。
18、利申请第61/660259号的优先权,二者中每个都通过引用合并于此。背景技术0003本说明书涉及数据分群、分段、以及并行化。0004数据分群是这样一种方法,通过该方法将大体类似的信息用共享的标识符来标注,从而可使该信息后续在被处理时就像这些信息已经一起汇聚在同一位置那样。该信息可包括各种类型的信息,例如,诸如财务数据或医保记录等等。每个群在多个群组成的一组中包括已经被确定为符合一些类似性标准的多个数据单元例如,文档、数据库记录、或其他数据对象。一些技术属于“离线”技术,其将数据单元按批处理以生成群或添加至已有群。一些技术属于“在线”技术,其对数据单元按照接收这些数据单元的方式进行增量式处理。群。
19、可以是分级的,此时一个级别上的给定群自身在另一级别上被划分成多个群。在一些情况下,群对应于一个分区的数据单元,其中每个数据单元恰好是其中一个群,而在一些情况下,群可与属于一个以上群的其中一员的数据单元叠合。发明内容0005在一个方案中,一般而言,一种方法包括通过第一处理实体来处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段。至少一些所述原记录中的每一个的所述处理包括生成所述原记录的至少一个副本,以及将第一分段值与所述原记录关联,并将第二分段值与所述副本关联,其中所述第一分段值对应于所述原记录中各字段的一个或多个数据值的第一。
20、部分,而所述第二分段值对应于所述原记录中各字段的所述一个或多个数据值的第二部分,该第二部分不同于该第一部分。该方法还包括基于与所述第二组中的记录关联的所述分段值将所述第二记录组在多个接收方处理实体之中进行分区,并且在每个接收方处理实体处,基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。0006这些方案可包括以下特征中的一个或多个。0007所述第一分段值对应于来自第一字段的第一数据值的字符的第一序列,该第一序列取自所述第一数据值中所述字符的第一位置组,而所述第二分段值对应于来自所述第一数据值的字符的第二序列,该第二序列取自所述第一数据值中所述字符的第二位置组。0008所述第。
21、一位置组与所述第二位置组是不重叠的。0009所述第一位置组是相对于所述数据值第一个字符的偶数位置,而所述第二位置组是相对于所述数据值第一个字符的奇数位置。0010将分段值与记录关联包括将所述关联的分段值写入所述记录的新字段中。0011基于该接收方处理实体处接收的记录的一个或多个数据值执行操作包括确定存在于第一记录的一个或多个数据值中的字符串与存在于至少第二记录的一个或多个数据说明书CN104054073A2/43页7值中的字符串之间的匹配。0012所述匹配为近似匹配。0013所述近似匹配允许所述字符串匹配得不同处多达一指定编辑距离。0014所述近似匹配基于一匹配标准而定,该匹配标准限定所述第一。
22、记录的数据值与所述第二记录的数据值之间所允许的差异,并且其中,对于每个原记录,所述一个或多个数据值的所述第一部分以及所述一个或多个数据值的所述第二部分被选择成使得所述第一分段值或所述第二分段值的至少其中之一并不响应于根据任意所述允许差异造成的所述一个或多个数据值的改变而改变。0015所述允许差异包括存在于所述第一记录的数据值中的第一字符串与存在于所述第二记录的数据值中的第二字符串之间的差异。0016所述允许差异包括存在于所述第一记录的数据值中的第一二进制值与存在于所述第二记录的数据值中的第二二进制值之间的差异。0017基于该接收方处理实体处接收的记录的一个或多个数据值执行操作包括代理键分配。0。
23、018对于所述接收方处理实体处接收的每个记录,在所述接收方处理实体处生成的所述结果包括随着基于所述记录的一个或多个数据值所分配的代理键而增长的所述记录。0019基于该接收方处理实体处接收的记录的一个或多个数据值执行操作包括将所接收的记录分群成一个或多个群。0020对于所述接收方处理实体处接收的每个记录,在所述接收方处理实体处生成的所述结果包括,随着基于所述记录的一个或多个数据值以及在所述接收方处理实体处接收的至少一些其他记录的一个或多个数据值所分配的分群而增长的所述记录。0021所述操作包括以下至少其中之一代理键分配、分群、汇总、或添加。0022所述第一分段值对应于所述原记录中各字段的多数据值。
24、的第一部分,而所述第二分段值对应于所述原记录中各字段的所述多数据值的第二部分,该第二部分不同于该第一部分。0023所述的方法还包括在第二处理实体处接收来自每个接收方处理实体的结果,以及处理所接收的结果以去除冗余的结果。0024所述第二记录组包括所述原记录以及每个原记录的所述至少一个副本。0025处理所接收的结果以去除冗余的结果包括选择以下的至多其中之一与一原记录关联的第一结果,或者与该原记录的一副本关联的第二结果。0026所述的方法还包括在所述第一处理实体处接收来自每个接收方处理实体的结果,以及处理所接收的结果以去除冗余的结果。0027每个所述接收方处理实体独立地执行各自的操作。0028所述接。
25、收方处理实体的数目至少和与每个原记录及其副本关联的不同分段值的最小数目一样大。0029所述处理实体是多核处理器中的核芯,并且所述第一处理实体经由所述多核处理器中的互连网络将经过分区的记录从所述第二记录组发送至所述接收方处理实体。0030所述处理实体是多处理器计算机系统中的处理器,并且所述第一处理实体经由所述多处理器计算机系统中的互连网络将经过分区的记录从所述第二记录组发送至所述接说明书CN104054073A3/43页8收方处理实体。0031所述处理实体是机架安装式服务器系统中的服务器计算机,并且所述第一处理实体经由所述机架安装式服务器系统中的互连网络将经过分区的记录从所述第二记录组发送至所述。
26、接收方处理实体。0032所述处理实体是经由网络进行通信的计算机系统,并且所述第一处理实体经由所述网络将经过分区的记录从所述第二记录组发送至所述接收方处理实体。0033在另一方案中,一般而言,一种计算机程序,存储在计算机可读存储介质上。该计算机程序包括指令,该指令用于使计算机系统通过第一处理实体来处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段。至少一些所述原记录中每一个的所述处理包括生成所述原记录的至少一个副本,及将第一分段值与所述原记录关联,并将第二分段值与所述副本关联,其中所述第一分段值对应于所述原记录中各字段的一个或。
27、多个数据值的第一部分,而所述第二分段值对应于所述原记录中各字段的所述一个或多个数据值的第二部分,该第二部分不同于该第一部分。该计算机程序包括指令用于,基于与所述第二组中的记录关联的所述分段值将所述第二记录组在多个接收方处理实体之中进行分区,并且在每个接收方处理实体处,基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。0034在另一个方案中,一般而言,一种计算系统,包括第一处理实体,被配置为处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段。至少一些所述原记录中每一个的所述处理包括生成所述原记录的至少一个副。
28、本,并且将第一分段值与所述原记录关联,并将第二分段值与所述副本关联,其中所述第一分段值对应于所述原记录中各字段的一个或多个数据值的第一部分,而所述第二分段值对应于所述原记录中各字段的所述一个或多个数据值的第二部分,该第二部分不同于该第一部分。该计算系统包括多个接收方处理实体,接收基于与所述第二组中的记录关联的所述分段值而将所述第二记录组分区成的各个子组,并且每个接收方处理实体被配置为基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。0035在另一个方案中,一般而言,一种方法,包括通过第一处理实体将一记录组分区成多个记录子组;以及通过各个不同的接收方处理实体处理所述记录组的不。
29、同子组,并将结果存储在每个所述接收方处理实体可访问的数据存储部中。每个接收方处理实体的处理包括基于确定所述记录中一个或多个字段的一个或多个值与由该接收方处理实体维护的本地参考信息内的条目之间或者与由任一其他所述接收方处理实体提供的所述数据存储部内的条目之间是否存在近似匹配来对所述子组中的每个记录执行操作,以及基于由该接收方处理实体维护的所述本地参考信息更新所述数据存储部。0036这些方案可包括以下特征的其中一个或多个。0037每个所述接收方处理实体可访问的所述数据存储部包括非易失性存储介质。0038由每个接收方处理实体维护的本地参考信息存储在易失性存储介质中。0039所述近似匹配允许所述值匹配。
30、得不同处多达一指定编辑距离。0040对所述子组中的每个记录执行操作包括代理键分配。说明书CN104054073A4/43页90041对于接收方处理实体处接收的每个记录,在该接收方处理实体处生成的结果包括随着基于所述记录的一个或多个值所分配的代理键而增长的所述记录。0042对所述子组中的每个记录执行操作包括将所述记录分群成一个或多个群。0043对于接收方处理实体处接收的每个记录,在该接收方处理实体处生成的结果包括,随着基于所述记录的一个或多个值以及在所述接收方处理实体处接收的至少一些其他记录的一个或多个值所分配的群而增长的所述记录。0044所述操作包括以下至少其中之一代理键分配、分群、汇总、或添。
31、加。0045在另一个方案中,一般而言,一种计算机程序,存储在计算机可读存储介质上,该计算机程序包括指令。该指令用于使计算机系统通过第一处理实体将一记录组分区成多个记录子组;以及通过各个不同的接收方处理实体处理所述记录组的不同子组,并将结果存储在每个所述接收方处理实体可访问的数据存储部中。每个接收方处理实体的处理包括基于确定所述记录中一个或多个字段的一个或多个值与由该接收方处理实体维护的本地参考信息内的条目之间或者与由任一其他所述接收方处理实体提供的所述数据存储部内的条目之间是否存在近似匹配来对所述子组中的每个记录执行操作,以及基于由该接收方处理实体维护的所述本地参考信息更新所述数据存储部。00。
32、46在另一个方案中,一般而言,一种计算系统,包括第一处理实体,被配置为将一记录组分区成多个记录子组;以及多个接收方处理实体,每个接收方处理实体被配置为处理所述记录组的不同子组,并将结果存储在每个所述接收方处理实体可访问的数据存储部中。每个接收方处理实体的处理包括基于确定所述记录中一个或多个字段的一个或多个值与由该接收方处理实体维护的本地参考信息内的条目之间或者与由任一其他所述接收方处理实体提供的所述数据存储部内的条目之间是否存在近似匹配来对所述子组中的每个记录执行操作,以及基于由该接收方处理实体维护的所述本地参考信息来更新所述数据存储部。0047这些方案可具有以下有益效果的其中一个或多个。00。
33、48当对大规模数据加以分群时,限制性能和扩展性的主要因素之一是在记录之间为确定哪些在适当距离测量下是接近的所需要进行的运算量。简单的多对多比较与待分群的记录数目成平方比例关系。0049改善的途径是,在进一步进行附近记录的计分之前通过新查询记录必须接近的代表记录增量式地发现群并表示每个群。发现查询记录属于新的群与不同群的数目成平方比例,因为在可创建新群之前必须首先检查每个已有群的代表。对于大量的不同群,这在对商业中客户数据库内个体或家庭进行分群时是常见的,该途径变得难以维系。0050这里描述的数据分群方法在进行任何高成本的比较之前使用搜索处理以在近似距离测量下确定查询记录与任一已有群是否足够接近。
34、。这将之前查询记录作为新群第一记录的方法中的最糟情况转化成最佳情况。如果该查询记录与已有记录的重叠不足,其将不从搜索中返回候选项记录,并且其必定是新群的成员。0051这里描述的数据分群方法使用基于扩展自初始查询的数个查询组合的紧缩目标式搜索。多重查询使得查询词的变体匹配能够在搜索期间并且对于来自字段中多个标记或者来自记录中多个字段的同时查询而被检测到。搜索寻求从充当已有群的代表的主记录组找到匹配候选项匹配标准的候选项记录。搜索目录INDICES可在批处理模式下针对全数说明书CN104054073A5/43页10据组预计算出来,或者可在增量模式下累积填充。在批处理模式下,搜索目录可包含位向量形式。
35、的用于匹配记录的位置信息。这有助于布林运算BOOLEANCOMPUTATION以结合多重搜索的结果。0052候选项匹配标准可按搜索码来规划FORMULATE,搜索码是对搜索组合的定性结果例如对于客户的搜索是否具有姓氏和城市二者的匹配进行编码的码。与每个搜索码关联的样本记录可被提取以辅助用户调整候选项匹配标准。搜索码在一些实施方式中还能够实现整个候选项匹配标准作为搜索结果的布林表达,使得即使在标记仅需近似匹配时搜索也非常快。0053在找到匹配候选项匹配标准的候选项记录之后,来自于该候选项记录关联的每个群的代表记录被调出用于与查询记录的详细比较。使用成本更高的距离测量来用于这一比较。与搜索码类似,。
36、匹配码被构造以定性地总结该比较,包括在每对经过比较的个体字段或者字段组合与经过比对的个体字段或字段组合的填充状态之间的定性匹配,指示特定字段例如是否为空的、空白或填充的。在由匹配码分群之后可累积统计以量化质量变化的匹配数目。还可提取固定数目的样本记录关联于每个匹配码以辅助用户判定不同种类匹配的质量以及反复调整用于比较记录的比较功能由此以改变匹配输出。记录填充特征与匹配输出质量之间的关联还可由匹配码推导出来。0054查询记录与来自候选项群的代表记录之间的详细比较组可被分析以找到某一匹配阈值以上的最佳匹配配对。如果没有匹配阈值以上的最佳匹配配对,则使该查询记录作为新群的第一个记录。如果有一个匹配阈。
37、值以上的最佳匹配配对,则将该查询记录添加至对应群。如果有一个以上与不同已有群的匹配阈值以上的匹配配对,则将该查询记录添加至与最佳匹配配对关联的群,但可选群的组要被记录以供用户检查使用。0055在已经做出群成员身份决策并且所有查询记录已经被分配给群之后,用户可检查群记录的网络并参加群认可处理。模糊匹配被标志给用户以用于检查。用户可选择确认其群内的任意记录,在这种情况下如果该记录已被再次提交给群则其将收到同一群ID,而无需经历分群处理。这符合业务需求,如果用户已经手动确认记录在正确分区内,则该决策必须坚持。0056用户可选择将一记录排除在已经放置了该记录的群之外。在接续的群运行中,该记录被阻止分配。
38、给该群,并将被分配给由算法确定的下一最佳群。0057用户可选择将一记录映射至新群。在接续的分群运行中,该记录将被分配给新群。任何未经确认的记录可添加新群的该记录,只要它们与接近其他已有群中的记录相比要更接近该记录。类似地,用户可将选择的记录重映射至不同的已有群,其中该记录还未由分群处理放置。在接续的运行中,选择的该记录将被放置在所选取的群中并且接近该记录的任何未经确认的记录将与选择的该记录一起移动至该选取的群。这使用户能够将重映射少量选择的个体记录并允许进行重新群以重映射与所选择记录密切相关的所有记录。0058该认可处理通过提取受用户的修改影响的所有记录并经分群处理对它们重运行来加以促进。得到。
39、的数据群与之前的数据群有所不同,且为用户显示该结果。然后用户可选择紧接着在刚作出的分群之上应用进一步的修改并且重复或丢弃这些修改以及从头重新开始该认可处理。整个认可处理可在临时工作区中执行,并且在处理完成且用户满意时,引导该群处理的作为基础的分群库可发布返回至持续生成区PERSISTENTPRODUCTION说明书CN104054073A106/43页11AREA。0059这里所描述数据分群处理的进一步有益效果在于,批处理模式的分群能够在初始数据组上做出而将来的数据可使用增量模式添加至已有群,而无需对整个积累的数据组重新群。这满足了个体记录的群成员身份不随着新数据到来而改变的业务预期和需求。除。
40、非未经确认的记录就像它们在群认可处理期间那样被重处理,否则它们对于个体群的分配无法改变。0060跨国机构能够在很多国家存储关于个体的信息。这些国家可能具有限制如何使用及出口数据到其他国家的数据隐私法律或规定。该数据隐私法律可保护包括社保记录和财务记录等各种不同类型的数据。一些国家的数据保护法律阻止将数据出口至任一其他国家。在其他国家中,这样的法律允许将数据出口至某些国家而阻止将数据出口至其他国家。如这里使用的,限制数据流向任一其他国家的国家被称为禁止数据出口国,限制数据流向有选择性国家的国家被称为选择性数据出口国,并且限制性的数据出口国将用来统称为禁止数据出口国和选择性数据出口国。0061与此。
41、同时,请求国可请求所选择的信息可在它们的司法管辖下由实体访问。例如,美国在该示例中为请求国可请求在其司法管辖下的全球金融机构提供与有关人士关联的银行账户的清单;然而,所请求的数据可能位于瑞士在该示例中为限制性数据出口国。0062这里描述的数据分群技术可用来在请求国中使用限制数据出口国中的记录对与有关人士关联的记录进行分群而无需从这些国家出口数据。附图说明0063图1A为示出分群处理的框图。0064图1B为示出涉及受限数据出口国的分群处理的视图。0065图1C为示出分群引擎的框图。0066图1D为示出候选项搜索引擎的框图。0067图1E为示出变体剖析器VARIANTPROLER的框图。0068图。
42、1F为示出变体网络分析器ANALYZER的框图。0069图1G为示出分群认可引擎的框图。0070图2A图2D示出变体搜索过程的示例。0071图3A示出变体网络的示例。0072图3B示出填充标记代表库TOKENREPRESENTATIVESTORE的处理的示例。0073图4为用于使用重复分段来并行化分群的处理的示例的流程图。0074图5A图5C示出使用重复分段的并行分群的示例。0075图6示出通过自然键来分区而生成并行代理键的示例。0076图7A图7D示出从多个字段搜索问询的示例。0077图8示出使用删除添加过程来实施变体查找过程的示例。0078图9为用于增量模式的分群处理的示例流程图。0079。
43、图10A图10D示出增量模式的分群的示例。0080图11A图11B为用于批处理模式的分群处理的示例流程图。说明书CN104054073A117/43页120081图11C示出用于匹配已有群的一个成员的查询记录的群成员身份决策处理的示例。0082图11D示出用于匹配一个以上已有群的成员的查询的群成员身份决策处理的示例。0083图12为调和多重匹配的处理示例的流程图。0084图13A图13C示出调和多重匹配的示例。0085图14A图14B为分群认可处理的示例的流程图。0086图15A图15C为在一个系统上发起并在一远程系统上继续的分群示例的流程图。具体实施方式00871综述008811基于搜索的分。
44、群处理综述0089参考图1A,数据处理系统10用于对来自数据源100的数据进行分群。在一些实施方式中,由数据处理系统10执行的分群处理分析出现在数据内的标记TOKEN,这些标记被组织为在各个字段具有多个值的记录也称为“属性”或“栏目”,这些值可能包括空值NULLVALUE。一个标记是一个字段或多个字段组合中的至少一个值或值的片段。用户102使用用户界面104来监测并控制分群处理的各个方面,包括接收对于在数据源100的所选字段或多个字段的组合以及它们之中变体关系网络中收集的值、标记、及其变体的通报可能既有表格式的又有图形式的;创建并维护业务规则以识别变体标记、类似短语即,多标记单元和类似记录,从。
45、而找到并解决模糊或假性肯定的匹配的标记、短语或记录,且进行将每个记录分配至一个或多个群的群成员身份决策;以及检查、修改、并认可变体网络连接和群成员身份决策。0090数据源100一般包括多个个体数据源,也称为数据组,每个个体数据源可具有独特的存储格式和接口例如,数据库表,表单文件,纯文本文件,或者由主机使用的本机格式。这些个体数据源对于分群系统10而言可以是本地的,例如,托管HOST在同一计算机系统上;或者对于分群系统10而言可以是远程的,例如,托管在通过局域网或广域网被访问的远程计算机上或者通过云网络服务访问分群系统10或被分群系统10访问的远程计算机上。0091数据源中的数据可被组织为一个或。
46、多个记录,每个记录包括一个或多个包含多个值的字段,每个值由字符串或二进制值组成。该字符串可为单字节或多字节的字符,例如ASCII或UNICODE。二进制数据可包括诸如整数等数字或者诸如图像数据等原始和/或压缩数据。0092读取自数据源100的数据由变体剖析器VARIANTPROLER110处理。变体剖析器110识别标记例如,基于预定规则及对数据中特定标记的出现计数例如其中出现特定标记的记录的数目,并在一些实施方式中存储识别其中出现特定标记的具体记录的信息。通过例如编辑距离、语音类似性、或者共享字符序列的测量例如,“EQTYFND”类似于“EQUITYFUND”,因为前者中所有字符都按相同的顺序。
47、出现在后者中,变体剖析器110还基于一些类似性得分识别出不同识别标记对互为变体称为“变体标记对”。例如通过提供单词词典、同义词和缩写词列表、用户提供的变体配对例如公司特有的同义词、缩说明书CN104054073A128/43页13写或缩略词、或者名称例如,昵称、变体拼写、外国名称的变体音译等等的文化类变体配对,外部数据106可用来丰富或修改由变量剖析器110使用类似性得分而识别的标记和变体标记对的组。这些列表可在原数据组中添加不存在的标记,或者在类似性不关联的标记之间创建变体配对。外部数据106还可用于修改与变体配对关联的得分此时得分用来指示紧密度,这能够被用来改变标记之间的表观距离APPAR。
48、ENTDISTANCE,从而打断变体配对例如,在仅偶然类似的字典单词之间,或者移除标记。0093标记的示例为字段中的单词没有空格的字符串,该字段的值包括由空格隔开的多个单词,例如,从包含全名的字段中取的个人名字,或者街道地址可能由连在一起的多个字段形成中的单词。标记可能包含空格,例如城市名“NEWYORK纽约”。标记可为数字值可能是二进制,类似政府标识符ID或账单号。标记可为字符串值或数字值的片段,诸如删除了一个字符的字符串,去除了一位的数字,或者由取自字符串或数字的连续序列的N个字符组成的连词。标记可能为二进制字段的片段,例如与图像中一区域对应的数据。0094由变体剖析器110识别的变体标记。
49、的配对成为变体标记对限定变体网络,其中每个标记由一节点表示或者由与表示这些标记的节点之间的边对应的变体标记之间的配对表示。该变体网络可由变体网络分析器120分析。典型的网络可包括多个连接组件的汇聚,其中每个连接组件的节点都由边连接至该组件中的另一节点,但不同组件中没有节点互相连接。连接的组件是由边连接的节点的闭合组。通过限定,不同的连接组件是不相交的DISJOINT。变体网络分析器120可识别网络的连接组件的汇聚,并且可将一个或多个标记代表与变体网络的连接组件内的每个标记相关联。在多个量值中,表征变体网络节点的是从数据组中所有记录取自所选字段或者字段的组合的关联标记的实例的计数,以及分别地,与标记配对的变体数目对应的标记的度或者配位数,也即连接表示该标记的节点的边数目。0095用户102可在用户界面104中查看标记特别是在单个连接组件内的那些标记的变体配对的网络的图形表示。变体网络的连接组件的特定子组可以是所关注的并且可选择地在图形表示中加以突出。例如,考虑未与具有高计数的节点连接的那些节点。在一些实施方式中,这些节点可被选择作为该连接组件的标记代表的汇聚。通过遍历仅与相同或较少计数的节点连接的边而得到的节点树所组成的子网络可称为标记代表的典型邻居CANONICALNEIGHBORHOOD。典型邻居中的所有节点可由其标记代表表示。典型邻居可重叠。相应地,如果其自身并非标记代表,。