一种记录对决策方法和装置.pdf

摘要
申请专利号：	CN201310341707.4	申请日：	2013.07.30
公开号：	CN104268135A	公开日：	2015.01.07
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20130730\|\|\|公开
IPC分类号：	G06F17/30; G06F9/44	主分类号：	G06F17/30
申请人：	深圳市华傲数据技术有限公司
发明人：	边旭; 贾西贝
地址：	518057 广东省深圳市南山区高新区中区高新中一道9号软件大厦7层713、715、716室
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本申请提供了一种记录对决策方法，包括：获取记录对；获取用户通过脚本编译输入的用户决策条件；根据所述用户决策条件对所述记录对进行决策。本发明实施例还提供了对应的装置。本发明实施例通过MRL语言引入用户输入的决策条件，方便用户优化决策条件，提高了决策效率。

权利要求书

权利要求书
1.  一种记录对决策方法，其特征在于，包括：
获取记录对；
获取用户通过脚本编译输入的用户决策条件；
根据所述用户决策条件对所述记录对进行决策。

2.  根据权利要求1所述的方法，其特征在于，所述根据用户决策条件对所述记录对进行决策包括：
当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。

3.  根据权利要求2所述的方法，其特征在于，所述根据用户决策条件对所述记录对进行决策包括：
当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。

4.  根据权利要求2或3所述的方法，其特征在于，所述获取用户通过脚本编译输入的用户决策条件包括：
获取用户通过条件表达式的形式表述的用户决策条件。

5.  根据权利要求1所述的方法，其特征在于，所述获取用户通过脚本编译输入的用户决策条件包括：
获取用户通过预置MRL语言输入的用户决策条件。

6.  一种记录对决策装置，其特征在于，包括
记录对获取模块，用于获取记录对；
用户输入模块，用于获取用户通过脚本编译输入的用户决策条件；
决策模块，用于根据所述用户决策条件对所述记录对进行决策。

7.  根据权利要求6所述的装置，其特征在于，所述决策模块还用于：
当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。

8.  根据权利要求7所述的装置，其特征在于，所述决策模块还用于：
当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。

9.  根据权利要求7或8所述的装置，其特征在于，所述用户输入模块还用于：
获取用户通过条件表达式的形式表述的用户决策条件。

10.  根据权利要求1所述的装置，其特征在于，所述用户输入模块还用于：
获取用户通过预置MRL语言输入的用户决策条件。

说明书

说明书一种记录对决策方法和装置
技术领域
本申请涉及数据匹配技术领域，特别是涉及一种记录对决策方法和装置。
背景技术
在企业的生产活动中，会产生大量的业务数据，事实上企业很难确保其所积累数据的质量，其原因是多种多样的，如：录入错误、完整性约束缺失、信息的多种描述方式等，更复杂的是，相互独立的数据源不仅表述相同实体时使用的值不相同，甚至存储结构、关于数据的基本假设也不相同。企业的生产活动又是以其数据为基础，大到市场分析、决策，小到业务查询，都是在业务数据之上的操作。显然企业所累积数据的质量没有保障，其所做操作也将无法保障。为了达到企业对业务数据去重的目的，需要发明一种高效、准确、自动的匹配方法，快速准确地发现描述同一实体的不同记录。
了解决上述应用中的问题，现有技术提出一种记录匹配方法，主要包括：首先对标准化记录集合进行分块获得中间记录集合；然后将中间记录集合经过此较和决策算法获得匹配记录对。
在这种记录匹配方法中，最终的决策过程中，是需要通过预置的条件进行决策匹配。也既是决策依赖的条件是预先设置在底层的，无法更改，对用户来说无法针对不同行业的记录集合进行优化的条件设置，使用不便，也可能降低匹配效率。
发明内容
本申请所要解决的技术问题是提供一种记录对决策方法可以方便用户优化决策条件，更快的完成匹配。相应的，本申请还提供了对应的装置。
为了解决上述问题，本申请公开了一种记录对决策方法，包括：
获取记录对；
获取用户通过脚本编译输入的用户决策条件；
根据所述用户决策条件对所述记录对进行决策。
进一步，所述根据用户决策条件对所述记录对进行决策包括：
当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。
进一步，所述根据用户决策条件对所述记录对进行决策包括：
当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。
进一步，所述获取用户通过脚本编译输入的用户决策条件包括：
获取用户通过条件表达式的形式表述的用户决策条件。
进一步，所述获取用户通过脚本编译输入的用户决策条件包括：
获取用户通过预置MRL语言输入的用户决策条件。
本申请还提供了一种记录对决策装置，包括
记录对获取模块，用于获取记录对；
用户输入模块，用于获取用户通过脚本编译输入的用户决策条件；
决策模块，用于根据所述用户决策条件对所述记录对进行决策。
进一步，所述决策模块还用于：
当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。
进一步，所述决策模块还用于：
当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。
进一步，所述用户输入模块还用于：
获取用户通过条件表达式的形式表述的用户决策条件。
进一步，所述用户输入模块还用于：
获取用户通过预置MRL语言输入的用户决策条件。
与现有技术相比，本申请包括以下优点：通过MRL语言引入用户输入的决策条件，方便用户优化决策条件，提高了决策效率。
附图说明
图1是本发明一种记录对决策方法一实施例的流程图；
图2是本发明一种记录对决策方法一实施例中决策过程示意图；
图3是本发明一种记录对决策方法一实施例中决策逻辑图；
图4是本发明一种记录对决策装置一实施例的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1，示出了本申请一种记录对决策方法，包括：
步骤S101、获取记录对；
在整个匹配过程中，在决策过程之前可以存在一个分块过程，通过分块将原始的记录集合按照固定算法形成记录对集合，决策过程就在该记录对集合中获取记录对。
步骤S102、获取用户通过脚本编译输入的用户决策条件；
进一步，所述获取用户通过脚本编译输入的用户决策条件包括：
获取用户通过条件表达式的形式表述的用户决策条件。
进一步，所述获取用户通过脚本编译输入的用户决策条件包括：
获取用户通过预置MRL语言输入的用户决策条件。
在通用的记录匹配流程中，决策过程作用的对象是记录对<r1，r2>，使用的方法是对选定的比较属性上利用不同的相似度度量算法计算其值的相似度，通过组合各此较属性上的相似度值得到该记录对的相似度向量。相似度度量算法实际是针对两个值进行计算得到一个数值来衡量这两个值的相似度(距离)，比较成熟的算法包括：Jaro、Soundex等。决策部分则是利用比较得到的记录对的相似度向量通过决策模型得到该记录对匹配还是不匹配的结果，已有的算法包括：Fellegi-Sunter、KMeans等。
这两部分结合到一起产生的效果就是在选定的比较属性上，计算记录对的此较向量，然后将该向量传给决策模型由决策模型给出决策结果(匹配/不匹配)，这样并没有充分利用业务知识来辅助其决策，也没有充分利用业务知识来降低记录对的比较复杂度。仍以药品名称识别为例，其业务逻辑如图3所示。
其中A判断逻辑表达的意思是批准文号不空且相同的直接决策为匹配，否则进入B判断逻辑；B判断逻辑表达的意思是公司ID不空且不相同的直接决策为不匹配，否则进入C判断逻辑；C判断逻辑表达的意思是规格、剂型都相同且药品名称相似的决策为匹配，否则决策为不匹配。
在本发明实施例中，采用MRL语言允许用户输入决策条件以供决策过程使用。使用MRL来实现上述业务逻辑其表达方式如下：

其中返回true则表明决策结果为匹配，返回false则决策结果为不匹配
决策过程输入是记录对(上阶段的产出)，其输出是对该记录对的决策结果。业务逻辑主要表现在：记录对是否满足特定的条件来决定该记录对的决策结果。此时用户可以输入特定条件如：ID.isNotNull()andID.isEqual()；其表达的就是记录对在批准文号属性上值不为空且记录对在批准文号属性上值相同，如果满足这个条件那么决策结果为匹配，如果不满足这个条件则进入后续判断。
步骤S103、根据所述用户决策条件对所述记录对进行决策。
进一步，所述根据用户决策条件对所述记录对进行决策包括：
当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。
进一步，所述根据用户决策条件对所述记录对进行决策包括：
当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。
本发明实施例中首先根据用户输入的决策条件，对记录对进行决策，当根据该决策条件可以直接判定该记录对匹配时，可以直接输出结果，否则可以利用各属性上的相似度，也可以对各属性上的值进行转换：四则运算、此较运算、逻辑运算、字符串变换等。在上阶段中输出地是记录对的集合，只需要循环调用本阶段的判断逻辑就可以给所有的记录对产生一个匹配结果，最终得到所有记录对的匹配结果。
本发明实施例中通过用户输入决策条件判定的匹配记录对中可能同时存在<a，b>匹配、<b，c>匹配，但是并没有<a，c>记录对的匹配信息，为此在产生记录组的时候利用一个传递规则：
如果<a，b>、<b，c>匹配，则<a，c>匹配。
使所有能够匹配上的记录产生一个闭包，如上例中的[a]＝[b]＝[c]＝{a，b，c}。
通过上述规则，利用已经匹配的记录对就可以将相互匹配的记录归入一个记录组中。
本发明实施例通过MRL语言引入用户输入的决策条件，方便用户优化决策条件，提高了决策效率。
对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
参照图4是本发明一种记录对决策装置一实施例的结构示意图；
本申请提供的一种记录对决策装置，包括
记录对获取模块41，用于获取记录对；
用户输入模块42，用于获取用户通过脚本编译输入的用户决策条件；
决策模块43，用于根据所述用户决策条件对所述记录对进行决策。
进一步，所述决策模块43还用于：
当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。
进一步，所述决策模块43还用于：
当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。
进一步，所述用户输入模块42还用于：
获取用户通过条件表达式的形式表述的用户决策条件。
进一步，所述用户输入模块42还用于：
获取用户通过预置MRL语言输入的用户决策条件。
在整个匹配过程中，在决策过程之前可以存在一个分块过程，通过分块将原始的记录集合按照固定算法形成记录对集合，决策过程记录对获取模块41就在该记录对集合中获取记录对。
在通用的记录匹配流程中，决策模块43作用的对象是记录对<r1，r2>，使用的方法是对选定的此较属性上利用不同的相似度度量算法计算其值的相似度，通过组合各比较属性上的相似度值得到该记录对的相似度向量。相似度度量算法实际是针对两个值进行计算得到一个数值来衡量这两个值的相似度(距离)，比较成熟的算法包括：Jaro、Soundex等。决策部分则是利用比较得到的记录对的相似度向量通过决策模型得到该记录对匹配还是不匹配的结果，已有的算法包括：Fellegi-Sunter、KMeans等。
这两部分结合到一起产生的效果就是在选定的此较属性上，计算记录对的此较向量，然后将该向量传给决策模型由决策模型给出决策结果(匹配/不匹配)，这样并没有充分利用业务知识来辅助其决策，也没有充分利用业务知识来降低记录对的此较复杂度。仍以药品名称识别为例，其业务逻辑如图3所示。
其中A判断逻辑表达的意思是批准文号不空且相同的直接决策为匹配，否则进入B判断逻辑；B判断逻辑表达的意思是公司ID不空且不相同的直接决策为不匹配，否则进入C判断逻辑；C判断逻辑表达的意思是规格、剂型都相同且药品名称相似的决策为匹配，否则决策为不匹配。
在本发明实施例中，用户输入模块42允许用户通过MRL语言输入决策条件以供决策过程使用。使用MRL来实现上述业务逻辑其表达方式如下：

其中返回true则表明决策结果为匹配，返回false则决策结果为不匹配
决策过程输入是记录对(上阶段的产出)，其输出是对该记录对的决策结果。业务逻辑主要表现在：记录对是否满足特定的条件来决定该记录对的决策结果。此时用户可以通过用户输入模块42输入特定条件如： ID.isNotNull()andID.isEqual()；其表达的就是记录对在批准文号属性上值不为空且记录对在批准文号属性上值相同，如果满足这个条件那么决策结果为匹配，如果不满足这个条件则进入后续判断。
本发明实施例中决策模块43首先根据用户输入的决策条件，对记录对进行决策，当根据该决策条件可以直接判定该记录对匹配时，可以直接输出结果，否则可以利用各属性上的相似度，也可以对各属性上的值进行转换：四则运算、比较运算、逻辑运算、字符串变换等。在上阶段中输出地是记录对的集合，只需要循环调用本阶段的判断逻辑就可以给所有的记录对产生一个匹配结果，最终得到所有记录对的匹配结果。
本发明实施例中决策模块43通过用户输入决策条件判定的匹配记录对中可能同时存在<a，b>匹配、<b，c>匹配，但是并没有<a，c>记录对的匹配信息，为此在产生记录组的时候利用一个传递规则：
如果<a，b>、<b，c>匹配，则<a，c>匹配。
使所有能够匹配上的记录产生一个闭包，如上例中的[a]＝[b]＝[c]＝{a，b，c}。
通过上述规则，利用已经匹配的记录对就可以将相互匹配的记录归入一个记录组中。
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种记录对决策方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

资源描述

《一种记录对决策方法和装置.pdf》由会员分享，可在线阅读，更多相关《一种记录对决策方法和装置.pdf（10页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 104268135 A (43)申请公布日 2015.01.07 CN 104268135 A (21)申请号 201310341707.4 (22)申请日 2013.07.30 G06F 17/30(2006.01) G06F 9/44(2006.01) (71)申请人深圳市华傲数据技术有限公司地址 518057 广东省深圳市南山区高新区中区高新中一道 9 号软件大厦 7 层 713、 715、 716 室 (72)发明人边旭贾西贝 (54) 发明名称一种记录对决策方法和装置 (57) 摘要本申请提供了一种记录对决策方法，包括：获取记录对；。

2、获取用户通过脚本编译输入的用户决策条件；根据所述用户决策条件对所述记录对进行决策。本发明实施例还提供了对应的装置。本发明实施例通过 MRL 语言引入用户输入的决策条件，方便用户优化决策条件，提高了决策效率。 (51)Int.Cl. 权利要求书 1 页说明书 6 页附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书1页说明书6页附图2页 (10)申请公布号 CN 104268135 A CN 104268135 A 1/1 页 2 1. 一种记录对决策方法，其特征在于，包括：获取记录对；获取用户通过脚本编译输入的用户决策条件。

3、；根据所述用户决策条件对所述记录对进行决策。 2. 根据权利要求 1 所述的方法，其特征在于，所述根据用户决策条件对所述记录对进行决策包括：当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。 3. 根据权利要求 2 所述的方法，其特征在于，所述根据用户决策条件对所述记录对进行决策包括：当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。 4.根据权利要求2或3所述的方法，其特征在于，所述获取用户通过脚本编译输入的用户决策条件包括：获取用户通过条件表达式的形式表述的用户决策条件。 5. 根据权利要求 1 所述的方法，。

4、其特征在于，所述获取用户通过脚本编译输入的用户决策条件包括：获取用户通过预置 MRL 语言输入的用户决策条件。 6. 一种记录对决策装置，其特征在于，包括记录对获取模块，用于获取记录对；用户输入模块，用于获取用户通过脚本编译输入的用户决策条件；决策模块，用于根据所述用户决策条件对所述记录对进行决策。 7. 根据权利要求 6 所述的装置，其特征在于，所述决策模块还用于：当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。 8. 根据权利要求 7 所述的装置，其特征在于，所述决策模块还用于：当所述记录对不满足所述用户决策条件时，则根据。

5、预置决策条件对所述记录对进行决策。 9. 根据权利要求 7 或 8 所述的装置，其特征在于，所述用户输入模块还用于：获取用户通过条件表达式的形式表述的用户决策条件。 10. 根据权利要求 1 所述的装置，其特征在于，所述用户输入模块还用于：获取用户通过预置 MRL 语言输入的用户决策条件。权利要求书 CN 104268135 A 2 1/6 页 3 一种记录对决策方法和装置技术领域 0001 本申请涉及数据匹配技术领域，特别是涉及一种记录对决策方法和装置。背景技术 0002 在企业的生产活动中，会产生大量的业务数据，事实上企业很难确保其所积累数据的质量，。

6、其原因是多种多样的，如：录入错误、完整性约束缺失、信息的多种描述方式等，更复杂的是，相互独立的数据源不仅表述相同实体时使用的值不相同，甚至存储结构、关于数据的基本假设也不相同。企业的生产活动又是以其数据为基础，大到市场分析、决策，小到业务查询，都是在业务数据之上的操作。显然企业所累积数据的质量没有保障，其所做操作也将无法保障。为了达到企业对业务数据去重的目的，需要发明一种高效、准确、自动的匹配方法，快速准确地发现描述同一实体的不同记录。 0003 了解决上述应用中的问题，现有技术提出一种记录匹配方法，主要包括：首先对标准化记录集合进行分。

7、块获得中间记录集合；然后将中间记录集合经过此较和决策算法获得匹配记录对。 0004 在这种记录匹配方法中，最终的决策过程中，是需要通过预置的条件进行决策匹配。也既是决策依赖的条件是预先设置在底层的，无法更改，对用户来说无法针对不同行业的记录集合进行优化的条件设置，使用不便，也可能降低匹配效率。发明内容 0005 本申请所要解决的技术问题是提供一种记录对决策方法可以方便用户优化决策条件，更快的完成匹配。相应的，本申请还提供了对应的装置。 0006 为了解决上述问题，本申请公开了一种记录对决策方法，包括： 0007 获取记录对； 0008 获取用户通过脚本编。

8、译输入的用户决策条件； 0009 根据所述用户决策条件对所述记录对进行决策。 0010 进一步，所述根据用户决策条件对所述记录对进行决策包括： 0011 当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。 0012 进一步，所述根据用户决策条件对所述记录对进行决策包括： 0013 当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。 0014 进一步，所述获取用户通过脚本编译输入的用户决策条件包括： 0015 获取用户通过条件表达式的形式表述的用户决策条件。 0016 进一步，所述获取用户通过脚本编译输入的用户决策条件包括： 0。

9、017 获取用户通过预置 MRL 语言输入的用户决策条件。 0018 本申请还提供了一种记录对决策装置，包括 0019 记录对获取模块，用于获取记录对；说明书 CN 104268135 A 3 2/6 页 4 0020 用户输入模块，用于获取用户通过脚本编译输入的用户决策条件； 0021 决策模块，用于根据所述用户决策条件对所述记录对进行决策。 0022 进一步，所述决策模块还用于： 0023 当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。 0024 进一步，所述决策模块还用于： 0025 当所述记录对不满足所述用户决策条件时，则根据预置决策条。

10、件对所述记录对进行决策。 0026 进一步，所述用户输入模块还用于： 0027 获取用户通过条件表达式的形式表述的用户决策条件。 0028 进一步，所述用户输入模块还用于： 0029 获取用户通过预置 MRL 语言输入的用户决策条件。 0030 与现有技术相比，本申请包括以下优点：通过 MRL 语言引入用户输入的决策条件，方便用户优化决策条件，提高了决策效率。附图说明 0031 图 1 是本发明一种记录对决策方法一实施例的流程图； 0032 图 2 是本发明一种记录对决策方法一实施例中决策过程示意图； 0033 图 3 是本发明一种记录对决策方法一实施例中决策逻辑图。

11、； 0034 图 4 是本发明一种记录对决策装置一实施例的结构示意图。具体实施方式 0035 为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。 0036 参照图 1，示出了本申请一种记录对决策方法，包括： 0037 步骤 S101、获取记录对； 0038 在整个匹配过程中，在决策过程之前可以存在一个分块过程，通过分块将原始的记录集合按照固定算法形成记录对集合，决策过程就在该记录对集合中获取记录对。 0039 步骤 S102、获取用户通过脚本编译输入的用户决策条件； 0040 进一步，所述获取用户通过脚本编译。

12、输入的用户决策条件包括： 0041 获取用户通过条件表达式的形式表述的用户决策条件。 0042 进一步，所述获取用户通过脚本编译输入的用户决策条件包括： 0043 获取用户通过预置 MRL 语言输入的用户决策条件。 0044 在通用的记录匹配流程中，决策过程作用的对象是记录对，使用的方法是对选定的比较属性上利用不同的相似度度量算法计算其值的相似度，通过组合各此较属性上的相似度值得到该记录对的相似度向量。相似度度量算法实际是针对两个值进行计算得到一个数值来衡量这两个值的相似度 ( 距离 )，比较成熟的算法包括： Jaro、 Soundex 等。决策部分则是利用比较得到。

13、的记录对的相似度向量通过决策模型得到该记录对匹配还是不匹配的结果，已有的算法包括： Fellegi-Sunter、 KMeans 等。 0045 这两部分结合到一起产生的效果就是在选定的比较属性上，计算记录对的此较向说明书 CN 104268135 A 4 3/6 页 5 量，然后将该向量传给决策模型由决策模型给出决策结果 ( 匹配 / 不匹配 )，这样并没有充分利用业务知识来辅助其决策，也没有充分利用业务知识来降低记录对的比较复杂度。仍以药品名称识别为例，其业务逻辑如图 3 所示。 0046 其中 A 判断逻辑表达的意思是批准文号不空且相同的直接决策为匹配，否则进。

14、入 B判断逻辑； B判断逻辑表达的意思是公司ID不空且不相同的直接决策为不匹配，否则进入 C 判断逻辑； C 判断逻辑表达的意思是规格、剂型都相同且药品名称相似的决策为匹配，否则决策为不匹配。 0047 在本发明实施例中，采用 MRL 语言允许用户输入决策条件以供决策过程使用。使用 MRL 来实现上述业务逻辑其表达方式如下： 0048 0049 其中返回 true 则表明决策结果为匹配，返回 false 则决策结果为不匹配 0050 决策过程输入是记录对 ( 上阶段的产出 )，其输出是对该记录对的决策结果。业务逻辑主要表现在：记录对是否满足特定的条件来决定该记录对的。

15、决策结果。此时用户可以输入特定条件如： ID.isNotNull()andID.isEqual() ；其表达的就是记录对在批准文号属性上值不为空且记录对在批准文号属性上值相同，如果满足这个条件那么决策结果为匹配，如果不满足这个条件则进入后续判断。 0051 步骤 S103、根据所述用户决策条件对所述记录对进行决策。 0052 进一步，所述根据用户决策条件对所述记录对进行决策包括： 0053 当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。 0054 进一步，所述根据用户决策条件对所述记录对进行决策包括： 0055 当所述记录对不满足所述用户决策条件时。

16、，则根据预置决策条件对所述记录对进说明书 CN 104268135 A 5 4/6 页 6 行决策。 0056 本发明实施例中首先根据用户输入的决策条件，对记录对进行决策，当根据该决策条件可以直接判定该记录对匹配时，可以直接输出结果，否则可以利用各属性上的相似度，也可以对各属性上的值进行转换：四则运算、此较运算、逻辑运算、字符串变换等。在上阶段中输出地是记录对的集合，只需要循环调用本阶段的判断逻辑就可以给所有的记录对产生一个匹配结果，最终得到所有记录对的匹配结果。 0057 本发明实施例中通过用户输入决策条件判定的匹配记录对中可能同时存在匹配、匹配，。

17、但是并没有记录对的匹配信息，为此在产生记录组的时候利用一个传递规则： 0058 如果、匹配，则匹配。 0059 使所有能够匹配上的记录产生一个闭包，如上例中的 a b c a， b， c。 0060 通过上述规则，利用已经匹配的记录对就可以将相互匹配的记录归入一个记录组中。 0061 本发明实施例通过 MRL 语言引入用户输入的决策条件，方便用户优化决策条件，提高了决策效率。 0062 对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。 0063 参照图 4 是本发明一种记录对决策装置一实施例的结构示意。

18、图； 0064 本申请提供的一种记录对决策装置，包括 0065 记录对获取模块 41，用于获取记录对； 0066 用户输入模块 42，用于获取用户通过脚本编译输入的用户决策条件； 0067 决策模块 43，用于根据所述用户决策条件对所述记录对进行决策。 0068 进一步，所述决策模块 43 还用于： 0069 当所述记录对满足所述用户决策条件时，输出所述记录对决策结果为匹配。 0070 进一步，所述决策模块 43 还用于： 0071 当所述记录对不满足所述用户决策条件时，则根据预置决策条件对所述记录对进行决策。 0072 进一步，所述用户输入模块 42 还用于：。

19、 0073 获取用户通过条件表达式的形式表述的用户决策条件。 0074 进一步，所述用户输入模块 42 还用于： 0075 获取用户通过预置 MRL 语言输入的用户决策条件。 0076 在整个匹配过程中，在决策过程之前可以存在一个分块过程，通过分块将原始的记录集合按照固定算法形成记录对集合，决策过程记录对获取模块 41 就在该记录对集合中获取记录对。 0077 在通用的记录匹配流程中，决策模块 43 作用的对象是记录对，使用的方法是对选定的此较属性上利用不同的相似度度量算法计算其值的相似度，通过组合各比较属性上的相似度值得到该记录对的相似度向量。相似度度量算法实际是。

20、针对两个值进行计算得到一个数值来衡量这两个值的相似度 ( 距离 )，比较成熟的算法包括： Jaro、 Soundex 说明书 CN 104268135 A 6 5/6 页 7 等。决策部分则是利用比较得到的记录对的相似度向量通过决策模型得到该记录对匹配还是不匹配的结果，已有的算法包括： Fellegi-Sunter、 KMeans 等。 0078 这两部分结合到一起产生的效果就是在选定的此较属性上，计算记录对的此较向量，然后将该向量传给决策模型由决策模型给出决策结果 ( 匹配 / 不匹配 )，这样并没有充分利用业务知识来辅助其决策，也没有充分利用业务知识来降低记录。

21、对的此较复杂度。仍以药品名称识别为例，其业务逻辑如图 3 所示。 0079 其中 A 判断逻辑表达的意思是批准文号不空且相同的直接决策为匹配，否则进入 B判断逻辑； B判断逻辑表达的意思是公司ID不空且不相同的直接决策为不匹配，否则进入 C 判断逻辑； C 判断逻辑表达的意思是规格、剂型都相同且药品名称相似的决策为匹配，否则决策为不匹配。 0080 在本发明实施例中，用户输入模块42允许用户通过MRL语言输入决策条件以供决策过程使用。使用 MRL 来实现上述业务逻辑其表达方式如下： 0081 0082 其中返回 true 则表明决策结果为匹配，返回 false 则决策。

22、结果为不匹配 0083 决策过程输入是记录对(上阶段的产出)，其输出是对该记录对的决策结果。业务逻辑主要表现在：记录对是否满足特定的条件来决定该记录对的决策结果。此时用户可以通过用户输入模块 42 输入特定条件如： ID.isNotNull()andID.isEqual() ；其表达的就是记录对在批准文号属性上值不为空且记录对在批准文号属性上值相同，如果满足这个条件那么决策结果为匹配，如果不满足这个条件则进入后续判断。 0084 本发明实施例中决策模块 43 首先根据用户输入的决策条件，对记录对进行决策，当根据该决策条件可以直接判定该记录对匹配时，可以直接输出结果。

23、，否则可以利用各属说明书 CN 104268135 A 7 6/6 页 8 性上的相似度，也可以对各属性上的值进行转换：四则运算、比较运算、逻辑运算、字符串变换等。在上阶段中输出地是记录对的集合，只需要循环调用本阶段的判断逻辑就可以给所有的记录对产生一个匹配结果，最终得到所有记录对的匹配结果。 0085 本发明实施例中决策模块 43 通过用户输入决策条件判定的匹配记录对中可能同时存在匹配、匹配，但是并没有记录对的匹配信息，为此在产生记录组的时候利用一个传递规则： 0086 如果、匹配，则匹配。 0087 使所有能够匹配上的记录产生一个闭包，。

24、如上例中的 a b c a， b， c。 0088 通过上述规则，利用已经匹配的记录对就可以将相互匹配的记录归入一个记录组中。 0089 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。 0090 以上对本申请所提供的一种记录对决策方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。说明书 CN 104268135 A 8 1/2 页 9 图 1 图 2 说明书附图 CN 104268135 A 9 2/2 页 10 图 3 图 4 说明书附图 CN 104268135 A 10 。

展开阅读全文