数据压栈系统和取数据压栈方法.pdf

摘要
申请专利号：	CN201310455979.7	申请日：	2013.09.29
公开号：	CN103473371A	公开日：	2013.12.25
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|专利申请权的转移IPC(主分类):G06F 17/30变更事项:申请人变更前权利人:方正国际软件有限公司变更后权利人:北大医疗信息技术有限公司变更事项:地址变更前权利人:215123 江苏省苏州市苏州工业园区星湖街328号创意产业园方正国际大厦变更后权利人:100080 北京市海淀区北四环西路52号19层变更事项:申请人变更前权利人:方正国际软件（北京）有限公司登记生效日:20150203\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20130929\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	方正国际软件有限公司; 方正国际软件（北京）有限公司
发明人：	李登高; 包敬斌
地址：	215123 江苏省苏州市苏州工业园区星湖街328号创意产业园方正国际大厦
优先权：
专利代理机构：	北京友联知识产权代理事务所(普通合伙) 11343	代理人：	尚志峰;汪海屏
PDF下载：	PDF下载

内容摘要

本发明提供了一种取数据压栈系统和取数据压栈方法，其中，取数据压栈系统包括：分块单元，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；匹配单元，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；标识单元，用于为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。通过本发明的技术方案，可为表示同一对象的不同数据生成相同的唯一标识，通过该唯一标识关联表示同一对象的不同数据，通过数据压栈方式可减小计算量，减轻系统负担。

权利要求书

权利要求书
1.  一种取数据压栈系统，其特征在于，包括：
分块单元，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；
匹配单元，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；
标识单元，用于为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。

2.  根据权利要求1所述的取数据压栈系统，其特征在于，所述标识单元包括：计算子单元，用于计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。

3.  根据权利要求2所述的取数据压栈系统，其特征在于，所述标识单元还包括：排序子单元，按照所述匹配分值的高低顺序对所述匹配对进行排序，按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。

4.  根据权利要求3所述的取数据压栈系统，其特征在于，所述标识单元还包括：判断子单元，用于在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。

5.  根据权利要求3或4所述的取数据压栈系统，其特征在于，还包括：关联单元，用于在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；
所述匹配单元对所述匹配对中的记录和所述其他记录进行重新配对，并计算重新生成的每一匹配对的匹配分值，以及获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。

6.  一种取数据压栈方法，其特征在于，包括：
按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；
针对每一块数据，将所述索引项的值相同的数据组成匹配对；
为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。

7.  根据权利要求6所述的取数据压栈方法，其特征在于，为满足预设条件的每一匹配对分配唯一标识的步骤具体包括：计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。

8.  根据权利要求7所述的取数据压栈方法，其特征在于，为满足预设条件的每一匹配对分配唯一标识的步骤进一步包括：按照所述匹配分值的高低顺序对所述匹配对进行排序；
按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。

9.  根据权利要求8所述的取数据压栈方法，其特征在于，为满足预设条件的每一匹配对分配唯一标识的步骤还包括：在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。

10.  根据权利要求8或9所述的取数据压栈方法，其特征在于，在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；
对所述匹配对中的记录和所述其他记录进行重新配对；
计算重新生成的每一匹配对的匹配分值；
获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。

说明书

说明书数据压栈系统和取数据压栈方法
技术领域
本发明涉及计算机技术领域，具体而言，涉及一种取数据压栈系统和取数据压栈方法
背景技术
目前我国医疗信息化是多形态并存并逐步完善，最终的目标达到医疗信息社会化。医疗系统中各系统相互独立，例如门急诊系统、住院、体检系统、影像中心等，部分系统的患者信息数据要求低，录入不完整。各业务系统标准不一致、业务字段不一致，从而导致患者信息没有关联，系统间信息独立。患者数据只有部分字段有效，并不能对患者进行唯一性确认，缺失标识。即同一个患者有多种信息，不能唯一确定患者数据。
面对如此巨大数据量的患者信息，如何能够以最快最简洁的方法获得相关联的数据信息并通过唯一标识来确定相关联数据的关联关系，是目前亟待解决的问题。
发明内容
本发明正是基于上述问题，提出了一种取数据压栈方案，可从大数据中快速获取相关联的数据，并通过唯一标识来关联这些相关联的数据，以确定唯一身份。
有鉴于此，根据本发明的一个方面，还提出了一种取数据压栈系统，包括：分块单元，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；匹配单元，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；标识单元，用于为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。
记录即某个系统中的一条数据，该数据具有多个字段，用于表示一个用户身份数据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系统负担。
在上述技术方案中，优选的，所述标识单元包括：计算子单元，用于计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。
可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。
在上述技术方案中，优选的，所述标识单元还可以包括：排序子单元，按照所述匹配分值的高低顺序对所述匹配对进行排序，按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。
在上述技术方案中，优选的，所述标识单元还可以包括：判断子单元，用于在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。
独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免同一数据对应不同的唯一标识。
在上述技术方案中，优选的，还可以包括：关联单元，用于在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；所述匹配单元对所述匹配对中的记录和所述其他记录进行重新配对，并计算重新生成的每一匹配对的匹配分值，以及获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。
在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。
根据本发明的另一方面，还提供了一种取数据压栈方法，包括：按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；针对每一块数据，将所述索引项的值相同的数据组成匹配对；为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。
记录即某个系统中的一条数据，该数据具有多个字段，用于表示一个用户身份数据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系统负担。
在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤具体包括：计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。
可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。
在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤进一步包括：按照所述匹配分值的高低顺序对所述匹配对进行排序；按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。
在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤还包括：在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。
独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免同一数据对应不同的唯一标识。
在上述技术方案中，优选的，在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；对所述匹配对中的记录和所述其他记录进行重新配对；计算重新生成的每一匹配对的匹配分值；获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。
在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。
附图说明
图1示出了根据本发明的实施例的取数据压栈系统的框图；
图2示出了根据本发明的实施例的取数据压栈方法的流程图；
图3示出了根据本发明的实施例的分块示意图；
图4示出了根据本发明的实施例的为匹配对分配唯一标识的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的取数据压栈系统的框图。
如图1所示，根据本发明的实施例的取数据压栈系统100，包括：分块单元102，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；匹配单元104，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；标识单元106，用于为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。
记录即某个系统中的一条数据，该数据具有多个字段，用于表示一个用户身份数据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系统负担。
比如：一匹配对信息如表1所示，
IDABCD1a1b1c1d12a2b2c2d2
表1
其id=1为匹配对的左节点，id=2为匹配对的右节点，匹配标识项为{A，[A+c]，[b]，[c+d]}，匹配权重组为{0.9，0.92，0.5，0.945}，通过比较模板的规则计算标识项相似度为{0.8，0.4，0.9，0.5}则该匹配对的的分值为f1（0.8，0.9）+f2（0.4，0.92）+f3（0.9，0.5）+f4（0.945，0.5）；其中的fn（）函数可以根据单个标识匹配的阈值大小来匹配不同的计算函数。
在上述技术方案中，优选的，所述标识单元106包括：计算子单元1062，用于计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。
可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。
在上述技术方案中，优选的，所述标识单元106还可以包括：排序子单元1064，按照所述匹配分值的高低顺序对所述匹配对进行排序，按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。
在上述技术方案中，优选的，所述标识单元106还可以包括：判断子单元1066，用于在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。
独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免同一数据对应不同的唯一标识。
在上述技术方案中，优选的，还可以包括：关联单元108，用于在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；所述匹配单元104对所述匹配对中的记录和所述其他记录进行重新配对，并计算重新生成的每一匹配对的匹配分值，以及获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。
在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。
图2示出了根据本发明的实施例的取数据压栈方法的流程图。
如图2所示，根据本发明的实施例的取数据压栈方法，可以包括以下步骤：步骤202，按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；步骤204，针对每一块数据，将所述索引项的值相同的数据组成匹配对；步骤206，为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。
记录即某个系统中的一条数据，该数据具有多个字段，用于表示一个用户身份数据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系统负担。
在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤具体包括：计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。
可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。
在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤进一步包括：按照所述匹配分值的高低顺序对所述匹配对进行排序；按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。
在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤还包括：在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。
独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免同一数据对应不同的唯一标识。
在上述技术方案中，优选的，在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；对所述匹配对中的记录和所述其他记录进行重新配对；计算重新生成的每一匹配对的匹配分值；获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。
在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。
从上述技术方案可以看出，根据本发明的取数据压栈方法的原理是：根据设定好的索引项（由一个或多个字段组成）在系统内存中开辟几个数据块（数据桶），用于记录索引值对应的记录ID；根据索引分组，将索引值相同的记录进行关联，生成匹配对；把几个数据块中成匹配对的项进行归并并确保匹配对的唯一不重复；为匹配对打分，设置分值阈值；按照分值高低顺序为匹配对排序，并由高到低进行关联计算；若匹配对的分值大于分值阈值，则判断匹配对中的记录是否是独立记录，若为独立记录，则生成新的唯一标识EID，并将该EID与这两条记录进行关联。若其中一个记录已经有EID，则把与其相关的记录进行组合计算，把相关的记录重新进行匹配计算和排序，之前去最高分值进行匹配，未被匹配的记录被分离出成为独立记录。
采用上述技术方案，在对数据进行分块后，若进行数据比对，则首先需要形成比对项，即匹配对。如果把分块数据进行全比对，则会形成n2比对项，进行相似度计算时会浪费很多时间，所以需要匹配对的形成过程进行处理，去除没有必须进行比较处理的匹配对，来减少计算量，提高运算速度，并减少资源占用。
下面结合图3和图4详细说明根据本发明的技术方案。
假设系统中表示客户身份信息的字段包括身份证、姓名、电话号码，那么在形成匹配对时，首先需对大量的客户身份信息数据进行分块。分块的方法为按照某一个字段或某几个字段对数据进行分类，如图3所示，为按照姓名字段已经分好的数据块，该数据块类似于一个数据桶，里面承载了数据，对每个数据桶里面的数据进行编号。除此之外，还可以按照身份证字段来对数据进行分块。
识别数据块中具有相同字段值的数据，在图3中，编号为⑤和编号为 ②的姓名相同，编号为④和编号为①的姓名相同，那么生成两对匹配对。
按照预设规则对这两对匹配对进行评分，若这两匹配对的评分均高于设定的分值阈值，则为这两对匹配对分配唯一标识EID并确保唯一标识不重复，例如编号为⑤和编号为②的匹配对对应的EID为0101，编号为④和编号为①的匹配对对应的EID为0202。通过该EID就可以使匹配对中的两个记录具体关联关系，用于表示同一个客户信息。
需说明的是，如果编号为④的姓名与编号为⑤的姓名相同，并且编号为⑤和编号为②的匹配对的评分和编号为④和编号为①的匹配对的评分均高于分值阈值，则将编号④、编号①加入编号⑤和编号②组成的匹配对中，说明这四种信息表示的是同一个客户信息，编号③独立成为一条记录，这样从5个客户信息中就可以识别出实际上只有两个客户的信息，减少了的大量的冗余信息。
在所有大于分值阈值的匹配对处理完毕后，释放所有临时块。
以上结合附图详细说明了本发明的技术方案，在对数据进行分块后，若进行数据比对，则首先需要形成比对项，即匹配对。如果把分块数据进行全比对，则会形成n2比对项，进行相似度计算时会浪费很多时间，所以需要匹配对的形成过程进行处理，去除没有必须进行比较处理的匹配对，来减少计算量，提高运算速度，并减少资源占用，通过该方案可从大陆数据中提取出表示同一对象的不同身份信息，并利用唯一标识关联这些不同身份信息。
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《数据压栈系统和取数据压栈方法.pdf》由会员分享，可在线阅读，更多相关《数据压栈系统和取数据压栈方法.pdf（11页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103473371 A(43)申请公布日 2013.12.25CN103473371A*CN103473371A*(21)申请号 201310455979.7(22)申请日 2013.09.29G06F 17/30(2006.01)(71)申请人方正国际软件有限公司地址 215123 江苏省苏州市苏州工业园区星湖街328号创意产业园方正国际大厦申请人方正国际软件（北京）有限公司(72)发明人李登高包敬斌(74)专利代理机构北京友联知识产权代理事务所(普通合伙) 11343代理人尚志峰汪海屏(54) 发明名称数据压栈系统和取数据压栈方法(57) 摘要本发明提供了一种。

2、取数据压栈系统和取数据压栈方法，其中，取数据压栈系统包括：分块单元，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；匹配单元，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；标识单元，用于为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。通过本发明的技术方案，可为表示同一对象的不同数据生成相同的唯一标识，通过该唯一标识关联表示同一对象的不同数据，通过数据压栈方式可减小计算量，减轻系统负担。(51)Int.Cl.权利要求书2页说明书6页附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页说明书6页附图。

3、2页(10)申请公布号 CN 103473371 ACN 103473371 A1/2页21.一种取数据压栈系统，其特征在于，包括：分块单元，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；匹配单元，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；标识单元，用于为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。2.根据权利要求1所述的取数据压栈系统，其特征在于，所述标识单元包括：计算子单元，用于计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。3.根据权利要求2所述的取数据压栈系统，其特征在于，所述标识单元还。

4、包括：排序子单元，按照所述匹配分值的高低顺序对所述匹配对进行排序，按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。4.根据权利要求3所述的取数据压栈系统，其特征在于，所述标识单元还包括：判断子单元，用于在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。5.根据权利要求3或4所述的取数据压栈系统，其特征在于，还包括：关联单元，用于在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；所述匹配单元对所述匹配对中的记录和所述其他记录进行重新配对，并计算重新生成的每一匹配对的匹配分值，以及获取匹配分值大于阈值。

5、的匹配对，未被匹配的记录被分离出称为独立记录。6.一种取数据压栈方法，其特征在于，包括：按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；针对每一块数据，将所述索引项的值相同的数据组成匹配对；为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。7.根据权利要求6所述的取数据压栈方法，其特征在于，为满足预设条件的每一匹配对分配唯一标识的步骤具体包括：计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。8.根据权利要求7所述的取数据压栈方法，其特征在于，为满足预设条件的每一匹配对分配唯一标识的步骤进一步包括：按照所述匹配分值的高低顺。

6、序对所述匹配对进行排序；按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。9.根据权利要求8所述的取数据压栈方法，其特征在于，为满足预设条件的每一匹配对分配唯一标识的步骤还包括：在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。10.根据权利要求8或9所述的取数据压栈方法，其特征在于，在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；对所述匹配对中的记录和所述其他记录进行重新配对；计算重新生成的每一匹配对的匹配分值；权利要求书CN 103473371 A2/2页3获取匹配分值大于阈值的匹配对。

7、，未被匹配的记录被分离出称为独立记录。权利要求书CN 103473371 A1/6页4数据压栈系统和取数据压栈方法技术领域0001 本发明涉及计算机技术领域，具体而言，涉及一种取数据压栈系统和取数据压栈方法背景技术0002 目前我国医疗信息化是多形态并存并逐步完善，最终的目标达到医疗信息社会化。医疗系统中各系统相互独立，例如门急诊系统、住院、体检系统、影像中心等，部分系统的患者信息数据要求低，录入不完整。各业务系统标准不一致、业务字段不一致，从而导致患者信息没有关联，系统间信息独立。患者数据只有部分字段有效，并不能对患者进行唯一性确认，缺失标识。即同一个患者有多种信息，不能唯一确定患者。

8、数据。0003 面对如此巨大数据量的患者信息，如何能够以最快最简洁的方法获得相关联的数据信息并通过唯一标识来确定相关联数据的关联关系，是目前亟待解决的问题。发明内容0004 本发明正是基于上述问题，提出了一种取数据压栈方案，可从大数据中快速获取相关联的数据，并通过唯一标识来关联这些相关联的数据，以确定唯一身份。0005 有鉴于此，根据本发明的一个方面，还提出了一种取数据压栈系统，包括：分块单元，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；匹配单元，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；标识单元，用于为满足预设条件的每一匹配对分配唯一标识，用于。

9、对所述匹配对中的记录进行关联。0006 记录即某个系统中的一条数据，该数据具有多个字段，用于表示一个用户身份数据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系统负担。0007 在上述技术方案中，优选的，所述标识单元。

10、包括：计算子单元，用于计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。0008 可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。0009 在上述技术方案中，优选的，所述标识单元还可以包括：排序子单元，按照所述匹配分值的高低顺序对所述匹配对进行排序，按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。0010 在上述技术方案中，优选的，所述标识单元还可以包括：判断子单元，用于在为。

11、所说明书CN 103473371 A2/6页5述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。0011 独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免同一数据对应不同的唯一标识。0012 在上述技术方案中，优选的，还可以包括：关联单元，用于在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；所述匹配单元对所述匹配对中的记录和所述其他记录进行重新配对，并计算重新生成的每一匹配对的匹配分值，以及获取匹配分值。

12、大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。0013 在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。0014 根据本发明的另一方面，还提供了一种取数据压栈方法，包括：按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；针对每一块数据，将所述索引项的值相同的数据组成匹配对；为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。0015 记录即某个系统中的。

13、一条数据，该数据具有多个字段，用于表示一个用户身份数据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系统负担。0016 在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤具体包括：计算每一匹配对的。

14、匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。0017 可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。0018 在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤进一步包括：按照所述匹配分值的高低顺序对所述匹配对进行排序；按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。0019 在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤还包括：在为所述匹。

15、配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。0020 独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免说明书CN 103473371 A3/6页6同一数据对应不同的唯一标识。0021 在上述技术方案中，优选的，在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；对所述匹配对中的记录和所述其他记录进行重新配对；计算重新生成的每一匹配对的匹配分值；获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记。

16、录。0022 在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。附图说明0023 图1示出了根据本发明的实施例的取数据压栈系统的框图；0024 图2示出了根据本发明的实施例的取数据压栈方法的流程图；0025 图3示出了根据本发明的实施例的分块示意图；0026 图4示出了根据本发明的实施例的为匹配对分配唯一标识的示意图。具体实施方式0027 为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具。

17、体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。0028 在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。0029 图1示出了根据本发明的实施例的取数据压栈系统的框图。0030 如图1所示，根据本发明的实施例的取数据压栈系统100，包括：分块单元102，用于按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；匹配单元104，用于针对每一块数据，将所述索引项的值相同的数据组成匹配对；标识单元。

18、106，用于为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。0031 记录即某个系统中的一条数据，该数据具有多个字段，用于表示一个用户身份数据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系。

19、统负担。0032 比如：一匹配对信息如表1所示，0033 ID A B C D说明书CN 103473371 A4/6页71 a1 b1 c1 d12 a2 b2 c2 d20034 表10035 其id=1为匹配对的左节点，id=2为匹配对的右节点，匹配标识项为A，A+c，b，c+d，匹配权重组为0.9，0.92，0.5，0.945，通过比较模板的规则计算标识项相似度为0.8，0.4，0.9，0.5则该匹配对的的分值为f1（0.8，0.9）+f2（0.4，0.92）+f3（0.9，0.5）+f4（0.945，0.5）；其中的fn（）函数可以根据单个标识匹配的阈值大小来匹配不同的计算函数。。

20、0036 在上述技术方案中，优选的，所述标识单元106包括：计算子单元1062，用于计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。0037 可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。0038 在上述技术方案中，优选的，所述标识单元106还可以包括：排序子单元1064，按照所述匹配分值的高低顺序对所述匹配对进行排序，按照排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。00。

21、39 在上述技术方案中，优选的，所述标识单元106还可以包括：判断子单元1066，用于在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。0040 独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免同一数据对应不同的唯一标识。0041 在上述技术方案中，优选的，还可以包括：关联单元108，用于在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对相关联的其他记录；所述匹配单元104对所述匹配对中的记录和所述其他记录进行重新配对，。

22、并计算重新生成的每一匹配对的匹配分值，以及获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。0042 在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。0043 图2示出了根据本发明的实施例的取数据压栈方法的流程图。0044 如图2所示，根据本发明的实施例的取数据压栈方法，可以包括以下步骤：步骤202，按照设置的索引项对记录进行分块，所述索引项包含所述记录的一个或多个字段；步骤204，针对。

23、每一块数据，将所述索引项的值相同的数据组成匹配对；步骤206，为满足预设条件的每一匹配对分配唯一标识，用于对所述匹配对中的记录进行关联。0045 记录即某个系统中的一条数据，该数据具有多个字段，用于表示一个用户身份数说明书CN 103473371 A5/6页8据。可按照某一个或某几个字段进行对大数据量进行分块，这样，大数据被分成若干个数据块。在每个数据块中，对每条记录编号，将索引项值即字段值相同的记录组成匹配对，例如假如该数据块的索引项包含的字段为用户的名字，那么将具体名字相同的记录组成匹配对。并将满足预定条件的匹配对分配唯一标识，用于为匹配对中的记录进行关联，从而解决了唯一确定身份的问题。

24、。由于对大数据量预先进行了分块，并且将具有相同字段值的记录进行匹配关联，大大减少了计算量，减轻了系统负担。0046 在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤具体包括：计算每一匹配对的匹配分值，为匹配分值大于分值阈值的匹配对分配所述唯一标识。0047 可按照预设规则对每对匹配对进行打分，分值越高，说明该匹配对中的两个记录表示同一对象的几率越高，因此，需从初步获取的匹配对中挑选出比较匹配的匹配对，从而提高确定唯一身份的准确性。0048 在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤进一步包括：按照所述匹配分值的高低顺序对所述匹配对进行排序；按照。

25、排列顺序为匹配分值大于阈值的匹配分配所述唯一标识。在挑选出的匹配对中，按照分值的高低顺序为每一匹配对分配唯一标识。0049 在上述技术方案中，优选的，为满足预设条件的每一匹配对分配唯一标识的步骤还包括：在为所述匹配对分配所述唯一标识之前，判断所述匹配对中的记录是否是独立记录，在判断结果为是时，则生成所述唯一标识。0050 独立记录的意思是判断该匹配对中的记录是否出现在其他匹配对中，如果已出现在其他匹配对中，说明该匹配对中的记录不是独立记录，否则就是独立记录，这样可以避免同一数据对应不同的唯一标识。0051 在上述技术方案中，优选的，在所述匹配对中的一个记录已具有对应唯一标识，则读取与所述匹配对。

26、相关联的其他记录；对所述匹配对中的记录和所述其他记录进行重新配对；计算重新生成的每一匹配对的匹配分值；获取匹配分值大于阈值的匹配对，未被匹配的记录被分离出称为独立记录。0052 在按照分值顺序为匹配对分配唯一标识时，若当前处理的匹配对中的记录已在其他匹配对中被分配了唯一标识，那么需查找出与该当前处理的匹配对相关联的其他记录并重新组成匹配对，尽量使表示同一对象的数据组合在一起，为其分配唯一标识，避免出现数据混乱的现象。0053 从上述技术方案可以看出，根据本发明的取数据压栈方法的原理是：根据设定好的索引项（由一个或多个字段组成）在系统内存中开辟几个数据块（数据桶），用于记录索引值对应的记录ID；。

27、根据索引分组，将索引值相同的记录进行关联，生成匹配对；把几个数据块中成匹配对的项进行归并并确保匹配对的唯一不重复；为匹配对打分，设置分值阈值；按照分值高低顺序为匹配对排序，并由高到低进行关联计算；若匹配对的分值大于分值阈值，则判断匹配对中的记录是否是独立记录，若为独立记录，则生成新的唯一标识EID，并将该EID与这两条记录进行关联。若其中一个记录已经有EID，则把与其相关的记录进行组合计算，把相关的记录重新进行匹配计算和排序，之前去最高分值进行匹配，未被匹配的记录被分离出成为独立记录。说明书CN 103473371 A6/6页90054 采用上述技术方案，在对数据进行分块后，若进行数据比对。

28、，则首先需要形成比对项，即匹配对。如果把分块数据进行全比对，则会形成n2比对项，进行相似度计算时会浪费很多时间，所以需要匹配对的形成过程进行处理，去除没有必须进行比较处理的匹配对，来减少计算量，提高运算速度，并减少资源占用。0055 下面结合图3和图4详细说明根据本发明的技术方案。0056 假设系统中表示客户身份信息的字段包括身份证、姓名、电话号码，那么在形成匹配对时，首先需对大量的客户身份信息数据进行分块。分块的方法为按照某一个字段或某几个字段对数据进行分类，如图3所示，为按照姓名字段已经分好的数据块，该数据块类似于一个数据桶，里面承载了数据，对每个数据桶里面的数据进行编号。除此之外，还可以。

29、按照身份证字段来对数据进行分块。0057 识别数据块中具有相同字段值的数据，在图3中，编号为和编号为的姓名相同，编号为和编号为的姓名相同，那么生成两对匹配对。0058 按照预设规则对这两对匹配对进行评分，若这两匹配对的评分均高于设定的分值阈值，则为这两对匹配对分配唯一标识EID并确保唯一标识不重复，例如编号为和编号为的匹配对对应的EID为0101，编号为和编号为的匹配对对应的EID为0202。通过该EID就可以使匹配对中的两个记录具体关联关系，用于表示同一个客户信息。0059 需说明的是，如果编号为的姓名与编号为的姓名相同，并且编号为和编号为的匹配对的评分和编号为和编号为的匹配对的评分均高于分。

30、值阈值，则将编号、编号加入编号和编号组成的匹配对中，说明这四种信息表示的是同一个客户信息，编号独立成为一条记录，这样从5个客户信息中就可以识别出实际上只有两个客户的信息，减少了的大量的冗余信息。0060 在所有大于分值阈值的匹配对处理完毕后，释放所有临时块。0061 以上结合附图详细说明了本发明的技术方案，在对数据进行分块后，若进行数据比对，则首先需要形成比对项，即匹配对。如果把分块数据进行全比对，则会形成n2比对项，进行相似度计算时会浪费很多时间，所以需要匹配对的形成过程进行处理，去除没有必须进行比较处理的匹配对，来减少计算量，提高运算速度，并减少资源占用，通过该方案可从大陆数据中提取出表示同一对象的不同身份信息，并利用唯一标识关联这些不同身份信息。0062 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN 103473371 A1/2页10图1图2图3说明书附图CN 103473371 A10。

展开阅读全文