数据集比较与净变化处理.pdf

上传人:小** 文档编号:1017660 上传时间:2018-03-26 格式:PDF 页数:19 大小:1.03MB
返回 下载 相关 举报
摘要
申请专利号:

CN200480008761.6

申请日:

2004.02.06

公开号:

CN1839384A

公开日:

2006.09.27

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/00公开日:20060927|||实质审查的生效|||公开

IPC分类号:

G06F17/00(2006.01); G06F17/30(2006.01)

主分类号:

G06F17/00

申请人:

国际商业机器公司;

发明人:

杰弗里·J.·乔纳斯

地址:

美国纽约

优先权:

2003.02.07 US 10/361,069

专利代理机构:

中国国际贸易促进委员会专利商标事务所

代理人:

李德山

PDF下载: PDF下载
内容摘要

用于在保存永久键的同时利用算法比较(32)和分析(34)第一数据集和通过计算机所接收的第二数据集的方法、程序和系统。

权利要求书

1.  一种处理数据的方法,包括步骤:
接收第一数据集和第二数据集,每个数据集包括反映多个实体中的至少一个实体的至少一个记录;
以及
利用算法:
将第二数据集与第一数据集的至少一部分进行比较;
对第二数据集的每个记录,识别其永久键或者赋给其永久键;以及
建立数据库或者文件,以包含反映下列中的至少一个的至少一个记录:
第二数据集中的至少一个记录,其被确定为不存在于第一数据集的至少一部分中;
第二数据集中的至少一个记录,其被确定为包含对至少一个记录的至少一个变化,该后者的至少一个记录在第一数据集的至少一部分的至少一个记录中,反映多个实体中一个相同实体;
第一数据集的至少一部分中的至少一个记录,其被确定为不存在于第二数据集中。

2.
  如权利要求1所述的方法,其中多个实体中的一个实体是人、个人财产、不动产、组织、化学化合物、有机化合物、蛋白质、生物价值和原子结构中的至少一个。

3.
  如权利要求1所述的方法,其中运用算法的步骤包含下列中的至少一个:
建立第二数据集的新部分;
修改第二数据集的至少一部分;
在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第二数据集。

4.
  如权利要求3所述的方法,其中修改第二数据集的至少一部分的步骤包含以下步骤之一:去掉第二数据集中满足用户定义的准则的至少一部分,和替换满足用户定义准则的第二数据集的至少一部分。

5.
  如权利要求3所述的方法,其中为了有效地进行比较而组织第二数据集的步骤包含对第二数据集进行排序。

6.
  如权利要求3所述的方法,其中为了进行有效地比较而组织第二数据集的步骤包含利用数据库结构。

7.
  如权利要求3所述的方法,其中为了有效地进行比较而组织第二数据集的步骤包含利用存储器阵列。

8.
  如权利要求1所述的方法,其中利用算法的步骤包含:在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第一数据集的至少一部分。

9.
  如权利要求1所述的方法,其中利用算法的步骤进一步包括修改第一数据集以反映第二数据集。

10.
  如权利要求1所述的方法,其中利用算法来比较第二数据集和第一数据集的至少一部分的步骤包含确定第二数据集中的至少一个记录的至少一个记录是否:
不在第一数据集中;
包含对至少一个记录的至少一个变化,该至少一个记录在第一数据集的至少一部分中,被确定为反映多个实体中一个相同实体;以及
第一数据集的至少一部分不在第二数据集中。

11.
  如权利要求1所述的方法,其中利用算法识别永久键或者赋给永久键的步骤包含:当确定第二数据集中的至少一个记录反映多个实体中一个相同实体时,将前面所识别或赋给第一数据集的至少一部分中的记录的永久键,赋给第二数据集的至少一个记录。

12.
  如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个的步骤进一步包含:
第二数据集中的至少一个记录,其不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化;和
日期。

13.
  如权利要求12所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含无变化指令,该至少一个记录包括第二数据集的至少一个记录,它不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。

14.
  如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含添加指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为不存在于第一数据集的至少一部分中。

15.
  如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含修改指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。

16.
  如权利要求1所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含删除指令,该至少一个记录包括第一数据集的至少一部分的至少一个记录,它被确定为不存在于第二数据集中。

17.
  如权利要求16所述的方法,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤只有当第二数据集不被确定为第一数据集的至少一部分的增量数据集时才执行,该至少一个记录包括第一数据集的至少一部分中的至少一个记录,它被确定为不存在于第二数据集中。

18.
  一种通过计算机处理数据的方法,包括步骤:
接收具有第一记录的第一数据集;
将永久键赋给第一记录;
接收具有第二记录的第二数据集;
将第二记录与第一记录进行比较;
在日志中记录涉及第二记录与第一记录的比较的项。

19.
  如权利要求18所述的方法,进一步包括如果第二记录与第一记录匹配,则将与赋给第一记录的永久键相同的永久键赋给第二记录的步骤。

20.
  如权利要求18所述的方法,进一步包括如果第二记录与第一记录不匹配,则赋给与赋给第一记录的永久键不同的永久键。

21.
  如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对含在第一记录中的信息的变化,则在日志中记录改变的第二记录项。

22.
  如权利要求21所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对第一记录所含的信息的变化,则在日志中记录“修改”指令。

23.
  如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录所含的信息的变化,则记录该永久键和日期。

24.
  如权利要求23所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录中所含的信息的变化,则在日志中记录“无变化”指令。

25.
  如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第二记录与第一记录不匹配,则在日志中用“添加”指令记录第二记录。

26.
  如权利要求18所述的方法,其中在日志中记录项的步骤包含如果第一记录与第二记录不匹配并且第二数据集不是第一数据集的增量数据集,则用“删除”指令在日志中记录第一记录。

27.
  如权利要求18所述的方法,其中第一数据集包含多个第一记录。

28.
  如权利要求18所述的方法,其中第二数据集包含多个二个记录。

29.
  如权利要求18所述的方法,其中第一记录表示多个实体中的一个实体。

30.
  如权利要求18所述的方法,进一步包括在将第二记录与第一记录进行比较之前,修改第二数据集的步骤。

31.
  如权利要求18所述的方法,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第二数据集的步骤。

32.
  如权利要求18所述的方法,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第一数据集的步骤。

33.
  如权利要求18所述的方法,进一步包括修改第一数据集以反映第二数据集的步骤。

34.
  对于用于处理数据的系统和含有执行该方法的计算机可执行的程序指令的计算机可读存储介质,该方法包括步骤:
接收第一数据集和第二数据集,每个数据集包括反映多个实体中的至少一个实体的至少一个记录;
以及
利用算法:
将第二数据集与第一数据集的至少一部分进行比较;
对第二数据集的每个记录,识别其永久键或者赋给其永久键;以及
建立数据库或者文件,以包含反映下列中的至少一个的至少一个记录:
第二数据集中的至少一个记录,其被确定为不存在于第一数据集的至少一部分中;
第二数据集中的至少一个记录,其被确定为包含对至少一个记录的至少一个变化,该后者的至少一个记录在第一数据集的至少一部分的至少一个记录中,反映多个实体中一个相同实体;
第一数据集的至少一部分中的至少一个记录,其被确定为不存在于第二数据集中。

35.
  用于执行权利要求34所述的方法的计算机可读介质,其中多个实体中的一个实体是人、个人财产、不动产、组织、化学化合物、有机化合物、蛋白质、生物价值和原子结构中的至少一个。

36.
  用于执行权利要求34所述的方法的计算机可读介质,其中运用算法的步骤包含下列中的至少一个:
建立第二数据集的新部分;
修改第二数据集的至少一部分;
在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第二数据集。

37.
  用于执行权利要求36所述的方法的计算机可读介质,其中修改第二数据集的至少一部分的步骤包含以下步骤之一:去掉第二数据集中满足用户定义的准则的至少一部分,和替换满足用户定义准则的第二数据集的至少一部分。

38.
  用于执行权利要求36所述的方法的计算机可读介质,其中为了有效地进行比较而组织第二数据集的步骤包含对第二数据集进行排序。

39.
  用于执行权利要求36所述的方法的计算机可读介质,其中为了进行有效地比较而组织第二数据集的步骤包含利用数据库结构。

40.
  用于执行权利要求36所述的方法的计算机可读介质,其中为了有效地进行比较而组织第二数据集的步骤包含利用存储器阵列。

41.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法的步骤包含:在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第一数据集的至少一部分。

42.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法的步骤进一步包括修改第一数据集以反映第二数据集。

43.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法来比较第二数据集和第一数据集的至少一部分的步骤包含确定第二数据集中的至少一个记录的至少一个记录是否:
不在第一数据集中;
包含对至少一个记录的至少一个变化,该至少一个记录在第一数据集的至少一部分中,被确定为反映多个实体中一个相同实体;以及
第一数据集的至少一部分不在第二数据集中。

44.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法识别永久键或者赋给永久键的步骤包含:当确定第二数据集中的至少一个记录反映多个实体中一个相同实体时,将前面所识别或赋给第一数据集的至少一部分中的记录的永久键,赋给第二数据集的至少一个记录。

45.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个的步骤进一步包含:
第二数据集中的至少一个记录,其不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化;和
日期。

46.
  用于执行权利要求45所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含无变化指令,该至少一个记录包括第二数据集的至少一个记录,它不包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。

47.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含添加指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为不存在于第一数据集的至少一部分中。

48.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含修改指令,该至少一个记录包括第二数据集中的至少一个记录,它被确定为包含对反映多个实体中一个相同实体的第一数据集的至少一部分的至少一个记录中的至少一个记录的变化。

49.
  用于执行权利要求34所述的方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤包含删除指令,该至少一个记录包括第一数据集的至少一部分的至少一个记录,它被确定为不存在于第二数据集中。

50.
  用于执行权利要求49中方法的计算机可读介质,其中利用算法建立数据库和文件中的一个以包含至少一个记录的步骤只有当第二数据集不被确定为第一数据集的至少一部分的增量数据集时才执行,该至少一个记录包括第一数据集的至少一部分中的至少一个记录,它被确定为不存在于第二数据集中。

51.
  对于用于处理数据的系统和含有执行该方法的计算机可执行的程序指令的计算机可读存储介质,该方法包括步骤:
接收具有第一记录的第一数据集;
将永久键赋给第一记录;
接收具有第二记录的第二数据集;
将第二记录与第一记录进行比较;
在日志中记录涉及第二记录与第一记录的比较的项。

52.
  用于执行权利要求51所述的方法的计算机可读介质,进一步包括如果第二记录与第一记录匹配,则将与赋给第一记录的永久键相同的永久键赋给第二记录的步骤。

53.
  用于执行权利要求51所述的方法的计算机可读介质,进一步包括如果第二记录与第一记录不匹配,则赋给与赋给第一记录的永久键不同的永久键。

54.
  用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对含在第一记录中的信息的变化,则在日志中记录改变的第二记录项。

55.
  用于执行权利要求54所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且包含对第一记录所含的信息的变化,则在日志中记录“修改”指令。

56.
  用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录所含的信息的变化,则记录该永久键和日期。

57.
  用于执行权利要求56所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录匹配并且不包含对第一记录中所含的信息的变化,则在日志中记录“无变化”指令。

58.
  用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第二记录与第一记录不匹配,则在日志中用“添加”指令记录第二记录。

59.
  用于执行权利要求51所述的方法的计算机可读介质,其中在日志中记录项的步骤包含如果第一记录与第二记录不匹配并且第二数据集不是第一数据集的增量数据集,则用“删除”指令在日志中记录第一记录。

60.
  用于执行权利要求51所述的方法的计算机可读介质,其中第一数据集包含多个第一记录。

61.
  用于执行权利要求51所述的方法的计算机可读介质,其中第二数据集包含多个第二记录。

62.
  用于执行权利要求51所述的方法的计算机可读介质,其中第一记录表示多个实体中的一个实体。

63.
  用于执行权利要求51所述的方法的计算机可读介质,进一步包括在将第二记录与第一记录进行比较之前,修改第二数据集的步骤。

64.
  用于执行权利要求51所述的方法的计算机可读介质,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第二数据集的步骤。

65.
  用于执行权利要求51所述的方法的计算机可读介质,进一步包括在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第一数据集的步骤。

66.
  用于执行权利要求51所述的方法的计算机可读介质,进一步包括修改第一数据集以反映第二数据集的步骤。

说明书

数据集比较与净变化处理
相关申请的交叉参照

联盟赞助或开发

技术领域
本发明一般性地涉及两个记录、数据集或批次之间的比较,和任何添加、修改和/或删除的有效确定,尤其涉及用于当保存永久键(persistent key)的同时比较和分析第一数据集与计算机所接收的第二数据集的系统、方法和软件。
背景技术
数据库和数据仓库是基于计算机的数据结构,这种结构被设计为允许对通常从一个或多个源接收的记录进行存储和查询。记录一般与一些实体相对应,例如个人、组织和财产这样的实体。在一定的情况下,数据库系统将面临这样一种情况:新的数据集极可基本上是以前递交给系统的数据集的重复。而且,当与先前递交的数据集相比较时,新的数据集可能包含一定量的,即使是很少量的添加、修改或删除。处理大量冗余的数据集滥用有价值的系统资源,并产生显著的可伸缩性问题。
例如,以前递交的数据集可能包含特定地理区域中的所有住宅电话列表。此后,也许按月或半年地,系统接收新的数据集,该新数据集包括该特定地理区域的所有住宅电话列表或部分住宅电话列表的较新集合。最少地处理这种重复性很高的新数据集将不识别从较新集合中删除的记录,并需要有意接收者处理比所需更多的数据。
本发明旨在识别或赋给对应于每个记录、能够便于数据集的有意接收者有效地处理和识别每个记录的永久键。例如,住宅电话列表不含有每个记录的永久键。因此,当前系统中进行的任何比较基于整个记录或记录中数据,例如姓、名、电话号码和/或地址的某种组合。有时,数据集中的一个记录或许多记录可能不同于先前递交的数据集,例如当邮局分割邮政编码时。在这种情形下,通过允许有意接收者基于永久键更新受影响的记录,以使初始识别受影响记录所需的处理最小化,永久键利于有意接收者进行更有效的处理。
不幸的是,当前的系统不具有在维护永久键的同时,比较两个数据集和确定两个数据集间的添加、删除或修改的有效方式。这包含产生代表这种添加、删除或修改的子集的日志以便进一步使用各自的永久键进行检查、分析和/或报告的有效方式,但不限于此。
提供本发明以解决这些和其它问题。
发明内容
本发明的目的在于提供一种用于处理数据以比较两个数据集的方法、程序和系统。通过可以与网络中的一个或多个其它计算机相连的计算机来实现本发明。
在一个实施例中,该方法、程序和系统包括步骤:接收第一数据集和第二数据集,每个数据集包括至少一个记录,其中每个记录反映多个实体中的至少一个实体。在这一点上,多于一个的记录可反映相同实体(例如,表示特定的人的项)。该方法、程序和系统进一步包括利用算法执行下列操作的步骤:(a)将第二数据集与第一数据集的至少一部分相比较;(b)针对第二数据集中的每个记录识别或赋给永久键(也许向反映相同实体的记录赋给相同永久键);(c)建立数据库或文件(即,日志)以包含任何记录:(i)在第二数据集中的下述记录:(1)第一数据集中不存在的记录(也许具有表示添加的“添加”指令和所识别或赋给的永久键),(2)包含对第一数据集中的至少一个记录的至少一个变化的记录(也许具有表示修改的“修改”指令和所识别或赋给的永久键),和/或(3)也许不包含对第一数据集中至少一个记录的至少一个变化,但是将多个实体中的相同实体反映为第一数据集中具有日期的记录的记录(也许具有“无变化”指令,表示在第二数据集中递交第一数据集中的相同记录);和/或(ii)在第一数据集中存在,但在第二数据集中不存在地记录,也许:(1)具有表示删除的“删除”指令和所识别的永久键,和(2)仅在第二数据集不是第一数据集的至少一部分的递增的情况下(例如,只有最近月的变化,而不是整个数据集)。
第一和第二数据集中所含有的数据优选地表示多个实体。然而,在某些情形下,每个数据集可包含涉及单个(即,相同)实体的一个或多个记录。这些实体可以是个人、财产、组织或其它能够通过标识数据来表示的标识项。
利用算法的步骤可包含:在将第二数据集与第一数据集的至少一部分进行比较之前的下列步骤的至少一个:(a)建立第二数据集的新部分,(b)修改第二数据集的至少一部分,和/或(c)为了有效地进行比较而组织第二数据集,包含但不限于:(i)对第二数据集进行排序,(ii)利用数据库结构(例如,带索引的数据库),和/或(iii)利用存储器阵列。进一步考虑的是,修改第二数据集的至少一部分的步骤可包含去掉或替换满足用户定义准则的第二数据集的部分,例如去掉或替换记录中所含有的被识别为不适合的字符。
进一步考虑的是,利用算法的步骤进一步包括:(a)在将第二数据集与第一数据集的至少一部分进行比较之前,为了有效地进行比较而组织第一数据集的至少一部分,包含但不限于:(i)对第一数据集进行排序,(ii)使用数据库结构(例如,带索引的数据库),和/或(iii)使用存储器阵列,和/或(b)修改第一数据集以反映第二数据集(具有所识别或赋给的永久键)。以这种方式,第一数据集可以反映最近已知的数据集。
还进一步考虑的是,利用算法将第二数据集与第一数据集的至少一部分进行比较的步骤包含确定(a)第二数据集中的至少一个记录是否:(i)在第一数据集中不存在,或(ii)包含对至少一个记录的至少一个变化,该至少一个记录在第一数据集的至少一部分中,被确定为反映多个实体中一个相同实体,或确定(b)第一数据集的至少一部分是否在第二数据集中不存在。
还进一步考虑的是,利用算法识别或赋给永久键的步骤包含:当确定第二数据集中的至少一个记录反映多个实体中一个相同实体(例如,同一个人)时,将前面所识别或赋给第一数据集的至少一部分中的记录的永久键,赋给第二数据集的至少一个记录。
在第二个实施例中,该方法、程序和系统包括步骤:(a)接收具有第一记录的第一数据集,(b)将永久键赋给第一记录,(c)接收具有第二记录的第二数据集,(d)将第二记录与第一记录进行比较,和(e)在日志中记录涉及第二记录与第一记录的比较的项。进一步考虑的是,第二个实施例进一步包括步骤:(a)如果第二记录与第一记录匹配(例如,反映相同的实体,但不必含有相同的数据),则将与赋给第一记录的永久键相同的永久键赋给第二记录,和/或(b)如果第二记录与第一记录不匹配,则赋给与赋给第一记录的永久键不同的永久键。
进一步考虑的是,在日志中记录项的步骤包括:(a)如果第二记录与第一记录匹配并且包含对第一记录所含的信息的变化,则在日志中记录改变的第二记录项(也许具有“修改”指令),(b)如果第二记录与第一记录匹配并且不包含对第一记录所含的信息的变化,则记录该永久键和日期(反映第一记录与第二记录相同)(也许具有“无变化”指令),和/或(c)如果第二记录与第一记录不匹配,则在日志中用“添加”指令记录第二记录。
进一步考虑的是,第二个实施例进一步包括如果第一记录与第二记录不匹配并且第二数据集不是第一数据集的增量数据集,则用“删除”指令在日志中记录第一记录的步骤。
进一步考虑的是:(a)第一数据集包含多个第一记录,(b)每个第一记录表示多个实体中的一个实体,(c)第二数据集包括多个第二记录,和/或(d)第二个实施例进一步包括步骤:(i)在第二记录与第一记录进行比较之前,修改第二数据集(例如,产生新数据和/或替换存在的数据),和/或(ii)修改第一数据集以反映第二数据集(用所赋给的永久键)。
进一步考虑的是,第二个实施例进一步包括步骤:(a)在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第一数据集,和/或(b)在将第二记录与第一记录进行比较之前,为了有效地进行比较而组织第二数据集。
将参照下列附图和其详细说明书讨论本发明的这些、其它方面和属性。
附图说明
图1是本发明的系统的功能方框图;
图2是图1中处理算法模块的流程图。
具体实施方式
虽然本发明具有多种不同形式的实施例,然而在附图中只示出本发明的具体实施例,并在这里对其进行详细地描述,其中应当理解,所公布的内容应被认为只是本发明的原理的示例,其并不旨在将本发明限制于所例举的具体实施例。
在图1-2中图解了用于处理数据的数据处理系统10。系统10包含至少一个常规计算机12,它具有处理器14和存储器16。存储器16既用于存储操作系统10的可执行软件,又用于存储数据集和作为随机访问存储器。然而,在任何其它计算机可读介质,例如CD、DVD或软盘上可以存储或提供该软件。此外,可以整个地,或部分地将该数据集存储在计算机12的数据库或存储器中。计算机12可以从公共信道源18接收数个输入,这些输入可以由一个或多个源发出。
系统被配置成从源18接收数据集。数据集包括一个或多个记录,这些记录表示一个或多个实体。而这些实体可以是个人、组织、财产、蛋白质、化学或有机化合物、生物或原子结构、或其它能够被标识数据所表示的项。
系统10利用算法20处理来自源18的第一数据集22和第二数据集24。算法20被存储在存储器16中,并由处理器14处理或实现。
第一数据集可表示最新已知的数据集,其中每个记录具有永久键,该键在与第二数据集进行任何比较之前被识别或赋给。永久键是唯一的数字或字母数字标识符,至少可用于区分表示特定实体的一个或多个记录与表示不同实体的其它记录。
如图2所图解的,算法20接收第一数据集22(也许通过加载具有以前识别或赋给的永久键的最近已知数据集)和第二数据集24,并建立第二数据集的新部分(例如,增强和/或补充第二数据集)和/或按照用户定义的准则修改第二数据集,例如用另一个诸如“空格”字符的已知字符代替被确定为坏的或不合适的字符。然后,为了有效地进行比较28,组织第一数据集,并且为了有效地进行比较30,组织第二数据集。通过将第二数据集中的第一记录与第一数据集32中的记录进行比较,将第二数据集与第一数据集的所有或预定部分进行比较。
如果第一数据集中的记录(“第一记录”)与第二数据集34中的记录(“第二记录”)匹配(例如,反映相同的实体,但不必含有相同的数据),则算法20将已经赋给的已匹配的第一记录的相同永久键,赋给第二记录,并确定是否在第二记录引入第一记录38中没有反映出的变化。如果第二记录引入了第一记录38中没有反映出的变化(“改变的第二记录”),则改变的第二记录被记录在单独的文件(例如平面文件或数据库,此后称为“日志”)中,用来通过“修改”指令(directive)标识改变、无改变、添加和删除,且根据指令42通过用改变的第二记录(带有永久键,也许带有日期/时间标记)替换第一记录,来更新第一数据集。然后算法20确定是否还有另外的未加比较的记录44。
如果第二记录没有引入变化,而且与第一记录相同(“相同的记录”),则算法20可在日志中记录“无变化”指令(带有永久键),并记录表示第二数据集46中递交该相同记录的日期。然后算法20确定是否还有另外的未加比较的记录44。
如果第二记录与第一记录48不匹配,则赋给第二记录新的永久键50,并用“添加”指令(“添加记录”)52将该第二记录记录在日志中。然后基于该指令42,通过将具有永久键的添加记录直接或间接地添加到第一数据集中(例如直接添加到第一数据集,加入到稍后能够并入第一数据集的单独文件或数据库中,和/或通过利用存储器阵列),使第一数据集得到更新。
如果第一记录与第二记录不匹配,并且第二数据集中没有该第一记录(“不匹配的记录”)54,则算法20一般将会通过从源发出的标识第二数据集为增量或非增量的指令来确定第二数据集是否仅仅是第一数据集56的增量数据集。如果第二数据集不是增量数据集,则不匹配的记录是:(a)用“删除”指令58在日志中记录的记录(带有永久键),和(b)基于指令42,通过去掉或标记为从第一数据集中删除不匹配的记录,使第一数据集得到更新。然后算法20确定是否还有任何另外的未加比较的记录44。
如果还有另外的未加比较的记录,则算法20将第二数据集的下一个记录与第一数据集60进行比较,并重复该过程。如果没有另外未加比较的记录,则算法20存储更新过的数据集和日志62。
根据终端用户的选择,日志能够产生(也许为另外的处理或分析)报告、文件和/或标识以下的数据子集:(a)所有改变的第二记录,这些记录反映了修改第一数据集中的某些记录的记录,(b)所有相同的记录,这些记录反映保持未改变的记录,但具有与第二数据集相对应的较新日期,(c)所有添加记录,这些记录反映被添加到第一数据集中的记录,和/或(d)所有未匹配的记录,这些记录反映要从第一数据集中删除的记录。
通过前述能够明白,可在不偏离本发明的实质和范围的前提下进行许多变化和修改。应当理解的是,任何针对这里图解的具体装置的限制均是非本意的,也不应是必然的。当然,试图通过所附权利要求书将所有这样的修改涵盖在保护范围内。

数据集比较与净变化处理.pdf_第1页
第1页 / 共19页
数据集比较与净变化处理.pdf_第2页
第2页 / 共19页
数据集比较与净变化处理.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《数据集比较与净变化处理.pdf》由会员分享,可在线阅读,更多相关《数据集比较与净变化处理.pdf(19页珍藏版)》请在专利查询网上搜索。

用于在保存永久键的同时利用算法比较(32)和分析(34)第一数据集和通过计算机所接收的第二数据集的方法、程序和系统。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1