《用于保护指定数据组合的系统和方法.pdf》由会员分享,可在线阅读,更多相关《用于保护指定数据组合的系统和方法.pdf(41页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103430504 A (43)申请公布日 2013.12.04 CN 103430504 A *CN103430504A* (21)申请号 201180058414.4 (22)申请日 2011.02.15 12/939,340 2010.11.04 US H04L 29/06(2006.01) G06F 17/30(2006.01) H04L 12/22(2006.01) (71)申请人 迈克菲公司 地址 美国加利福尼亚 (72)发明人 RPS阿胡贾 WJ德宁格尔 (74)专利代理机构 永新专利商标代理有限公司 72002 代理人 张晰 王英 (54) 发明名称 。
2、用于保护指定数据组合的系统和方法 (57) 摘要 本发明公开了一种方法, 包括 : 从数据文件的 记录中提取多个数据元 ; 将所述多个数据元标记 化成多个标记 ; 将所述多个标记存储在登记列表 的第一元组中 ; 选择所述多个标记中的一个作为 用于所述第一元组的标记关键字, 其中所述标记 关键字比所述第一元组中的所述多个标记中的其 它每个标记更不频繁地出现在所述登记列表中。 还在实施例中公开并要求保护相应的其它装置和 方法。 (30)优先权数据 (85)PCT申请进入国家阶段日 2013.06.04 (86)PCT申请的申请数据 PCT/US2011/024902 2011.02.15 (87)。
3、PCT申请的公布数据 WO2012/060892 EN 2012.05.10 (51)Int.Cl. 权利要求书 5 页 说明书 22 页 附图 13 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书5页 说明书22页 附图13页 (10)申请公布号 CN 103430504 A CN 103430504 A *CN103430504A* 1/5 页 2 1. 一种方法, 包括 : 从数据文件的记录中提取多个数据元 ; 将所述多个数据元标记化成多个标记 ; 将所述多个标记存储在登记列表的第一元组中 ; 选择所述多个标记中的一个作为用于所述第一元组的标记关键字, 其中所。
4、述标记关键 字比所述第一元组中的所述多个标记中的其它每个标记更不频繁地出现在所述登记列表 中。 2. 如权利要求 1 所述的方法, 其中所述多个数据元中的至少一个是由一个或多个连续 必要字符的字符模式限定的词语。 3. 如权利要求 1 所述的方法, 其中至少一个数据元是由与预定义的表达模式匹配的 字符模式限定的表达元, 所述预定义的表达模式表示至少两个词语和所述词语之间的分隔 符。 4. 如权利要求 1 所述的方法, 其中所述多个标记中的每个标记是对应数据元的数值表 示。 5. 如权利要求 1 所述的方法, 还包括 : 通过识别指示所述记录的末尾的预定义的定界符来确定所述记录的末尾。 6. 如。
5、权利要求 1 所述的方法, 其中所述登记列表包括多个元组, 所述登记列表的每个 元组仅与一个或多个数据文件的一条记录相关联。 7. 如权利要求 1 所述的方法, 其中所述标记关键字存储在索引表的索引中, 所述索引 包括指示所述登记列表中的所述第一元组的位置的第一偏移。 8. 如权利要求 7 所述的方法, 其中所述索引包括与所述第一偏移相关联的文档标识 符, 所述文档标识符表示包含所述记录的数据文件。 9. 如权利要求 7 所述的方法, 其中所述索引包括第二偏移, 所述第二偏移对应于所述 登记列表中的具有另外多个标记的第二元组, 所述第二偏移指示所述登记列表中的所述第 二元组的位置, 其中所述第。
6、二元组中的所述另外多个标记中的一个等同于所述标记关键 字。 10. 如权利要求 1 所述的方法, 其中选择所述多个标记中的一个作为用于所述第一元 组的标记关键字还包括 : 生成包括每个标记在所述登记列表中的出现总数的计数表 ; 以及 搜索所述计数表以识别所述多个标记中相对于所述第一元组中的其它每个标记具有 最低出现总数的一个标记。 11. 一种装置, 包括 : 一个或多个登记模块, 其用于生成具有多个元组的登记列表, 每个元组表示指定数据 元组合 ; 以及 处理器, 其用于执行与所述一个或多个登记模块相关联的指令, 包括 : 从数据文件的记录中提取多个数据元 ; 将所述多个数据元标记化成多个标。
7、记 ; 将所述多个标记存储在所述登记列表的第一元组中 ; 选择所述多个标记中的一个作为用于所述第一元组的标记关键字, 其中所述标记关键 权 利 要 求 书 CN 103430504 A 2 2/5 页 3 字比所述第一元组中的所述多个标记中的其它每个标记更不频繁地出现在所述登记列表 中。 12. 如权利要求 11 所述的装置, 其中至少一个数据元是由与预定义的表达模式匹配的 字符模式限定的表达元, 所述预定义的表达模式表示至少两个词语和词语之间的分隔符。 13. 如权利要求 11 所述的装置, 其中所述处理器用于执行另外的指令, 包括 : 通过识别指示所述记录的末尾的预定义的定界符来确定所述记。
8、录的末尾。 14. 如权利要求 13 所述的装置, 其中所述登记列表的每个元组仅与一个或多个数据文 件的一条记录相关联。 15. 如权利要求 11 所述的装置, 其中所述标记关键字存储在索引表的索引中, 所述索 引包括指示所述登记列表中的所述第一元组的位置的第一偏移。 16. 如权利要求 15 所述的装置, 其中所述索引包括第二偏移, 所述第二偏移对应于所 述登记列表中的具有另外多个标记的第二元组, 所述第二偏移指示所述登记列表中的所述 第二元组的位置, 其中所述第二元组中的所述另外多个标记中的一个等同于所述标记关键 字。 17. 如权利要求 11 所述的装置, 其中选择所述多个标记中的一个作。
9、为用于所述第一元 组的标记关键字还包括 : 生成包括每个标记在所述登记列表中的出现总数的计数表 ; 以及 搜索所述计数表以识别所述多个标记中相对于所述第一元组中的其它每个标记具有 最低出现总数的一个标记。 18. 一种方法, 包括 : 识别数据文件的记录中的第一数据元的起始 ; 如果开始于所述第一数据元的起始处的第一字符串与预定义的表达模式匹配, 则确定 所述第一数据元为表达元, 所述预定义的表达模式表示至少两个词语和所述两个词语之间 的分隔符 ; 提取所述表达元 ; 将所述表达元标记化成第一标记 ; 以及 将所述第一标记存储在登记列表的第一元组中。 19. 如权利要求 18 所述的方法, 还。
10、包括 : 在对所述表达元进行标记化之前对所述表达元进行规格化。 20. 如权利要求 19 所述的方法, 其中所述规格化包括从所述表达元中去除所述分隔 符。 21. 如权利要求 18 所述的方法, 其中所述预定义的表达模式是多个预定义的表达模式 中与开始于所述第一数据元的起始处的任意字符串匹配的最长的一个。 22. 如权利要求 18 所述的方法, 还包括 : 识别所述记录中的第二数据元的起始 ; 确定所述第二数据元为词语, 其中多个预定义的表达模式中没有一个与开始于所述第 二数据元的起始处的第二字符串匹配 ; 提取所述词语 ; 将所述词语标记化成第二标记 ; 以及 权 利 要 求 书 CN 10。
11、3430504 A 3 3/5 页 4 将所述第二标记存储在所述登记列表的所述第一元组中。 23. 如权利要求 18 所述的方法, 其中预定义的定界符将所述数据文件中的各连续记录 对分隔开。 24. 如权利要求 18 所述的方法, 其中预定义的定界符位于所述数据文件中的记录的末 尾, 所述预定义的定界符选自由分号、 换行、 回车、 冒号和句号组成的组。 25. 如权利要求 18 所述的方法, 其中所述登记列表的每个元组仅与所述数据文件的一 条记录相关联。 26. 如权利要求 18 所述的方法, 其中所述至少两个词语中的每个均由一个或多个连续 必要字符的字符模式限定。 27. 如权利要求 26 。
12、所述的方法, 其中所述必要字符选自由数字、 书面语言的字母和表 示书面语言的语音段的符号组成的组。 28. 如权利要求 18 所述的方法, 其中所述分隔符不等同于必要字符, 并且其中, 如果所 述分隔符等同于预定义的定界符, 则将所述分隔符区分于所述预定义的定界符, 所述预定 义的定界符指示所述记录的末尾。 29. 一种装置, 包括 : 登记列表模块 ; 以及 处理器, 其用于执行与所述登记列表模块相关联的指令, 包括 : 识别数据文件的记录中的第一数据元的起始 ; 如果开始于所述第一数据元的起始处的第一字符串与预定义的表达模式匹配, 则确定 所述第一数据元为表达元, 所述预定义的表达模式表示。
13、至少两个词语和所述两个词语之间 的分隔符 ; 提取所述表达元 ; 将所述表达元标记化成第一标记 ; 以及 将所述第一标记存储在登记列表的第一元组中。 30. 如权利要求 29 所述的装置, 其中所述处理器用于执行另外的指令, 包括 : 在对所述表达元进行标记化之前对所述表达元进行规格化, 其中所述规格化包括从所 述表达元中去除所述分隔符。 31. 如权利要求 29 所述的装置, 其中所述预定义的表达模式是多个预定义的表达模式 中与开始于所述第一数据元的起始处的任意字符串匹配的最长的一个。 32. 如权利要求 29 所述的装置, 其中所述处理器用于执行另外的指令, 包括 : 识别所述记录中的第二。
14、数据元的起始 ; 确定所述第二数据元为词语, 其中多个预定义的表达模式中没有一个与开始于所述第 二数据元的起始处的第二字符串匹配 ; 提取所述词语 ; 将所述词语标记化成第二标记 ; 以及 将所述第二标记存储在所述登记列表的所述第一元组中。 33. 如权利要求 29 所述的装置, 其中预定义的定界符将所述数据文件中的各连续记录 对分隔开。 34. 如权利要求 29 所述的装置, 其中所述登记列表的每个元组仅与所述数据文件的一 权 利 要 求 书 CN 103430504 A 4 4/5 页 5 条记录相关联。 35. 一种方法, 包括 : 从对象中提取多个数据元 ; 将所述多个数据元标记化成多。
15、个对象标记 ; 识别登记列表中的多个元组中的第一元组, 所述第一元组包括多个关联标记 ; 确定所述多个关联标记中的每一个是否对应于所述多个对象标记中的至少一个 ; 以及 如果所述多个关联标记和所述多个对象标记之间的对应量满足预定阈值, 则确认事 件。 36. 如权利要求 35 所述的方法, 其中识别所述第一元组还包括 : 识别来自所述多个对象标记中的未决关键字 ; 以及 搜索索引表以找到与所述未决关键字对应的标记关键字, 其中偏移与所述标记关键字 链接, 所述偏移指示所述登记列表中的所述第一元组的位置。 37. 如权利要求 36 所述的方法, 其中所述未决关键字包括在未决关键字列表中, 所述 。
16、未决关键字列表是通过搜索所述索引表以确定所述多个对象标记中的任一个是否对应于 所述索引表中的多个标记关键字中的一个而生成的, 其中对应于所述多个标记关键字中的 一个的每个对象标记被存储在所述未决关键字列表中。 38. 如权利要求 36 所述的方法, 其中所述标记关键字比所述第一元组中的所述多个关 联标记中的其它每个关联标记更不频繁地出现在所述登记列表中。 39. 如权利要求 35 所述的方法, 其中当所述第一元组中的所述多个关联标记中的每个 对应于所述多个对象标记中的至少一个时, 满足所述预定阈值。 40. 如权利要求 35 所述的方法, 还包括 : 通过为所述多个对象标记中的每个设定位而在位。
17、散列表中表示所述多个对象标记, 所 述位散列表包括多个位, 每个位均在所述位散列表中具有单独的位位置。 41. 如权利要求 40 所述的方法, 其中所述确定还包括 : 评估所述位散列表以确定所述 位散列表的对应于所述多个关联标记中的一个的每个位位置上是否设定了位。 42. 如权利要求 35 所述的方法, 其中所述多个数据元中的至少一个为由一个或多个连 续必要字符的字符模式限定的词语。 43. 如权利要求 35 所述的方法, 其中所述多个数据元中的至少一个为具有与预定义的 表达模式匹配的字符模式的表达元, 所述预定义的表达模式表示至少两个词语和词语之间 的分隔符。 44. 一种装置, 包括 : 。
18、一个或多个检测模块, 其用于接收包括用于与具有多个元组的登记列表进行比较的多 个数据元的对象, 每个元组均表示指定数据元组合 ; 以及 处理器, 其用于执行与一个或多个检测模块相关联的指令, 包括 : 从对象中提取多个数据元 ; 将所述多个数据元标记化成多个对象标记 ; 识别登记列表中的多个元组中的第一元组, 所述第一元组包括多个关联标记 ; 确定所述多个关联标记中的每一个是否对应于所述多个对象标记中的至少一个 ; 以及 如果所述多个关联标记和所述多个对象标记之间的对应量满足预定阈值, 则确认事 权 利 要 求 书 CN 103430504 A 5 5/5 页 6 件。 45. 如权利要求 4。
19、4 所述的装置, 其中识别所述第一元组还包括 : 识别来自所述多个对象标记中的未决关键字 ; 以及 搜索索引表以找到与所述未决关键字对应的标记关键字, 其中偏移与所述标记关键字 链接, 所述偏移指向所述登记列表中的所述第一元组的位置。 46. 如权利要求 45 所述的装置, 其中所述未决关键字包括在未决关键字列表中, 所述 未决关键字列表是通过搜索所述索引表以确定所述多个对象标记中的任一个是否对应于 所述索引表中的多个标记关键字中的一个而生成的, 其中对应于所述多个标记关键字中的 一个的每个对象标记被存储在所述未决关键字列表中。 47. 如权利要求 44 所述的装置, 其中所述标记关键字比所述。
20、第一元组中的所述多个关 联标记中的其它每个关联标记更不频繁地出现在所述登记列表中。 48. 如权利要求 44 所述的装置, 其中当所述第一元组中的所述多个关联标记中的每个 对应于所述多个对象标记中的至少一个时, 满足所述预定阈值。 49. 如权利要求 44 所述的装置, 其中所述多个数据元中的至少一个为由一个或多个连 续必要字符的字符模式限定的词语。 50. 如权利要求 44 所述的装置, 其中所述多个数据元中的至少一个为具有匹配预定义 的表达模式的字符模式的表达元, 所述预定义的表达模式表示至少两个词语和词语之间的 分隔符。 权 利 要 求 书 CN 103430504 A 6 1/22 页。
21、 7 用于保护指定数据组合的系统和方法 0001 相关美国申请信息 0002 本申请与 William Deninger 等人共同转让给其受让人的、 于 2009 年 1 月 23 日递 交的、 发明名称为 “SYSTEM AND METHOD FOR INTELLIGENT STATE MANAGEMENT” 、 共同未决的 美国临时专利申请序列 No.12/358,399(代理人案号 004796.1042) 相关。该申请的公开内 容被视为本文的一部分并且以引用方式全部并入本文。 技术领域 0003 本发明一般涉及数据管理领域, 并且更特别地, 涉及用于保护指定数据组合的系 统和方法。 背。
22、景技术 0004 计算机网络已变成现代商业不可或缺的工具。企业能够利用网络来进行通信, 并 且还能够以各种形式存储数据并且将数据存储在各个位置处。 关键信息频繁地在商业企业 网络上传播。 一些联邦和州的规定提供了通过各种组织或商业覆盖特定类型信息的散播的 限制。 因此, 除了业主信息可能丢失以及对商业造成负面影响之外, 企业还可能面临由于一 些数据的无意或故意泄漏的法律责任。现代企业经常采用多种工具来控制这种信息的散 播, 并且许多这样的工具试图阻止局外人、 入侵者和未经授权的人员存取或接收机密的、 有 价值的或其它敏感信息。通常地, 这些工具可包括防火墙、 入侵检测系统和分组嗅探器设 备。 。
23、0005 提供配备有能够保护并控制重要信息的移动的有效数据管理系统的系统或协议 的能力对于安全专业人员、 部件制造商、 服务提供商和系统管理者等都是很大的挑战。 附图说明 0006 为了提供对本发明及其特征和优点的更全面的理解, 参照以下结合附图进行的说 明, 其中相似的附图标记表示相似的部分, 其中 : 0007 图 1 为根据本公开的一个实施例的用于在网络环境中保护指定数据组合的系统 的示例性实现的简化框图 ; 0008 图 2 为可用于根据本公开的数据组合保护系统的实施例的计算机的简化框图 ; 0009 图 3 为根据本公开的一个实施例的数据组合保护系统中的登记系统的框图 ; 0010 。
24、图 4 为根据本公开的一个实施例的数据组合保护系统中的各种数据文件结构的 框图 ; 0011 图 5 为根据本公开的登记系统的一个方面的示例性数据输入和输出的简化框图 ; 0012 图 6A、 图 6B 和图 7 为示出与登记系统相关联的一系列示例步骤的简化流程图 ; 0013 图 8 示出了根据本公开的一个实施例的与登记系统处理相关联的示例性场景中 的文件内容 ; 0014 图 9 为根据本公开的一个实施例的数据组合保护系统中的检测系统的框图 ; 说 明 书 CN 103430504 A 7 2/22 页 8 0015 图 10 为根据本公开的检测系统的一个方面的示例性数据输入和输出的简化框。
25、 图 ; 0016 图 11-12 为示出与检测系统相关联的一系列示例步骤的简化流程图 ; 以及 0017 图 13 示出了根据本公开的一个实施例的与检测系统处理相关联的示例性场景中 的文件内容。 具体实施方式 0018 概述 0019 一个示例性实施例中的方法包括 : 从数据文件的记录中提取多个数据元 ; 将多个 数据元标记化 (tokenize) 成多个标记 ; 以及将多个标记存储在登记列表的第一元组中。该 方法还包括 : 选择多个标记中的一个作为用于第一元组的标记关键字, 其中所述标记关键 字比第一元组中的其它每个标记更不频繁地出现于登记列表中。在更具体的实施例中, 至 少一个数据元为具。
26、有与预定义的表达模式匹配的字符模式的表达元, 其中预定义的表达模 式表示至少两个词语字和词语字之间的分隔符。在其它具体的实施例中, 至少一个数据元 是由一个或多个连续必要字符的字符模式限定的词语。 其它更具体的实施例包括通过识别 预定义的定界符来确定记录的末尾。 0020 另一示例性实施例中的方法包括 : 从对象提取多个数据元 ; 将多个数据元标记化 成多个对象标记 ; 以及识别登记列表中的第一元组。该方法还包括 : 确定第一元组中的多 个关联标记中的每一个是否对应于对象标记中的至少一个。 另外, 该方法包括 : 如果第一元 组中的多个关联标记和多个对象标记之间的对应量满足预定阈值, 则确认事。
27、件。在更具体 的实施例中, 当第一元组中的关联标记中的每个对应于多个对象标记中的至少一个时, 满 足预定阈值。 0021 示例性实施例 0022 图1是示出用于在示例性网络100中登记和检测指定数据组合的数据组合保护系 统 10 的示例性实现的简化框图。数据组合保护系统 10 可以包括多个网络元件, 例如具有 登记系统 22 的网络装置 (appliance) 12 以及分别具有检测系统 24、 26 和 28 的多个网络装 置 14、 16 和 18。这些网络装置 12、 14、 16 和 18 能够由数据保护管理器 32 借助于诸如网络 装置 30 的另一网络元件管理, 或者与诸如网络装置。
28、 30 的另一网络元件耦合。另外, 网络安 全平台 140 可提供用于网络 100 的现有的网络安全基础结构, 并且可与数据组合保护系统 10 适当地集成。 0023 图 1 所示的网络环境可通常被配置或布置成表示能够交换分组的任何通信架构。 这种配置可以包括诸如图 1 中为示例目的而显示的既定商业实体的单独部门 (例如, 市场 部 152、 销售部 154、 生产部 156) 。另外, 还可以在网络 100 中设置诸如电子邮件网关 162、 web 网关 164、 交换机 172、 防火墙 174 和至少一个客户端设备 130 的其它共同的网络元件。 网络 100 还可配置为通过防火墙 17。
29、4 与诸如因特网 180 的其它网络交换分组。 0024 数据组合保护系统 10 能够帮助组织保护机密数据免于从网络环境无意和有意的 披露。数据组合保护系统 10 的实施例能够用于登记数据元的指定组合, 并且用于检测网络 环境的对象内的登记数据组合。例如, 当组合以识别个体时是足够有区分性并且可能暴露 关于个体的机密或敏感信息的数据元, 能够通过数据组合保护系统 10 被登记为组合并且 说 明 书 CN 103430504 A 8 3/22 页 9 能够在网络中的对象中被检测到。系统 10 能够创建登记列表, 其中, 以登记列表中的单独 的元组或记录表示数据元的每个指定组合或集合。 能够对具有。
30、一个或多个数据元集合的任 何数据文件执行创建登记列表中的这些元组的登记操作, 每个数据元集合通过预定义的定 界符与其它数据元集合定界。登记列表能够由关键字索引, 其中每个关键字对应于以元组 表示的数据元中的一个。 0025 数据组合保护系统 10 能够执行检测操作以找到网络环境中的对象 (例如, 文字处 理文件、 电子表格、 数据库、 电子邮件文件、 明文文件、 任何人类语言文本文件等) 中的一个 或多个登记的数据元组合。对象可在网络中被捕获并且被格式化以便于传输 (例如, HTML、 FTP、 SMTP、 Webmail 等) 或存储在数据库、 文件系统或其它存储仓库中。在一个实施例中, 当。
31、 在对象中检测到登记的数据元组合 (即, 以登记列表的一个元组表示) 中的所有数据元时, 可对事件加标志或进行确认, 并且可防止传送对象和 / 或可以将对象报告给网络操作员或 其它被授权人以进行监控并采取任何适当的补救措施。在其它实施例中, 如果在对象中找 到登记的数据元组合的特定阈值量, 则可确认一个事件。 0026 为了示出数据组合保护系统10的技术, 重要的是理解诸如图1所示的网络的既定 网络中可能存在的活动和安全考虑。下面的基础性信息可被视为正确地解释本公开的基 础。 仅为说明的目的而认真提供这种信息, 因此, 不应被解释为以任何方式限制本公开的宽 泛范围及其可能的应用。 0027 许。
32、多安全环境中的挑战是控制机密电子数据的能力。在一个示例性的安全问题 中, 许多组织收集并存储能够用于识别可能与组织相关联或者可能仅为普通公共机构或其 各部门的成员的个体的数据。该敏感数据可以包括例如姓名、 社会安全号码、 信用卡号码、 地址、 电话号码、 出生日期、 国籍、 账号、 雇员、 婚姻状况等。 对象中的仅敏感数据元或者甚至 对象中的少量敏感数据元可能不具有充分的区别性以识别特定的人或透露机密信息。然 而, 随着对象内与特定人相关联的敏感数据元的数量增加, 人变得可识别的可能性也增加, 并且因此, 暴露相关机密信息的风险增大。 类似地, 其它类型的机密信息也可能随着与机密 信息相关的关。
33、联数据元 (例如, 与知识产权、 公司金融数据、 机密政府信息等相关的数据元) 的数量增加而变得可识别。 0028 各联邦和州的法律也通过一些组织或实体来规定个体非公共个人信息以及个 人可识别信息的披露。例如, 1996 年的健康保险可携性和责任法案 (Health Insurance Portability and Accountability Act) (HIPAA)规定 : 如果信息是个体可识别的 (即, 包含诸如姓名、 地址、 出生日期、 社会安全号码或可用于识别特定人的其它信息的信 息) , 则使用和披露受保护的健康信息 (PHI) 。类似地, 1999 年的金融服务业现代化法案 (。
34、Gramm-Leach-Bliley Act) (GLBA) 寻求通过规定金融机构对非公共个人信息的披露来保 护个体的个人金融信息。在另一示例中, 支付卡行业 (Payment Card Industry)(PCI) 数据 安全标准也规定支付卡上的数据元的使用和披露。 这些规定可禁止未经授权散播包括可能 识别特定个体及其个人信息的预定数据元组合 (例如, 姓名、 社会安全号码和出生日期) 的 电子数据。 0029 监控用于敏感数据元的对象由于多种原因可能存在问题。首先, 保持在一些网络 中的数据量要求复杂的处理技术来最小化网络性能退化。仅仅是美国的大概 3 亿人, 与那 些个体相关的数据元的数。
35、量会快速增加到数十亿的数据元。 标准的计算机存储器和处理能 说 明 书 CN 103430504 A 9 4/22 页 10 力需要进行优化, 从而高效地处理对象以登记并评估数十亿的数据元。 0030 因为一些数据不总是以标准格式存在, 所以出现了另外的监控问题。 例如, 多种格 式可用于出生日期 (例如,6 月 25 日, 1964 、06-25-1964 、1964 年 5 月 25 日 等) 或电 话号码 (例如, (000) 000-0000 、000-000-0000 、000.000.0000 等) 。在一个示例性场 景中, 数据元可以一种格式存储在网络中, 并且随后以不同的格式披。
36、露于对象中。然而, 规 定以及对于未经授权数据披露的最终惩罚可应用于机密信息的披露, 而不考虑在该披露中 使用的格式。因此, 检测对象中的敏感数据元要求识别特定数据的各种格式。 0031 电子数据能够电子共享的多种格式还可能阻碍安全系统成功地监控机密信息的 电子披露。能够以多种配置提供电子数据 (例如, 具有预定义的列和行的电子表单、 电子邮 件消息、 文字处理文件、 数据库、 使用限定协议格式化的发送对象, 等等) 。结果是, 在监控数 据元指定组合的系统中, 这些元件可能无需位于同一指定组合的其它相关数据元紧附近。 特定的指定组合中的数据元可由对象内的词语、 格式化字符、 线或任何分隔符或。
37、定界符分 隔开。需要复杂的技术来评估和确认包含数据元的指定组合的对象, 而不考虑这种数据元 出现在对象内的何处。 0032 用于保护图 1 所列出的指定数据组合的系统能够解决这些问题中的许多问题。根 据数据组合保护系统 10 的一个示例性实现, 登记系统 22 设置在网络 100 中, 以创建待监控 的数据元的指定组合或集合的登记列表。 登记系统能够识别并登记以各种字符格式或模式 呈现的数据元, 并且所述数据元是以在每个数据元集合之间具有预定义的定界符的各种电 子文件格式提供的。多个检测系统 24、 26 和 28 还可以设置为评估网络环境中捕获和 / 或 存储的对象, 以确定哪个对象包含一个。
38、或多个登记的数据元集合。检测系统可被配置为识 别对象内的数据元, 并且确定登记的数据元组合中的每个数据元是否包含在对象的界限内 的某位置。 可通过检测系统以优化计算机资源并使得任何网络性能问题最小化的方式索引 并搜索登记列表。 0033 注意的是, 在该说明书中, 对包括在 “一个实施例” 、“示例性实施例” 、“实施例” 、 “另一实施例” 、“一些实施例” 、“各种实施例” 、“其它实施例” 、“可选实施例” 等中的各特征 (例如, 元件、 结构、 模块、 部件、 步骤等) 的指代意在表示任何这样的特征可包含在本公开的 一个或多个实施例中, 但是可以或者可以不必要地包括在同一实施例中。 0。
39、034 转到图1的基础结构, 数据组合保护系统10可实现在示例性网络100中, 网络100 可配置为局域网 (LAN) , 并且可利用各种有线配置 (例如, 以太网) 和 / 或无线技术 (例如, IEEE802.11x) 来实现。在一个实施例中, 网络 100 通过因特网服务提供商 (ISP) 或者通过 具有专用带宽的因特网服务器来与因特网 180 可操作地耦合。网络 100 还可连接到配置 为 LAN 或任何其它适当的网络类型的其它逻辑上不同的网络。此外, 网络 100 可适当地以 及根据特定需要而由任何其它类型的网络来替代。这些网络包括无线 LAN(WLAN) 、 城域网 (MAN) 、。
40、 宽域网 (WAN) 、 虚拟私人网络 (VPN) , 或有利于网络环境中的通信的任何其它适当的 架构或系统。与因特网 180 和其它逻辑上不同的网络的连接可以包括任何适当的介质, 例 如数字用户线路 (DSL) 、 电话线路、 T1 线路、 T3 线路、 无线、 卫星、 光纤、 电缆、 以太网等或其 任意组合。诸如网关、 路由器、 交换机 (例如, 172) 等多种网络部件可用于有助于网络 100 内 的电子通信以及网络100、 因特网180以及任何其它与网络100链接的逻辑上不同的网络之 间的电子通信。 说 明 书 CN 103430504 A 10 5/22 页 11 0035 网络 1。
41、00 可配置为容许传输控制协议 / 互联网协议 (TCP/IP) 通信, 以用于电子分 组的传输或接收。网络 100 还可以适当地以及基于特定需要与用户数据报协议 /IP(UDP/ IP) 或任何其它适合的协议相结合地运行。另外, 电子邮件网关 162 可允许与网络 100 可操 作地连接的客户端计算机 (诸如客户端设备 130) 利用简单邮件传递协议 (SMTP) 或任何其 它适合的协议来发送和接收电子邮件消息。 0036 客户端设备 130 代表希望影响或管理网络 100 中的电子通信的一个或多个端点 或顾客。术语 “客户端设备” 可包含用于发起电子通信的设备, 诸如计算机、 个人数字助理。
42、 (PDA) 、 膝上型计算机或电子笔记本、 蜂窝电话或任何其它设备、 部件、 元件或能够发起网络 100 内的语音、 音频或数据交换的对象。端点还可以包括与人类用户的适当接口, 诸如麦克 风、 显示器或键盘或其它终端设备。端点还可以为试图代表另一实体或元件发起电子通信 的任何设备, 诸如程序、 数据库或任何其它部件、 设备、 元件或能够发起网络 100 内的语音 或数据交换的对象。 0037 具有登记和检测系统的网络装置能够提供网络 100 中的数据组合保护系统 10, 其 能够保护而免于无意或故意的信息泄漏, 其中泄漏数据的特定组合可能会潜在暴露机密信 息。这些网络装置能够访问与网络配置相。
43、关联的通信路径, 使得一个或多个装置能够访问 电子邮件流量、 其它网络流量或仅驻存在商业基础结构中的某位置 (例如, 服务器上、 仓库 等等) 的数据。特别地, 具有登记系统 22 的网络装置 12 能够部署于网络 100 中, 用以访问 包含敏感数据元的数据库和仓库 112。登记系统 22 能够登记来自数据库和仓库 112 或者 来自适当格式的其它文件或对象的特定数据组合。登记的数据组合能够由网络装置 14、 16 和 18 的检测系统 24、 26 和 28 使用, 以检测网络流量中的任何完整的登记数据组合或其预 定部分的泄漏, 或者用于检测驻存在商业基础结构的未经授权部门中的这种数据组合。
44、或其 预定部分的存在。 0038 具有检测系统 24、 26 和 28 的网络装置 14、 16 和 18 能够部署在网络出口点 (例如, 电子邮件网关 162、 web 网关 164、 交换机 172 等) 处, 以保护内到外以及内到内的网络流量。 当网络装置检测到风险事件时, 其能够警告管理员, 而管理员能够衡量现有的基础结构以 阻挡或隔离敏感信息以免其离开网络。 作为利用诸如网络分流器或流量镜像的被动拦截技 术部署的设备, 网络装置能够非破坏性地操作, 无需改变应用程序、 服务器、 工作站或其网 络自身。网络装置能够实时地监控并分析所有的应用程序、 协议和内容类型并触发执行动 作。 00。
45、39 图 1 所示的网络装置 30 中的数据保护管理器 32 可设计成数据组合保护系统 10 的简化管理, 因为其能够提供集中化接口以管理遍及多个网络装置的登记系统 22 和所有 的检测系统 24、 26 和 28。数据保护管理器 32 可被配置为集中地维护由登记系统 22 和检测 系统 24、 26 和 28 生成的数据, 并且协调能够驻存于如图 1 所示的各网络装置中的分布式登 记和检测系统之间的数据流。特别地, 一个实施例包括由登记系统 22 创建的登记列表和所 述登记列表的索引, 登记列表和所述登记列表的索引能够由数据保护管理器 32 分配给分 布式检测系统 24、 26 和 28 中。
46、的每个。 0040 数据保护管理器 32 还可配置成允许经授权的安全专业人员 (例如, IT 管理员、 网 络操作员等) 来确定将何种数据输入提供给登记系统 22, 包括哪个数据库或其它仓库登记 系统 22 爬取数据输入, 来指定与个体检测系统相关联的强制执行或监控状态, 并且指定谁 说 明 书 CN 103430504 A 11 6/22 页 12 能够访问对应的查找结果。强制执行动作能够包括警告适当的管理员、 引导强制执行设备 阻挡或隔离可疑流量、 和 / 或对流量进行报告。监控动作能够包括警告适当的管理员和 / 或对可疑流量进行报告, 而没有阻挡或隔离动作。 0041 数据保护管理器 3。
47、2 还可以提供集中的查询机构, 其允许组织快速地搜索同时包 含于多个分布式网络装置上的捕获数据库。 通过允许管理员统一地浏览遍及部署有网络装 置的网络中的点所捕获的所有历史数据, 组织能够快速地执行取证分析、 行为调查, 并且衡 量捕获数据来更新安全形势从而保护敏感信息或处理出现的威胁。另外, 数据保护管理器 可以提供统一的报告和诊断信息。 0042 一个或多个表格和列表可包括在这些网络装置中。在一些实施例中, 这些表格和 列表可从外部提供给这些元件或以任何适当的方式合并。 表格和列表为用于存储待由其对 应网络装置参考的信息的存储器元件。如该文件中所使用的, 术语 “表格” 和 “列表” 包括。
48、能 够维护与本说明书中在此详细描述的操作有关的信息的任何适当的数据库或存储介质 (以 任何适当的格式提供) 。例如, 表格和列表可以将信息存储在电子寄存器、 图表、 记录、 索引 或队列中。 表格和列表可将这些信息适当地以及根据特定需要而保存在任何适当的随机存 取存储器 (RAM) 、 只读存储器 (ROM) 、 可擦除可编程 ROM(EPROM) 、 电可擦除 PROM(EEPROM) 、 专用集成电路 (ASIC) 、 软件、 硬件或任何其它适合的部件、 设备、 元件或对象中。 0043 捕获系统 29 还可以为一个或多个网络装置 (诸如网络装置 18) 的一部分 (或与一 个或多个网络装。
49、置耦合) , 并且可与对应的捕获数据库 118 可操作地连接。在一个示例性实 施例中, 捕获系统 29 可以为如 William Deninger 等人于 2009 年 1 月 23 日递交的、 发明名 称为 “SYSTEM AND METHOD FOR INTELLIGENT STATE MANAGEMENT” 、 共同未决的美国临时专 利申请序列 No.12/358,399 中所图示和所描述的捕获系统, 该申请在前文中以引用方式全 部并入本文。捕获系统 29 可配置为拦截离开网络 (例如网络 100) 的数据, 或者与网络 (例 如网络 100) 进行内部通信的数据。捕获系统 29 能够对离开网络或在内部通信的对象 (例 如, 文件或其它文档) 进行重构, 并且以可搜索方式将经过重构的对象存储在例如捕获数据 库 118 中。 0044 在一些实施例中, 捕获系统 29 还可与网络 100 的其它各检测系统 24 和 26 相结合 地实现, 以捕获来自对应出口点 (例如, 电子邮件网关 162 和 web 网关 164) 的数据。捕获系 统 29 还可以与其它相关联的但是逻。