《用于处理数据的系统和方法.pdf》由会员分享,可在线阅读,更多相关《用于处理数据的系统和方法.pdf(33页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102915321 A (43)申请公布日 2013.02.06 C N 1 0 2 9 1 5 3 2 1 A *CN102915321A* (21)申请号 201210227570.5 (22)申请日 2012.07.02 13/173,028 2011.06.30 US G06F 17/30(2006.01) (71)申请人波音公司 地址美国伊利诺伊州 (72)发明人 LJ夸特西 KM纳卡摩德 B沃恩 (74)专利代理机构北京纪凯知识产权代理有限 公司 11245 代理人赵蓉民 (54) 发明名称 用于处理数据的系统和方法 (57) 摘要 本发明提供一种用于处理。
2、至少部分未结构化 数据的方法。该方法包括在数据处理工具从至少 一个数据源接收至少部分未结构化数据,以及处 理该至少部分未结构化数据以生成包括标签化数 据的至少部分结构化的数据,其中处理至少部分 未结构化数据包括以下中的至少一个:利用关联 存储器应用程序来处理至少部分未结构化数据; 以及利用正则表达式处理程序来处理至少部分未 结构化数据。该方法进一步包括传输至少部分结 构化数据到主应用程序,以及至少部分基于标签 化数据来合并至少部分结构化数据到主应用程 序,其中合并该至少部分结构化数据包括基于标 签的存在、内容和/或类型来进行以下中的至少 一个:包括数据和排除数据。 (30)优先权数据 (51)。
3、Int.Cl. 权利要求书2页 说明书16页 附图14页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 16 页 附图 14 页 1/2页 2 1.一种处理至少部分未结构化数据的方法,该方法包括: 在数据处理工具处从至少一个数据源接收至少部分未结构化数据; 处理所述至少部分未结构化数据,以实现包括标签化数据的至少部分结构化数据的生 成,其中所述标签化数据包括至少一个感兴趣的项目,并且其中处理所述至少部分未结构 化数据包括下列中的至少一个: 利用关联存储器应用程序来处理所述至少部分未结构化数据;以及 利用正则表达式处理程序来处理所述至少部分未结构化数据;。
4、 传输所述至少部分结构化数据到主应用程序;以及 至少部分基于所述标签化数据合并所述至少部分结构化数据到主应用程序,其中合并 所述至少部分结构化数据包括基于标签的存在、内容和类型中的至少一个来进行以下中的 至少一个:包括数据和排除数据。 2.根据权利要求1所述的方法,其进一步包括: 验证至少部分结构化数据被正确标签化;以及 释放至少部分结构化数据,使得所述至少部分结构化数据可以被合并到所述主应用程 序中。 3.根据权利要求2所述的方法,其中验证至少部分结构化数据包括检查所述至少部分 结构化数据中的一个或更多识别标签。 4.根据权利要求1所述的方法,其中利用关联存储器应用程序处理至少部分未结构化 。
5、数据包括: 将至少部分未结构化数据语法分析成至少部分未结构化数据的一个或更多段; 用所述至少部分未结构化数据的至少一个段查询所述关联存储器应用程序; 生成与所述至少部分未结构化数据的至少一个段和所述关联存储器应用程序中的数 据的至少一个段关联的分数;以及 基于所述分数来标签化所述至少部分未结构化数据的所述至少一个段。 5.根据权利要求4所述的方法,其中查询所述关联存储器应用程序包括查询如下关联 存储器应用程序,其包括包含样板文件的数据的至少一个段,并且其中标签化至少部分未 结构化数据的至少一个段包括标签化至少部分未结构化数据的包括样板文件的至少一个 段。 6.根据权利要求1所述的方法,其进一步。
6、包括: 在用户接口显示所述至少部分结构化数据,其中所述至少部分结构化数据包括被不正 确标签化和被不正确未标签化中至少一个的错误识别的数据的至少一个段; 在所述用户接口接收错误识别的数据的至少一个段的用户选择;以及 基于所述错误识别的数据的至少一个段来更新所述数据处理工具; 输出至少部分结构化数据到输出表格和输出超文本标记语言(HTML)页中的一个。 7.根据权利要求1所述的方法,其中利用正则表达式处理程序来处理所述至少部分未 结构化数据包括: 应用至少一个源正则表达式模式到至少部分未结构化数据; 将所述至少部分未结构化数据的至少一个段和所述至少一个源正则表达式模式匹配; 以及 权 利 要 求 。
7、书CN 102915321 A 2/2页 3 标签化所述至少部分未结构化数据的至少一个匹配段包括用识别标签来标签化至少 部分未结构化数据中的至少一个匹配段。 8.一种用于处理至少部分未结构化数据的系统,所述系统包括: 处理装置; 通信耦合到所述处理装置的用户接口;以及 通信耦合到所述处理装置的存储器和通信耦合到所述处理装置的通信接口中的至少 一个,所述处理装置被编程为: 从所述存储器和所述通信接口中的至少一个接收所述至少部分未结构化数据;以及 利用在其上执行的数据处理工具来处理所述至少部分未结构化数据,以通过以下方式 中的至少一个实现包括标签化数据的至少部分结构化数据的生成,所述标签化数据包括。
8、至 少一个感兴趣的项目: 利用在其上执行的关联存储器应用程序来处理所述至少部分未结构化数据;以及 利用在其上执行的正则表达式处理程序来处理所述至少部分未结构化数据;以及 基于标签化来合并所述至少部分结构化数据到主应用程序,其中合并所述至少部分结 构化数据包括基于标签的存在来进行以下中的至少一个:包括数据和排除数据。 9.根据权利要求8所述的系统,其中所述处理装置进一步被编程为: 使所述用户接口显示所述至少部分结构化数据,其中所述至少部分结构化数据包括被 不正确标签化和被不正确未标签化中至少一个的错误识别的数据的至少一个段; 接收所述错误识别的数据的至少一个段的用户选择;以及 基于所述错误识别的。
9、数据的至少一个段来更新在其上执行的数据处理工具。 10.根据权利要求9所述的系统,其中利用关联存储器应用程序来处理所述至少部分 未结构化数据,所述处理装置进一步被编程为: 将所述至少部分未结构化数据语法分析成所述至少部分未结构化数据的一个或更多 段; 用所述至少部分未结构化数据的至少一个段查询在其上执行的所述关联存储器应用 程序; 生成与所述至少部分未结构化数据的至少一个段和所述关联存储器应用程序中的数 据的至少一个段关联的分数;以及 基于所述分数来标签化所述至少部分未结构化数据的所述至少一个段; 利用正则表达式处理程序来处理所述至少部分未结构化数据,所述处理装置进一步被 编程为: 应用至少一。
10、个源正则表达式模式到所述至少部分未结构化数据; 将所述至少部分未结构化数据的至少一个段和所述至少一个源正则表达式模式匹配; 以及 标签化所述至少部分未结构化数据的至少一个匹配段,输出所述至少部分结构化数据 到所述存储器中的输出表格和输出超文本标记语言(HTML)页中的一个,以便经由用户接口 显示。 权 利 要 求 书CN 102915321 A 1/16页 4 用于处理数据的系统和方法 技术领域 0001 本公开的领域总体涉及数据分析,尤其是涉及处理未结构化数据和/或部分结构 化数据以生成结构化数据,以便由应用程序处理。正如本文所使用的,未结构化数据指为自 由形式以及基于生成该数据人员的语法/。
11、语言而变化的数据。 背景技术 0002 在数据分析系统中,数据,例如未结构化文本和/或部分结构化文本或其他数据 类型(例如字母数字串和非字母数字数据(图像、元数据等)在被添加到系统之前,常常需 要被处理和/或组织成更结构化的形式。然而,从未结构化文本和/或部分结构化数据 中识别、语法分析和提取相关信息会是困难的和耗时的。利用类属语法分析器(generic parsers)和/或提取器(extractor)来识别这类信息,数据会被忽略、错误识别和/或不适 当地解构。 0003 为了纠正这些错误,常常编写专用代码以正确地识别该信息。然而,编写和实现这 类专用代码会是耗时的,而且得到的代码仅适用特定。
12、情形。进一步地,定期更新未结构化 文本和/或部分结构化数据会加重这些问题,因为其引入了可能需要其他专用代码的新情 形。进一步地,专用代码通常仅能由有经验的人员编写和更新。 0004 也可以实现自然语言方法来处理和/或组织未结构化数据和/或部分结构化数 据。然而,根据未结构化数据和/或部分结构化数据的来源,自然语言在组织未结构化数 据和/或部分结构化数据时可能不是有效的。进一步的,自然语言方法要求需要本体论 (ontology)专家和数据挖掘专家,以便正确地编程和更新。最后,可以使用人工智能工具 (例如基于规则的系统、神经网络和/或Bayesian网络)来处理和/或组织未结构化数据和 /或部分结。
13、构化数据。然而这些系统也要求有经验的人员来实现和/或更新。 发明内容 0005 一方面,提供了用于处理至少部分未结构化数据的方法。该方法包括在数据处理 工具从至少一个数据源接收至少部分未结构化数据并处理该至少部分未结构化数据以生 成包括标签化数据的至少部分结构化数据,其中标签化数据包括至少一个感兴趣的项目, 以及其中处理该至少部分未结构化数据包括以下中的至少一个:利用关联存储器应用程序 来处理该至少部分未结构化数据;以及利用正则表达式处理程序来处理该至少部分未结构 化数据。该方法进一步包括传送至少部分结构化数据到主应用程序,并且至少部分基于标 签化数据合并至少部分结构化数据到主应用程序中,其中。
14、合并至少部分结构化数据包括基 于标签的存在、内容和/或类型来进行以下中的至少一个:包括数据和排除数据。 0006 另一方面,提供了一种具有体现在其上的计算机可执行指令的一个或更多计算机 可读存储介质。当由至少一个处理器执行时,计算机可执行指令使该至少一个处理器在数 据处理工具处从至少一个数据源接收至少部分未结构化数据,并处理至少部分未结构化数 据以生成包括标签化数据的至少部分结构化数据,其中标签化数据包括至少一个感兴趣的 说 明 书CN 102915321 A 2/16页 5 项目,并且其中处理至少部分未结构化数据,计算机可执行指令使处理器执行以下中的至 少一个:利用关联存储器的应用程序来处理。
15、至少部分未结构化数据;以及利用正则表达式 处理程序来处理至少部分未结构化数据。该指令进一步使至少一个处理器传送至少部分结 构化数据到主应用程序中,并且至少部分基于标签化数据合并至少部分结构化数据到主应 用程序中,其中合并至少部分结构化数据包括基于标签的存在进行以下中的至少一个:包 括数据和排除数据。 0007 在又一个方面,提供了一种用于处理至少部分未结构化数据的系统。该系统包括 处理装置、通信耦合到处理装置的用户接口以及通信耦合到处理装置的存储器和通信耦合 到处理装置的通信接口中的至少一个。处理装置被编程为从存储器和通信接口中的至少一 个接收至少部分未结构化数据;利用在其上执行的数据处理工具。
16、来通过以下中的至少一个 处理至少部分未结构化数据以生成包括标签化数据的至少部分结构化数据,标签化数据包 括至少一个感兴趣的项目:利用在其上执行的关联存储器应用程序来处理至少部分未结构 化数据;和利用在其上执行的正则表达式处理程序来处理至少部分未结构化数据;以及基 于标签化合并至少部分结构化数据到主应用程序中,其中合并至少部分结构化数据包括基 于标签的存在来进行以下中的至少一个:包括数据和排除数据。 0008 已经讨论的特征、功能和优点可以在各种实施例中独立实现或可以在其他实施例 中组合,其进一步细节可以参考下列描述和绘图看出。 附图说明 0009 图1是用于处理文本的方法的流程图。 0010 。
17、图2A-2D是图解说明在图1示出的方法的图示。 0011 图3是用于对未结构化文本标签化以生成结构化文本的示例性方法的流程图。 0012 图4是图解说明利用正则表达式处理程序来标签化未结构化文本的示例性方法 的图示。 0013 图5是图解说明利用关联存储器应用程序来标签化未结构化文本的示例性方法 的图示。 0014 图6是利用关联存储器应用程序来识别和标签化未结构化文本的示例性方法的 图示。 0015 图7是用于生成识别得分的示例性方法的流程图。 0016 图8A-图8C是识别和选择错误识别的文本的示例性用户接口的实施例。 0017 图9是示例性文本处理系统的框图。 0018 图10是数据处理。
18、系统的图示。 具体实施方式 0019 本文所述的方法和系统涉及可能在数据源(例如,文本文件、数据库字段 (database field)中发现的感兴趣项目的识别。虽然本文所述的示例和实施例涉及文 本处理,但是应当理解,实施例不应该解释为如此限制。描述文本处理的示例和实施例是 为了清晰起见。本文使用的示例无意被视为限制性的,而仅仅用作说明性示例。更确切 说,这里描述的实施例涉及包括任何类型信息和/或数据的处理,包括文本、字母数字数据 说 明 书CN 102915321 A 3/16页 6 (alphanumeric data)、嵌入式对象、图像、元数据、视频、音频、多媒体和所有类型的数据和 信息。
19、流中的一个或多个,而不限于任何特定形式或类型的这类数据和信息。 0020 因此该方法和系统涉及,例如利用数据处理工具来提供数据的标签化,这给数据 提供了“结构”,以及发生在处理期间的数据的任何结构化的验证。虽然本文做了进一步描 述,但是应当理解,实施例不仅涉及在文件内的未结构化数据的“结构化”,而且涉及包含部 分结构化数据的文件的进一步结构化。为了进一步清晰起见,正如本文所使用的,未结构化 数据是指通常由人员输入的数据,例如文本,其为自由形式并且基于该人的语法/语言而 变化。例如,电子邮件和注记字段通常使用户能够输入自由形式的响应。进一步地,正如本 文所使用的,若数据中的信息被标签化或以有组织。
20、化方式调用(call out),那么结构化数 据被称为结构化的和/或部分结构化的。前述将标签添加到文件内感兴趣的项目类似于将 文件内的数据结构化。 0021 与现有的数据处理方法相比,这类实施例提供了改进的效率和性能。正如本文进 一步所述的,可以利用关联存储器应用程序(associative memory application)和/或正 则表达式处理程序中的一个或两者来识别数据内的感兴趣项目,通过标签化来结构化数据 内的感兴趣项目,以及验证数据内的感兴趣项目。关联存储器包括多个数据和该多个数据 之间的多个联合。关联存储器应用程序还指代利用关联存储器引擎将数据源合并在一起从 而创建的关联存储器。
21、。关联存储器引擎是控制关联存储器创建、维护和存取的应用程序,类 似于数据库软件如何控制多个数据库。关联存储器包括与其他实体和属性相关和/或关联 的实体和属性。实体是在感兴趣的特定项目的关联存储器中的实例,属性是关联的实体的 特性和/或描述。关联存储器记住属性、实体以及他们之间的联合。 0022 进一步地,在未结构化数据和/或部分结构化数据被处理成进一步结构化的数据 后,任何由数据处理工具已经错误识别的数据能够被识别。错误识别(不正确标签化)的 数据的这类实例用于改进和改善数据处理工具对进一步数据样本的识别、处理和验证的能 力。正如本文所使用的,错误识别的数据是指被不正确标签化的数据和/或不正确。
22、地未标 签化的数据(即,在处理期间应该已被标签化的未识别的数据,但不是例如之前没有被识别 为需要被标签化而后来发现需要标签化的数据)。 0023 进一步地,在某些实施例中,用户接口使得用户能够识别和选择错误识别的数据, 而不要求用户熟悉复杂的数据处理方法和系统和/或关联存储器系统和正则表达式处理 程序。由于本文所描述的方法和系统中的至少某些不要求专门人员维护和/或更新数据处 理工具,因此本文所描述的方法和系统有利于降低与已知数据分析系统相关的成本。 0024 图1是图解说明用于文本处理的方法100的流程图。方法100包括识别102待处 理的文本,例如,如上所述的未结构化文本和/或部分结构化文本。
23、。在未结构化文本和/或 部分结构化文本中识别104感兴趣的项目。例如,在一个实施例中,客户可以可视化地识别 104对数据分析员感兴趣的项目。接着,标签化106感兴趣的项目以至少部分结构化该文 本。可以利用手工或自动进程标签化106感兴趣的项目。 0025 验证108得到的包括标签的结构化文本(和/或部分结构化文本)该标签给文本提 供结构(如下面进一步描述)。验证108可以包括将结构化文本显示在耦合到文本处理系统 的一个或更多部件的用户接口上,并且观察给文本提供结构的各种标签。通过观察这类标 签,能够快速验证是否正确地标签化未结构化文本和/或部分结构化文本。进一步地,在某 说 明 书CN 102。
24、915321 A 4/16页 7 些实施例中,可以由用户选择已经被不正确地标签化或未标签化的文本,并将其用于更新 正被使用的一个或更多文本处理工具。在验证108结构化文本后,释放110该结构化文本, 以便进一步处理。释放的文本可以被传送到任何合适的数据挖掘应用程序和/或数据处理 应用程序,其基于标签化来处理和/或合并该结构化文本。例如,该结构化文本可以被传送 到主应用程序,如下面进一步描述的。 0026 图2A-2D是图解说明处理未结构化文本和/或部分结构化文本的示例性方法的图 示,其通过以下步骤进行:识别感兴趣的项目并相应地标签化它们,由此给文本提供结构或 额外结构。该方法可以利用各种文本处。
25、理方法和系统来实现。图2A包括在其原始形式的 未结构化文本202的样本。未结构化文本202和/或部分结构化文本(未在图2示出)可以 被存储在例如数据源中。为了清晰起见,在图2B中,以粗体字示出在未结构化文本202中 的多个感兴趣的项目204。在示例性实施例中,感兴趣的项目204包括在未结构化文本202 中的作者、年份、大学名称、城市、零件号以及书名。 0027 在文本样本包括部分未结构化文本的实施例中,可能已经标签化了某些感兴趣的 项目。例如,虽然之前已经标签化了作者和年份,但是仍然需要标签化大学名称。替换地, 感兴趣的项目204可以包括在如本文所述的通过标签化而可能被识别和处理的未结构化 文。
26、本和/或部分结构化文本内的任何类别和/或类型项目。例如,在本文所述的具体实施 例中,感兴趣的项目204包括动物、日期和/或样板文件文本(boilerplate text)。 0028 应当理解,“样板文件”是基于应用领域来描述文本类别的通用术语,这些文本类 别在风格、格式和/或内容上往往是类似的,特别是当文本由多个源创建时。在一个应用领 域,样板文件包括署名块、法律免责声明、专有标记(proprietary markings)和/或电话会 议信息。虽然在本文中常常称为文本,但是应当明白,样板文件还可以包括字母数字数据、 嵌入式对象(图像、元数据等)中的一个或更多。在一个实施例中,客户可以视觉地。
27、识别在未 结构化文本和/或部分结构化文本202中的感兴趣的项目204。 0029 一旦感兴趣的项目204被识别,就标签化感兴趣的项目204,这使文本202结构化 和/或部分结构化。在示例性实施例中,客户例如利用用户接口视觉地识别感兴趣的项目 204。该用户接口可以耦合到文本处理系统的一个或更多组件。在一个实施例中,客户向数 据分析员描述感兴趣的项目204。为了确定附加的感兴趣的项目204是否应该被标签化以 进一步结构化该文本,数据分析员可以和客户讨论在未结构化文本和/或部分结构化文本 202中的模式和/或项目。接着,数据分析员利用同一用户接口或利用耦合到文本处理系统 的一个或更多组件的单独的用。
28、户接口标签化附加的感兴趣的项目204。 0030 替换地,可以通过自动进程来标签化感兴趣的项目204以结构化和/或部分结构 化该文本。在一个实施例中,自动进程爬行(crawl)穿过适当名词、零件号和/或用于特定 类型信息的任何其他值集合的已知列表。进一步地,可以利用关联存储器应用程序和/或 正则表达式处理程序实现自动进程,如下所述。此外,自动进程还可以利用基于本体论的方 法识别这类值集合。在这样的情况下,以及其他未在这里描述的情况下,可应用的标签可以 被应用到在自动进程期间未被覆盖的得到的感兴趣的项目204,以给这样的文本添加结构。 0031 在图2C中,插入标签206以继续进行识别的感兴趣的。
29、项目204,从而结构化该文 本。例如,包括日期标签可能是尤其重要的,而排除标签(exclude-tag)可能是不重要的。 因此,这类标签206的存在指示至少部分结构化文本207。例如,在结构化文本207中,利用 说 明 书CN 102915321 A 5/16页 8 “author”标签208标签化“Henry David Thoreau”,利用“year”标签210标签化“1862”,以 及利用“city”标签212标签化“Concord”。在图2C示出的示例中,标签206还包括“part_ number”标签214和“book_title”标签216。如上所解释的,由数据分析员或通过使用自。
30、 动进程插入标签206到未结构化文本和/或部分结构化文本202内。这类标签的插入为文 本生成了结构。 0032 如图2D所示,每个类型的标签206还可以包括唯一识别标签,或“i-标签”。标签 和“i-标签”在形式上可以变化并使用不同的格式,包括使用HTMLXML类型标签或完全 不同的格式。在图2D中,i-标签以粗体字示出并具有形式“ixx”。在下述段落中分别 引用图2D中的各i-标签中的若干。i-标签使用户(例如客户和/或数据分析员)能够确 定每个标签206应用到感兴趣的项目204的良好程度。更具体地说,i-标签使用户能够快 速确定给定的标签206是否成功地被应用并且如所期望的那样标签化感兴趣。
31、的项目204, 一个标签206的应用是否和另一个应用冲突,和/或一个标签206的应用是否类似于另一 个标签206的应用和/或是另一个标签206的应用的复制品。为方便确定标签206的正确 应用,得到的结构化文本207被显示在耦合到文本处理系统的一个或更多组件的用户接口 上。 0033 例如,在图2D中,author标签208包括i-标签“i01”,book_title标签216 包括i-标签“i02”。author标签208和book_title标签216两者都正确地标签化感 兴趣的项目204。然而,如图2D所示,不正确的标签220错误识别在未结构化文本和/或 部分结构化文本202中的“1234。
32、-1”。即,包括i-标签“i05”的part_number标签214 不正确地识别“1234-1”为短语“The distance from his porch to the waters edge was1234-1255feet”中的零件号。即,如在该短语中所使用的“1234-1”不是感兴趣的项 目204,并且不应该被标签化为part_number标签214。另外,i-标签“i14”也紧挨着 “1234-1”出现,指示另一个标签206被应用到该特定文本。通过在用户接口上观察不正确 i-标签,数据分析员能够迅速地确定包括i-标签“i05”和“i14”的标签206中的至少 一个操作不正确和/或。
33、不成功,并采取恰当的步骤纠正这个错误。 0034 一旦包括标签206的结构化文本207(其可以是仅部分结构化)被验证(即,确定 所有标签206操作正确),就释放结构化文本207,以便进一步处理。在一个实施例中,用户 验证应用程序数据源中的得到的结构化文本以确定文本处理工具是否正确地处理来自主 数据源的未结构化文本和/或部分结构化文本。若用户验证文本被正确处理,则用户释放 该文本(结构化文本和/或部分结构化文本)到应用程序数据源中,使得主应用(如本文进一 步描述)能够合并该结构化文本。若该用户确定该文本被不正确地处理,则用户更新处理工 具数据源和/或处理工具以纠正任何文本处理错误和/或过失。在实。
34、施例中,验证和更新 是自动的或部分自动的。 0035 图3是用于标签化未结构化文本以生成结构化(或部分结构化)文本的示例性方 法的流程图300。应当注意,根据接收的文本内容和感兴趣的项目,同一方法用于部分结构 化文本的进一步标签化以进一步结构化该文本以及可能得到仅部分结构化文本的未结构 化文本的标签化。为进一步清晰起见,如本文所使用的,未结构化文本是指通常由人员输入 的文本,其为自由形式并且基于该人员的语法/语言而变化。例如,电子邮件和注记字段通 常使用户能够输入自由形式的响应。进一步地,正如本文所使用的,若文本中的信息被标签 说 明 书CN 102915321 A 6/16页 9 化或以组织。
35、方式调用,则文本被称为结构化的和/或部分结构化的。在示例性实施例中,结 构化文本是指包括识别文本中信息的一个或更多标签的文本。为了处理,未结构化文本和 /或部分结构化文本被供应给文本处理工具304。 0036 在本文所述的示例性实施例中,文本处理工具304包括正则表达式处理程序309 和关联存储器引擎308内的关联存储器应用程序306中的一个或两者,用于通过标签的插 入结构化未结构化文本和/或部分结构化文本302,如本文详细描述的。关联存储器应用程 序306包括关联存储器。如本文所使用的,关联存储器是指利用一个或更多数据源生成的 信息储藏。该信息储藏包括与其他实体和属性相关和/或关联的实体和属。
36、性。 0037 实体是在感兴趣的特定项目的关联存储器中的实例,属性是关联实体的特性和/ 或描述。关联存储器应用程序306使用户能够通过属性与实体和/或实体类型的联合两者 做相似度分析和执行类比查询。因此,关联存储器应用程序306使得能够发现之前未识别 的属性和实体之间的关联。关联存储器引擎308使关联存储器应用程序306能够搜索关于 存储在关联存储器中的实体和实体关系的信息。 0038 在示例性实施例中,文本处理工具304还包括正则表达式处理程序309,用于处理 未结构化文本和/或部分结构化文本302,如下面详细描述。替换地,文本处理工具304可 以仅包括关联存储器应用程序306和正则表达式处。
37、理程序309中的一个。进一步地,在某 些实施例中,关联存储器应用程序306或正则表达式处理程序309构成完整的文本处理工 具304。文本处理工具304利用关联存储器应用程序306和/或正则表达式处理程序309 来处理未结构化和/或部分结构化文本302并且输出结构化文本310,如本文所述。 0039 图4是图解说明利用正则表达式处理程序(REPP)400(例如正则表达式处理程序 309(如图3所示)来对未结构化文本和或部分结构化文本进行标签化(结构化)的图示。 REPP400可以和本文进一步描述的系统一起使用。根据应用,REPP400可以是文本处理工具 的一个组件或可以构成完整的文本处理工具。待。
38、处理的未结构化文本和/或部分结构化文 本被存储在源表格402中,该源表格可以是主数据源的一部分。未结构化文本和/或部分 结构化文本在源表格402中被组织为文本的列。 0040 在示例性实施例中,为了给未结构化文本和/或部分结构化文本添加标签,用户 利用用户接口选择所期望的文本段,例如,用户接口耦合到文本处理系统的一个或更多组 件。某些实施例也允许用户简单地手工编辑源以添加标签。选择的文本段从源表格402传 送到REPP400,以便处理添加标签到文本,并因此添加结构到文本。替换地,未结构化文本 和/或部分结构化文本的段和/或列可以从源表格402自动地传送到REPP400(即用户没 有选择文本)。。
39、REPP400可以由嵌在计算机可读介质中的可执行指令编程。 0041 在REPP400,一个或更多源正则表达式模式(SREP)404被应用到选择的文本段和/ 或列。在示例性实施例中,SREP404被存储在处理工具数据源中。在SREP404中的正则表 达式是在大多数编程语言(例如,Java,PERL)中可用的标准字母数字字符和非字母数字字 符,其用于匹配文本中的一系列字符。 0042 在示例性实施例中,给定的SREP404包含包括四种类型实体的行:捕捉所期望系 列字符的正则表达式模式;替换模式;REPP400用来执行特定动作(例如,递归应用具体模 式)的特殊字符;记载给定的SREP404的目的任。
40、务的注记字段。REPP400在SREP404中读 取,按从顶部到底部的顺序应用每个SREP404行,并输出输出表格406和输出HTML页408中 说 明 书CN 102915321 A 7/16页 10 的至少一个。在某些实施例中,如本文进一步描述,输出表格406是应用程序数据源的一部 分。在示例性实施例中,输出表格406和HTML页408两者具有数据列,其包含如输出HTML 页408的“MODIFIED”列中所示的标签化文本,该标签化文本在本文称为结构化文本。 0043 如上所述,SREP404匹配并标签化选择的文本中的预定模式以提供这种文本的结 构化。例如,在图4中,Animal SREP。
41、匹配并标签化文本段中的动物名称,Date SREP匹配并 标签化文本段中的四个字符作为年份。Animal SREP和Date SREP是可以应用于一个实施 例的SREP的具体示例。应当明白,Animal SREP和Date SREP不是必然地关联在404中示 出的类属SREP示例(例如,模式1,模式2)。 0044 接着,标签化的文本段被传送到输出表格406和/或输出HTML页408。在示例性实 施例中,用户利用用户接口选择是否传送标签化的文本段到输出表格406和/或输出HTML 页408。进一步地,在一个实施例中,结构化的文本段被传送到应用程序,以便进一步处理。 在下述的一个示例中,应用程序。
42、至少部分基于置入文本中的标签来合并结构化文本。例如, 应用程序可以包括或排除某些标签化单词和/或短语。 0045 输出HTML页408显示应用SREP404到未结构化文本和/或部分结构化文本段的结 果。例如,在图4中,输出HTML页408示出,“fox”在文本410的第一段中被标签为animal, “1942”在文本412的第二段中被标签为year。在一个实施例中,输出HTML页408被显示 在显示装置的用户接口上。通过观察输出HTML页408,该用户能够确定结构化文本的任何 段是否被正确地标签化。在某些实施例中,利用该用户接口,错误识别的文本能够用于更新 SREP404,例如,SREP404。
43、将被更新以纠正生成不正确标签的一个或更多现有模式。例如,当 用户识别和/或选择错误识别的文本时,该错误识别的文本能够用于修改现有的SREP404 和/或创建要被应用于新的未结构化文本和/或部分结构化文本的新的SREP404。 0046 在示例性实施例中,每个SREP404包括唯一识别标签,或“i-标签”。该“i-标签” 使用户能够确定在REPP400操作期间每个SREP404工作得如何。更具体地说,该i-标签使 用户能够确定给定的SREP404是否成功匹配并标签化所希望的文本段,确定一个SREP404 是否和另一个SREP404的运行冲突,和/或确定一个SREP404执行的操作是否类似于另一 。
44、个SREP404操作和/或是另一个SREP404操作的复制。 0047 例如,在图4中,Animal SREP包括i-标签“i21”,Date SREP包括i-标签 “i22”。因此,在输出HTML页408中,第一文本段410包括“i21”,其指示利用Animal SREP标签化第一文本段410,第二文本段412包括“i22”,其指示利用Date SREP标签 化第二文本段412。虽然在示出的实施例中,两个SREP404用于应用标签到未结构化文本 和/或部分结构化文本,但是可以应用使REPP400能够起如本文所述的作用的任何数量的 SREP。 0048 图5是图解说明关联存储器应用程序500(。
45、例如关联存储器应用程序306)如何识 别和标签化未结构化文本以提供结构化文本结果的图示。在示例性实施例中,未结构化文 本和/或部分结构化文本被存储在数据源中的一列或更多列中。该未结构化文本可以被分 开成多个列,使得该未结构化文本被拆成分开的列中的多个段。文本处理工具(例如文本处 理工具304)利用关联存储器应用程序500来识别和标签化在未结构化和/或部分结构化 文本中的感兴趣的项目,如本文所述。 0049 在图5示出的示例中,关联存储器应用程序500识别和标签化在未结构化/部分 说 明 书CN 102915321 A 10 8/16页 11 结构化数据中的样板文件文本,由此添加结构到未结构化/。
46、部分结构化数据中。虽然图5 中所示的示例图解说明了识别和标签化样板文件,但是该示例仅仅是说明性的,因为关联 存储器应用程序500可以用于识别和标签化在未结构化和/或部分结构化的文本和/或数 据中的任何感兴趣相关项目。 0050 在描述该示例中,应当理解,“样板文件数据”是描述文本和/或其他数据(例如,字 母数字数据、嵌入式对象、图像、元数据等)的类别的通用术语,这些文本类别在风格、格式 和/或内容方面往往类似,特别是当文本/数据由多个源创建时。对于本示例目的,样板文 件数据包括签名块、法律免责声明、专有标记和/或电话会议信息,但是该术语不应该视为 如此限制。由于样板文件通常与特定应用程序无关,。
47、而且若其由主应用程序接收,则可能负 面影响使用这类应用程序的结果,因此期望从这类应用程序中排除(即,不合并)样板文件。 0051 在这个特定示例中,若文本段类似于现有的样板文件,则其被标签化为样板文件。 在一个实施例中并且不以限制本文所述的方法和系统的范围的方式提供这个示例,以展示 文本处理工具如何利用关联存储器应用程序来识别和标签化文本。更具体地说,若关联存 储器被如此配置,则可以利用关联存储器应用程序来识别与样板文件的识别和标签化不相 关的感兴趣文本项目。 0052 为了识别和标签化文本,文本处理工具(例如文本处理工具304)查询关联存储器 应用程序500(例如关联存储器应用程序306(如。
48、图3所示)。在示例性实施例中,关联存 储器应用程序500由数据库生成。例如,图5示出包括标记列504、文本列506和识别列508 的数据库502,标记列504包括用于不同文本串的唯一整数,文本列506包括不同的文本串, 识别列508识别文本串是否是感兴趣的项目。 0053 例如,在数据库502中,文本“BOILERPLATE IS HERE.”被识别为样板文件,而文本 “TESTING ON NEW EQUIPMENT.”被识别为不是样板文件。虽然在示例性实施例中,数据库 502具有三个列,但是数据库502可以具有使测试处理工具和关联存储器应用程序能够如 本文所述起作用的任何数量的列。在某些实。
49、施例中,数据库502被视为与正则表达式模式 (例如SREP(如图4所示)并列(parallel)。 0054 在示例性实施例中,为了生成关联存储器应用程序500,标记列504和识别列508 被直接合并到关联存储器应用程序500。在示例性实施例中,在文本列506中的文本段被直 接合并到关联存储器应用程序500,使得文本列506和关联文本段形成关联存储器应用程 序500的一部分。替换地,在文本列506中的文本段可以利用类属语法分析器和/或提取 器合并到关联存储器应用程序500,使得在文本列506中的文本可以进一步分成和/或语 法分析成关键项目,例如在关联存储器应用程序500中形成一个或更多文本段的关键字和 /或关键短语。 0055 例如,文本列506可以分成和/或语法分析成名词、动词和/或形容词。替换地,可 以利用使文本处理工具能够如本文所述起作用的任何进程实现关联存储器应用程序500。 当利用关联存储器应用程序500时,未结构化和/或部分结构化文本被分成和/或语法分 析成段,并与关联存储器应用程序50。