自适应文档理解.pdf

上传人:00062****4422 文档编号:13630396 上传时间:2023-05-11 格式:PDF 页数:28 大小:1.17MB
返回 下载 相关 举报
自适应文档理解.pdf_第1页
第1页 / 共28页
自适应文档理解.pdf_第2页
第2页 / 共28页
自适应文档理解.pdf_第3页
第3页 / 共28页
点击查看更多>>
资源描述

《自适应文档理解.pdf》由会员分享,可在线阅读,更多相关《自适应文档理解.pdf(28页珍藏版)》请在专利查询网上搜索。

1、(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210942276.6 (22)申请日 2022.08.08 (30)优先权数据 17/411,534 2021.08.25 US (71)申请人 国际商业机器公司 地址 美国纽约阿芒克 (72)发明人 后藤拓矢长谷川彻刘湘宁 小野麻子 (74)专利代理机构 北京市柳沈律师事务所 11105 专利代理师 陈金林 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06N 20/00(2019.01) (54)发明名称 自适应文档理解 。

2、(57)摘要 提供了一种方法、 系统和程序从对应于多个 非结构化页面的多个特征向量在特征空间中创 建多个页面集群的方法。 所述方法、 系统和程序 产品基于所述多个页面集群与对应于所述多个 机器学习模型的多个训练集群之间的所述特征 空间中的关系, 将多个机器学习模型中的一个分 配给所述多个页面集群中的每一个。 该方法、 系 统、 以及程序产品识别多个页面集群中的与多个 非结构化页面中的所选择的一个对应的页面, 并 且使用分配给所识别的页面集群的多个机器学 习模型中的所选择的一个将所选择的非结构化 页面转换成结构化页面。 权利要求书5页 说明书11页 附图11页 CN 115730032 A 20。

3、23.03.03 CN 115730032 A 1.一种计算机实现的方法, 包括: 从对应于多个非结构化页面的多个特征向量在特征空间中创建多个页面集群; 基于所述特征空间中在所述多个页面集群与对应于所述多个机器学习模型的多个训 练集群之间的关系, 将多个机器学习模型之一分配给所述多个页面集群中的每一个; 识别所述多个页面集群中与所述多个非结构化页面中的所选择的一个对应的页面集 群; 以及 使用分配给所识别的页面集群的所述多个机器学习模型中所选择的一个, 将所选择的 非结构化页面转换成结构化页面。 2.根据权利要求1所述的方法, 进一步包括: 将多个非结构化文档划分成所述多个非结构化页面; 选择。

4、所述多个非结构化页面中的一个; 在所选择的非结构化页面中定义字符区域集合和对应的位置集合; 以及 基于字符区域的对应位置集和在其对应字符区域内的内容集, 计算对应于字符区域集 的字符区域特征向量集。 3.根据权利要求2所述的方法, 进一步包括: 基于所述字符区域特征向量集计算所述所选择的非结构化页面的所述多个特征向量 中的所选择的一个; 以及 将所选择的特征向量映射到所述特征空间。 4.根据权利要求3所述的方法, 进一步包括: 对所选择的特征向量执行层级聚类, 其中, 所述层级聚类进一步包括: 识别在特征空间中与所选择的特征向量最接近的对应于所述多个页面集群的多个页 面集群中心中的一个; 以及。

5、 将所选择的特征向量添加到对应于所识别的页面集群中心的多个页面集群中的所识 别的一个。 5.根据权利要求1所述的方法, 进一步包括: 基于所述多个页面集群计算多个页面集群中心; 基于所述多个训练集群计算多个训练集群中心; 选择所述多个页面集群中心中的一个; 识别所述特征空间中最接近所选择的页面集群中心的所述多个训练集群中心中的一 个; 以及 将所述多个机器学习模型中与所识别的训练中心集群对应的一个机器学习模型分配 给与所选择的页面集群中心对应的页面集群。 6.根据权利要求1所述的方法, 进一步包括: 识别对应于所述多个非结构化页面中的不同页面的所述多个页面集群中的不同页面 集群; 以及 使用分。

6、配给所述不同页面集群的所述多个机器学习模型中的不同机器学习模型, 将所 述不同的非结构化页面转换成不同的结构化页面。 7.根据权利要求1所述的方法, 进一步包括: 使用对应于所识别的页面集群的所述多个非结构化文档的一部分来训练所选择的机 权利要求书 1/5 页 2 CN 115730032 A 2 器学习模型; 使用经训练的机器学习模型来执行所述转换; 以及 将经训练的机器学习模型添加到所述多个机器学习模型。 8.根据权利要求1所述的方法, 其中, 所述多个非结构化页面包括多个非结构化页面类 型, 并且其中, 所述多个非结构化页面类型中的每一个被分配所述多个机器学习模型中的 一个, 以执行所述。

7、转换。 9.一种信息处理系统, 包括: 一个或多个处理器; 存储器, 所述存储器耦合到所述处理器中的至少一个; 计算机程序指令集, 所述计算机程序指令集被存储在所述存储器中并且由所述处理器 中的至少一个处理器执行以便执行以下动作: 从对应于多个非结构化页面的多个特征向量在特征空间中创建多个页面集群; 基于所述特征空间中在所述多个页面集群与对应于所述多个机器学习模型的多个训 练集群之间的关系, 将多个机器学习模型之一分配给所述多个页面集群中的每一个; 识别所述多个页面集群中与所述多个非结构化页面中的所选择的一个对应的页面集 群; 以及 使用分配给所识别的页面集群的所述多个机器学习模型中所选择的一。

8、个, 将所选择的 非结构化页面转换成结构化页面。 10.根据权利要求9所述的信息处理系统, 其中所述处理器执行进一步的动作, 包括: 将多个非结构化文档划分成所述多个非结构化页面; 选择所述多个非结构化页面中的一个; 在所选择的非结构化页面中定义字符区域集合和对应的位置集合; 以及 基于字符区域的对应位置集和在其对应字符区域内的内容集, 计算对应于所述字符区 域集的字符区域特征向量集。 11.根据权利要求10所述的信息处理系统, 其中所述处理器执行进一步的动作, 包括: 基于所述字符区域特征向量集计算所述所选择的非结构化页面的所述多个特征向量 中的所选择的一个; 以及 将所选择的特征向量映射到。

9、所述特征空间。 12.根据权利要求11所述的信息处理系统, 其中所述处理器执行进一步的动作, 包括: 对所选择的特征向量执行层级聚类, 其中, 所述层级聚类进一步包括: 识别在特征空间中与所选择的特征向量最接近的对应于所述多个页面集群的多个页 面集群中心中的一个; 以及 将所选择的特征向量添加到对应于所识别的页面集群中心的多个页面集群中的所识 别的一个。 13.根据权利要求9所述的信息处理系统, 其中所述处理器执行进一步的动作, 包括: 基于所述多个页面集群计算多个页面集群中心; 基于所述多个训练集群计算多个训练集群中心; 选择所述多个页面集群中心中的一个; 识别所述特征空间中最接近所选择的页。

10、面集群中心的所述多个训练集群中心中的一 权利要求书 2/5 页 3 CN 115730032 A 3 个; 以及 将所述多个机器学习模型中与所识别的训练中心集群对应的一个机器学习模型分配 给与所选择的页面集群中心对应的页面集群。 14.根据权利要求9所述的信息处理系统, 其中所述处理器执行进一步的动作, 包括: 识别对应于所述多个非结构化页面中的不同页面的所述多个页面集群中的不同页面 集群; 以及 使用分配给所述不同页面集群的所述多个机器学习模型中的不同机器学习模型, 将所 述不同的非结构化页面转换成不同的结构化页面。 15.根据权利要求9所述的信息处理系统, 其中所述处理器执行进一步的动作,。

11、 包括: 使用对应于所识别的页面集群的所述多个非结构化文档的一部分来训练所选择的机 器学习模型; 使用经训练的机器学习模型来执行所述转换; 以及 将经训练的机器学习模型添加到所述多个机器学习模型。 16.根据权利要求9所述的信息处理系统, 其中, 所述多个非结构化页面包括多个非结 构化页面类型, 并且其中, 所述多个非结构化页面类型中的每一个被分配所述多个机器学 习模型中的一个, 以执行所述转换。 17.一种存储在计算机可读存储介质中的计算机程序产品, 包括计算机程序代码, 当由 信息处理系统执行时, 所述计算机程序代码使得所述信息处理系统执行动作, 所述动作包 括: 从对应于多个非结构化页面。

12、的多个特征向量在特征空间中创建多个页面集群; 基于所述特征空间中在所述多个页面集群与对应于所述多个机器学习模型的多个训 练集群之间的关系, 将多个机器学习模型之一分配给所述多个页面集群中的每一个; 识别所述多个页面集群中与所述多个非结构化页面中的所选择的一个对应的页面集 群; 以及 使用分配给所识别的页面集群的所述多个机器学习模型中所选择的一个, 将所选择的 非结构化页面转换成结构化页面。 18.如权利要求17所述的计算机程序产品, 其中所述信息处理系统执行进一步的动作, 包括: 将多个非结构化文档划分成所述多个非结构化页面; 选择所述多个非结构化页面中的一个; 在所选择的非结构化页面中定义字。

13、符区域集合和对应的位置集合; 以及 基于字符区域的对应位置集和在其对应字符区域内的内容集, 计算对应于所述字符区 域集的字符区域特征向量集。 19.如权利要求18所述的计算机程序产品, 其中所述信息处理系统执行进一步的动作, 包括: 基于所述字符区域特征向量集计算所述所选择的非结构化页面的所述多个特征向量 中的所选择的一个; 以及 将所选择的特征向量映射到所述特征空间。 20.如权利要求19所述的计算机程序产品, 其中, 所述信息处理系统执行进一步的动 权利要求书 3/5 页 4 CN 115730032 A 4 作, 包括: 对所选择的特征向量执行层级聚类, 其中, 所述层级聚类进一步包括:。

14、 识别在特征空间中与所选择的特征向量最接近的对应于所述多个页面集群的多个页 面集群中心中的一个; 以及 将所选择的特征向量添加到对应于所识别的页面集群中心的多个页面集群中的所识 别的一个。 21.如权利要求17所述的计算机程序产品, 其中所述信息处理系统执行进一步的动作, 包括: 基于所述多个页面集群计算多个页面集群中心; 基于所述多个训练集群计算多个训练集群中心; 选择所述多个页面集群中心中的一个; 识别所述特征空间中最接近所选择的页面集群中心的所述多个训练集群中心中的一 个; 以及 将所述多个机器学习模型中与所识别的训练中心集群对应的一个机器学习模型分配 给与所选择的页面集群中心对应的页面。

15、集群。 22.如权利要求17所述的计算机程序产品, 其中所述信息处理系统执行进一步的动作, 包括: 识别对应于所述多个非结构化页面中的不同页面的所述多个页面集群中的不同页面 集群; 以及 使用分配给所述不同页面集群的所述多个机器学习模型中的不同机器学习模型, 将所 述不同的非结构化页面转换成不同的结构化页面。 23.如权利要求17所述的计算机程序产品, 其中所述信息处理系统执行进一步的动作, 包括: 使用对应于所识别的页面集群的所述多个非结构化文档的一部分来训练所选择的机 器学习模型; 使用经训练的机器学习模型来执行所述转换; 以及 将经训练的机器学习模型添加到所述多个机器学习模型。 24.如。

16、权利要求17所述的计算机程序产品, 其中, 所述多个非结构化页面包括多个非结 构化页面类型, 并且其中, 所述多个非结构化页面类型中的每一个被分配所述多个机器学 习模型中的一个, 以执行所述转换。 25.一种计算机实现的方法, 包括: 将多个非结构化文档中的每个文档划分为多个非结构化页面; 计算所述多个非结构化页面的多个特征向量; 将所述多个特征向量中的每个特征向量映射到特征空间, 其中, 所述特征空间还包括 对应于用于训练多个机器学习模型的训练数据的多个集合的多个训练集群中心; 根据所述多个特征向量在所述特征空间中创建多个页面集群; 基于所述多个页面集群计算多个页面集群中心; 确定在所述特征。

17、空间中最接近所述多个页面集群中心中的所选择的一个的所述多个 训练集群中心中所选择的一个; 权利要求书 4/5 页 5 CN 115730032 A 5 识别所述多个机器学习模型中与所选择的训练集群中心相对应的一个机器学习模型; 将所识别的机器学习模型分配给所选择的页面集群中心; 选择对应于所述多个非结构化页面中选定的一个的所述多个特征向量中的一个; 在所述特征空间中映射所选择的特征向量; 响应于确定所选择的页面集群中心在所述特征空间中与所选择的特征向量最接近, 使 用所识别的机器学习模型将所选择的非结构化页面转换成结构化页面。 权利要求书 5/5 页 6 CN 115730032 A 6 自适。

18、应文档理解 背景技术 0001 机器学习算法基于样本数据(被称为训练数据)来构建机器学习模型, 以在没有被 明确编程的情况下做出预测或决定。 训练机器学习模型的过程涉及向机器学习算法提供从 其学习的训练数据, 并且从训练过程创建的工件(artifact created)是机器学习模型。 训 练数据包括被称为目标或目标属性的正确答案, 并且机器学习算法在训练数据中找到将输 入数据属性映射到目标属性的模式, 并且输出捕捉该模式的机器学习模型。 0002 结构化数据指驻留在文件或记录内的固定字段中并因此易于分析的数据。 非结构 化数据(或非结构化信息)是不具有预定义数据模型或不以预定义方式组织的信息。

19、。 非结构 化信息通常是文本密集型的, 但可包括诸如日期、 数字等的数据。 此外, 非结构化数据通常 具有不规则性和歧义, 传统程序难以解释该不规则性和歧义。 0003 智能文档理解(SDU)方法通过机器学习将非结构化文档转换成结构化数据。 在SDU 中, 用户在从输入文档提取的训练文档上输入注释, 并且使用文档作为教学图像来训练模 型。 然而, 目前SDU系统所发现的挑战是页格式在页与各种文章之间通常不同。 一些页面可 以是2列格式, 其他页面可以包括图形图像, 而其他页面可以是传统的基于段落的字母。 0004 照此, 使用单个机器学习模型来覆盖不同页面格式是困难的, 并且导致转换准确 度的。

20、降低。 此外, 现有的SDU训练方法具有对于训练机器学习模型(例如, 随机采样)有效的 最小量的训练数据提取。 照此, 可以选择偏向于特定格式的文档, 这也导致机器学习模型的 转换准确度的降低。 发明内容 0005 根据本公开的一个实施例, 提供一种方法, 其中方法、 系统和程序从对应于多个非 结构化页面的多重特征向量在特征空间中创建多个集群。 该方法、 系统和程序产品基于多 重页面集群和与多重机器学习模型对应的多个训练集群之间的特征空间中的关系, 向多重 集群中的每一个分配多重机器学习模型中的一个。 该方法、 系统、 以及程序产品识别多个页 面集群中与多个非结构化页面中的所选择的一个对应的页。

21、面, 并且使用分配给所识别的页 面集群的多个机器学习模型中的所选择的一个将所选择的非结构化页面转换成结构化页 面。 在该实施方式中, 该方法、 系统、 以及程序产品通过从多个机器学习模型中自适应地选 择最佳拟合机器学习模型以将非结构化数据转换成结构化数据来提高数据转换的准确性。 0006 根据本公开的另一实施例, 提供了一种方法、 系统和程序产品将非结构化文档分 成多个非结构化页面。 该方法、 系统和程序产品选择多个非结构化页面中的一个, 并在所选 择的非结构化页面中定义一组字符区域和对应的一组位置。 该方法、 系统、 以及程序产品基 于字符区域的对应位置组和在其对应字符区域内的内容组, 计算。

22、与该组字符区域对应的字 符区域特征向量集。 在该实施方式中, 该方法、 系统、 以及程序产品基于内容类型和在页面 内的定位, 计算每个非结构化页面的多个微调特征向量。 0007 根据本公开的另一实施方式, 提供了一种方法、 系统和程序产品基于字符区域特 征向量集计算所选择的非结构化页面的多个特征向量中所选择的一个, 并将所选择的特征 说明书 1/11 页 7 CN 115730032 A 7 向量映射到特征空间。 在该实施方式中, 方法、 系统和程序产品将特定非结构化页面的多个 特征向量组合为最佳描述非结构化页面中的内容类型和内容定位的微调的单个页面特征 向量。 0008 根据本公开的另一实施。

23、例, 提供了一种方法, 其中方法、 系统和程序产品对所选择 的特征向量执行层级聚类。 该方法、 系统、 以及程序产品识别对应于特征空间中与所选择的 特征向量最接近的多个页面集群的多个页面集群中心中的一个。 方法、 系统和程序产品将 选择的特征向量添加到对应于识别的页面集群中心的多个页面集群中的识别的一个。 在该 实施方式中, 方法、 系统、 以及程序产品基于最终分配给多个机器学习模型中的特定的一个 的可比较特征, 将页面特征向量分组成集群。 0009 根据本公开的另一实施方式, 提供了一种方法、 系统和程序产品基于多个页面集 群计算多个页面集群中心的方法。 该方法、 系统以及程序产品基于多个训。

24、练集群来计算多 个训练集群中心。 该方法、 系统以及程序产品选择多个页面集群中心中的一个。 该方法、 系 统以及程序产品识别特征空间中与所选择的页面集群中心最近的多个训练集群中心中的 一个。 所述方法、 系统和程序产品将所述多个机器学习模型中与所识别的训练中心集群对 应的一个机器学习模型分配给与所选择的页面集群中心对应的页面集群。 在该实施方式 中, 方法、 系统、 以及程序产品适应性地将每个机器学习模型分配给特定的页面集群中心, 以便每个页面集群使用其自身的机器学习模型来将非结构化数据转换成结构化数据。 0010 根据本公开的另一实施例, 提供了一种方法、 系统和程序产品识别多个页面集群 中。

25、与多个非结构化页面中的不同页面对应的不同页面。 该方法、 系统和程序产品使用分配 给不同页面集群的多个机器学习模型中的不同机器学习模型将不同非结构化页面转换成 不同的结构化页面。 在该实施方式中, 当不同的非结构化页面具有与先前转换的非结构化 页面不同的特征时, 方法、 系统、 以及程序产品使用不同的机器学习模型将不同的非结构化 页面转换成结构化页面。 0011 根据本公开的另一实施例, 提供了一种方法, 其中方法、 系统和程序产品使用对应 于识别的页面集群的多个非结构化文档的一部分来训练选择的机器学习模型。 所述方法、 系统和程序产品使用经训练的机器学习模型来执行所述转换, 并且将所述经训练。

26、的机器学 习模型添加到所述多个机器学习模型。 在该实施例中, 方法、 系统和程序产品进一步在非结 构化页面的一部分上训练每个机器学习模型, 以更好地细化每个机器学习模型的转换能 力。 0012 根据本公开的另一实施例, 提供了一种方法, 其中多个非结构化页面包括多个非 结构化页面类型, 并且其中多个非结构化页面类型中的每一个被分配多个机器学习模型中 的一个以执行转换。 在该实施方式中, 方法、 系统、 以及程序产品分配特定的机器学习模型, 以基于非结构化页面的类型将每个特定的非结构化页面转换成结构化页面。 0013 前述内容是概述, 并且因此必然包含细节的简化、 概括和省略; 因此, 本领域的。

27、技 术人员将认识到该概述仅是说明性的并且不旨在以任何方式进行限制。 仅由权利要求限定 的本公开的其他方面、 创造性特征、 和优点将在以下阐述的非限制性详细说明中变得清楚。 附图说明 0014 通过参考附图, 本公开可以被更好地理解, 并且其多个目的、 特征和优点对于本领 说明书 2/11 页 8 CN 115730032 A 8 域技术人员变得显而易见, 其中: 0015 图1是可以实现在此描述的方法的数据处理系统的框图; 0016 图2提供了图1中所示的信息处理系统环境的扩展, 以示出本文所述的方法可在在 联网环境中操作的多种多样的信息处理系统上执行; 0017 图3是描绘训练机器学习模型并。

28、且利用经训练的机器学习模型来进行结构提取的 自适应文档理解系统的示图; 0018 图4是描绘使用非结构化文档来训练模型335的自适应文档理解系统300的示图; 0019 图5是描述自适应文档理解系统300的示图, 该系统为每个非结构化页面确定合适 的机器学习模型并且使用其选择的机器学习模型将每个非结构化页面转换成结构化页面; 0020 图6是示出使用文档400来训练模型335所采取的步骤的示范性流程图; 0021 图7是示出了层级聚类中所采取的步骤的示范性流程图; 0022 图8是示出将模型335用于非结构化页面420的特定模型推断所采取的步骤的示范 性流程图; 0023 图9是示出自适应文档。

29、理解系统300将页面分割成字符区域, 创建字符区域的字符 区域特征向量, 以及从字符区域特征向量创建页面特征向量的示图; 0024 图10是描绘在模型训练阶段期间将文档页面映射至特征空间的自适应文档理解 系统300的示图; 以及 0025 图11是示出自适应文档理解系统300的示图, 该系统将页面特征向量映射至特征 空间并且基于与集群中心的距离测量选择机器学习以应用于页面。 具体实施方式 0026 本文使用的术语用于描述特定实施例的目的, 仅并不旨在限制本公开。 如本文中 使用的, 单数形式 “一” 、“一个” 和 “该” 旨在也包括复数形式, 除非上下文另有明确指示。 还 应当理解, 当在本。

30、说明书中使用术语 “包括(comprises)” 和/或 “包含(comprising)” 时, 其 指定所述特征、 整体、 步骤、 操作、 元件和/或部件的存在, 但不排除一个或多个其他特征、 整 体、 步骤、 操作、 元件、 部件和/或其组合的存在或添加。 0027 以下权利要求中的所有装置或步骤多功能元件的相应结构、 材料、 动作和等同物 旨在包括用于与如特别要求保护的其他要求保护的元件组合执行功能的任何结构、 材料或 动作。 已经出于说明和描述的目的呈现了本公开的描述, 但并不旨在是详尽的或限于公开 形式的本公开。 在不背离本公开的范围和精神的情况下, 许多修改和变化对于本领域普通 技。

31、术人员来说是显而易见的。 选择和描述实施例以便最好地解释本公开的原理和实际应 用, 并且使本领域的其他普通技术人员能够针对具有适于预期的具体用途的各种修改的各 种实施例来理解本公开。 0028 本发明可以是任何可能的技术细节集成度的系统、 方法和/或计算机程序产品。 计 算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令 的计算机可读存储介质(或多个介质)。 0029 计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。 计算机可读存储介质可以是, 例如但不限于, 电子存储设备、 磁存储设备、 光存储设备、 电磁 存储设备、 半导体存储设备、 或者上。

32、述的任意合适的组合。 计算机可读存储介质的更具体示 说明书 3/11 页 9 CN 115730032 A 9 例的非穷尽列表包括以下各项: 便携式计算机盘、 硬盘、 随机存取存储器(RAM)、 只读存储器 (ROM)、 可擦式可编程只读存储器(EPROM或闪存)、 静态随机存取存储器(SRAM)、 便携式紧凑 盘只读存储器(CDROM)、 数字通用盘(DvD)、 记忆棒、 软盘、 诸如穿孔卡之类的机械编码设备 或具有记录在其上的指令的槽中的凸出结构、 以及上述各项的任何合适的组合。 如本文所 使用的计算机可读存储媒体不应被解释为暂时性信号本身, 例如无线电波或其他自由传播 的电磁波、 通过波。

33、导或其他传输媒体传播的电磁波(例如, 穿过光纤电缆的光脉冲)或通过 电线发射的电信号。 0030 本文中所描述的计算机可读程序指令可以经由网络(例如, 互联网、 局域网、 广域 网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备, 或者下载到外部 计算机或外部存储设备。 网络可以包括铜传输电缆、 光传输纤维、 无线传输、 路由器、 防火 墙、 交换机、 网关计算机和/或边缘服务器。 每个计算/处理设备中的网络适配器卡或网络接 口接收来自网络的计算机可读程序指令, 并转发计算机可读程序指令以存储在相应计算/ 处理设备内的计算机可读存储介质中。 0031 用于执行本发明操作的计算机可。

34、读程序指令可以是汇编指令、 指令集架构(iSA) 指令、 机器指令、 机器相关指令、 微代码、 固件指令、 状态设置数据、 集成电路的配置数据、 或 以一种或多种程序设计语言的任何组合编写的源代码或目标代码, 所述程序设计语言包括 面向对象的程序设计语言(诸如Smalltalk、 C+等)和过程程序设计语言(诸如 “C” 程序设计 语言或类似程序设计语言)。 计算机可读程序指令可以完全地在用户计算机上执行、 部分在 用户计算机上执行、 作为独立软件包执行、 部分在用户计算机上部分在远程计算机上执行 或者完全在远程计算机或服务器上执行。 在后一种情况下, 远程计算机可通过任何类型的 网络(包括局。

35、域网(LAN)或广域网(WAN)连接至用户计算机, 或者可连接至外部计算机(例 如, 使用互联网服务提供商通过互联网)。 在一些实施例中, 包括例如可编程逻辑电路、 现场 可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指 令的状态信息来使电子电路个性化来执行计算机可读程序指令, 以便执行本发明的各方 面。 0032 下面将参照根据本发明实施例的方法、 装置(系统)和计算机程序产品的流程图 和/或框图描述本发明。 应当理解, 流程图和/或框图的每个方框以及流程图和/或框图中各 方框的组合, 都可以由计算机可读程序指令实现。 0033 这些计算机可读程序指令。

36、可被提供给计算机或其他可编程数据处理装置的处理 器以产生机器, 使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于 实现在流程图和/或框图的或多个框中指定的功能/动作的装置。 也可以把这些计算机可读 程序指令存储在计算机可读存储介质中, 这些指令使得计算机、 可编程数据处理装置、 和/ 或其他设备以特定方式工作, 从而, 其中存储有指令的计算机可读存储介质包括包含实现 流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。 0034 也可以把计算机可读程序指令加载到计算机、 其他可编程数据处理装置、 或其他 设备上, 使得在计算机、 其他可编程装置或其他设备上执行。

37、一系列操作步骤, 以产生计算机 实现的处理, 使得在计算机、 其他可编程装置或其他设备上执行的指令实现流程图和/或框 图中的或多个方框中规定的功能/动作。 0035 附图中的流程图和框图示出了根据本发明的不同实施例的系统、 方法和计算机程 说明书 4/11 页 10 CN 115730032 A 10 序产品的可能实现方式的架构、 功能和操作。 对此, 流程图或框图中的每个框可表示指令的 模块、 段或部分, 其包括用于实现指定的逻辑功能的一个或多个可执行指令。 在一些备选实 现中, 框中标注的功能可以不按照图中标注的顺序发生。 例如, 连续示出的两个方框实际上 可以作为一个步骤完成, 同时、 。

38、基本上同时、 以部分或完全时间上重叠的方式执行, 或者方 框有时可以以相反的顺序执行, 这取决于所涉及的功能。 也要注意的是, 框图和/或流程图 中的每个方框、 以及框图和/或流程图中的方框的组合, 可以用执行规定的功能或动作或执 行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。 0036 图1示出信息处理系统100, 其为能够执行本文描述的计算操作的计算机系统的简 化示例。 信息处理系统100包括耦合到处理器接口总线112的一个或多个处理器110。 处理器 接口总线112将处理器110连接到北桥115, 北桥115也被称为存储器控制器集线器(MCH)。 北 桥115连接到系统存储器。

39、120并且为处理器110提供访问系统存储器的装置。 图形控制器125 也连接到北桥115。 在一个实施例中, 外围组件互连(PCI)快速总线118将北桥115连接到图 形控制器125。 图形控制器125连接到显示设备130, 诸如计算机监视器。 0037 北桥115和南桥135使用总线119彼此连接。 在一些实施例中, 总线是在北桥115与 南桥135之间的每个方向上以高速传输数据的直接媒体接口(DMI)总线。 在一些实施例中, PCi总线连接北桥和南桥。 南桥135, 也称为输入/输出(I/O)控制器中枢(ICH), 是通常实现 以比北桥提供的能力更慢的速度操作的能力的芯片。 南桥135通常。

40、提供用于连接不同组件 的不同总线。 这些总线包括例如PCI和PCI Express总线、 ISA总线、 系统管理总线(SMBus或 SMB)和/或低引脚数(LPC)总线。 LPC总线通常连接低带宽设备, 诸如引导ROM 196和 “传统” I/O设备(使用 “超级I/O” 芯片)。“传统” I/O设备(198)可以包括例如串行和并行端口、 键盘、 鼠标和/或软盘控制器。 南桥135中经常包括的其他组件包括直接存储器访问(DMA)控制器、 可编程中断控制器(PIC)和使用总线184将南桥135连接到非易失性存储设备185(如硬盘驱 动器)的存储设备控制器。 0038 快插卡(ExpressCar。

41、d)155是将热插拔设备连接到信息处理系统的插槽。 ExpressCard 155支持PCI Express(快速总线)和通用串行总线(USB)连接性两者, 因为其 使用USB和PCI Express总线两者连接到南桥135。 南桥135包括USB控制器140, 其向连接到 USB的设备提供USB连通性。 这些设备包括网络摄像头(相机)150、 红外(IR)接收器148、 键盘 和触控板144以及提供无线个域网(PAN)的蓝牙设备146。 USB控制器140还提供与其他各种 USB连接设备142的USB连接, 所述其他各种USB连接设备诸如鼠标、 可移动非易失性存储设 备145、 调制解调器、。

42、 网卡、 集成服务数字网络(ISDN)连接器、 传真机、 打印机、 USB集线器和 许多其他类型的USB连接设备。 尽管可移除非易失性存储设备145被示出为USB连接的设备, 但是可移除非易失性存储设备145可以使用不同的接口(诸如火线接口等)来连接。 0039 无线局域网(LAN)设备175经由PCI或PCI Express总线172连接到南桥135。 LAN设 备175通常实现电气和电子工程师协会(IEEE802.11)标准的空中调制技术之一, 其全部使 用相同的协议来在信息处理系统100和另一计算机系统或设备之间进行无线通信。 光存储 设备190使用串行模拟电话适配器(ATA)(SATA。

43、)总线188连接到南桥135。 串行ATA适配器和 装置通过高速串行链路通信。 串行ATA总线还将南桥135连接至其他形式的存储设备, 诸如 硬盘驱动器。 音频电路160(例如声卡)经由总线158连接到南桥135。 音频电路160还提供与 音频硬件相关联的功能, 例如音频线路输入和光学数字音频输入端口162、 光学数字输出和 说明书 5/11 页 11 CN 115730032 A 11 耳机折叠器164、 内部扬声器166和内部麦克风168。 以太网控制器170使用总线(例如PCI或 PCI Express总线)连接到南桥135。 以太网控制器170将信息处理系统100连接到计算机网 络, 。

44、例如局域网(LAN)、 互联网和其他公共和专用计算机网络。 0040 虽然图1示出了一个信息处理系统, 但是信息处理系统可以采取许多形式。 例如, 信息处理系统可以采取台式机、 服务器、 便携式、 膝上型、 笔记本或其他形状因数计算机或 数据处理系统的形式。 此外, 信息处理系统可以采取其他形式的因素, 诸如个人数字助理 (PDA)、 游戏设备、 自动柜员机(ATM)、 便携式电话设备、 通信设备或包括处理器和存储器的 其他设备。 0041 图2提供了图1所示的信息处理系统环境的扩展, 以示出本文所述的方法可在在联 网环境中操作的多种多样的信息处理系统上执行。 信息处理系统的类型范围从诸如手持。

45、式 计算机/移动电话210之类的小型手持式设备到诸如大型计算机270之类的大型机系统。 手 持式计算机210的实例包含个人数字助理(PDA)、 个人娱乐装置, 例如移动图像专家组层3音 频(MP3)播放器、 便携式电视和光盘播放器。 信息处理系统的其他实例包括笔或平板电脑计 算机220、 膝上型或笔记本计算机230、 工作站240、 个人计算机系统250和服务器260。 未在图 2中单独示出的其他类型的信息处理系统由信息处理系统280表示。 如图所示, 不同信息处 理系统可以使用计算机网络200联网在一起。 可以用于互连不同信息处理系统的计算机网 络类型包括局域网(LAN)、 无线局域网(WL。

46、AN)、 互联网、 公共交换电话网(PSTN)、 其他无线网 络和可以用于互连信息处理系统的任何其他网络拓扑。 许多信息处理系统包括非易失性数 据存储, 诸如硬盘驱动器和/或非易失性存储器。 图2中所示的信息处理系统的实施例包括 单独的非易失性数据存储器(更具体地, 服务器260利用非易失性数据存储器265, 大型计算 机270利用非易失性数据存储器275, 以及信息处理系统280利用非易失性数据存储器285)。 非易失性数据存储器可以是在不同信息处理系统外部的组件, 或可以在信息处理系统之一 内部的组件。 此外, 可以使用不同技术在两个或更多个信息处理系统之间共享可移动非易 失性存储设备14。

47、5, 诸如将可移动非易失性存储设备145连接到信息处理系统的USB端口或 其他连接器。 0042 如上所述, 非结构化数据以许多不同的格式出现, 但是现有的智能文档理解(SDU) 方法具有用于训练的各种训练数据提取方法。 照此, 文档可被选择, 该选择偏向非最优格 式, 从而导致转换准确度的降低。 图3至11描绘了可在信息处理系统上执行的方法, 该信息 处理系统通过自适应地训练多个机器学习模型并选择最佳拟合机器学习模型来将非结构 化数据转换成结构化数据来增强转换准确度。 该方法基于字符区域将文档自动转换成特征 数据(特征向量); 基于格式对特征空间中的特征向量进行聚类; 并且基于聚类训练专用于。

48、 它们各自的格式的多个机器学习模型。 0043 然后, 一旦机器学习模型被训练, 该方法基于映射到特征空间中的页面的特征向 量自适应地选择最佳拟合机器学习模型以将非结构化数据的特定页面转换成结构化数据。 在一个实施例中, 使用图像之间的相似度或句子中的词之间的相似度来执行聚类。 在另一 个实施例中, 通过使用特征值进行格式提取, 从聚类中创建更重要的分割模型。 在本实施例 中, 特征值与后续格式提取共用, 因此缩短了时间, 节省了资源, 提供了与应用的高亲和性。 0044 图3是描绘自适应文档理解系统的示图, 该自适应文档理解系统训练多个机器学 习模型并且利用经训练的机器学习模型来智能地将非结。

49、构化数据转换成结构化数据。 自适 说明书 6/11 页 12 CN 115730032 A 12 应文档理解(ADU)系统300包括两个阶段, 即模型训练阶段310和模型推断阶段320。 如本文 所讨论的, 模型训练阶段310独立地训练模型335, 模型335包括模型A 340、 模型B 350、 模型 C 360和模型n 370。 然后, 模型推断阶段320使用模型335将文档存储器330中的非结构化数 据转换成结构化数据。 0045 文档存储器330包括各种非结构化文档类型, 诸如2列格式文章、 具有图形图像的 金融文章、 和基于传统段落的文字。 模型训练阶段310将来自文档存储器330的。

50、文档分成页 面, 然后从每个页面(文本、 图像等的部分)提取字符。 模型训练阶段310将每个页面转换成 指示基于与所提取的页面的字符的大小和位置有关的信息的格式的特征数据(向量), 并且 将特征信息存储在特征空间380中。 然后, 模型训练阶段310经由层级集群基于特征数据将 页面分成集群, 并且确定每个页面集群的重心, 在本文中称为页面集群中心或页面集群中 心向量(关于进一步细节, 见图4、 图6、 图7、 图10以及对应的文本)。 0046 接下来, 模型训练阶段310在特征空间中将页面集群中心与训练集群中心进行比 较。 训练集群中心对应于被利用来最初训练机器学习模型335的训练集群。 然。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1