基于篇章级事件抽取的RPA流程挖掘方法及系统.pdf

资源描述

《基于篇章级事件抽取的RPA流程挖掘方法及系统.pdf》由会员分享，可在线阅读，更多相关《基于篇章级事件抽取的RPA流程挖掘方法及系统.pdf（15页珍藏版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410003983.8(22)申请日 2024.01.03(71)申请人安徽思高智能科技有限公司地址 230088 安徽省合肥市高新区望江西路900号中安创谷科技园A1栋408(72)发明人裴学良陆振亚孙晨晨吴共庆吴信东(74)专利代理机构武汉知产时代知识产权代理有限公司 42238专利代理师徐欢(51)Int.Cl.G06F 40/295(2020.01)G06F 40/126(2020.01)G06F 16/35(2019.01)(54)发明名称一种基于篇章级事件抽取的RPA流程。

2、挖掘方法及系统(57)摘要本发明公开了一种基于篇章级事件抽取的RPA流程挖掘方法及系统，涉及业务流程挖掘领域，包括：获取用户行为日志信息并进行预处理；对预处理后的文档进行命名实体识别；生成句子向量和提及向量；构建结构图且使用图神经网络计算节点全局信息；进行触发词分类和论元抽取；使用Alpha算法对提取粗的事件信息进行分析，输出RPA流程挖掘模型。篇章级事件抽取使得模型可以在更大的范围内计算多个句子中可能包含的事件上下文信息。使得模型可以通过事件间联系进一步提升事件提取的效果。同时Transformer模块的引入，使得模型可以获得相对于长短时记忆模块更为优秀的上下文信息，且基于BERT的编码器更。

3、是大幅降低了所需训练参数数量，减少了模型计算开销。权利要求书4页说明书8页附图2页CN 117521658 A2024.02.06CN 117521658 A1.一种基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，该方法包括：S1：获取用户行为日志信息并进行预处理；S2：对预处理后的文档进行命名实体识别；S3：构建篇章级文本结构图，该篇章级文本结构图包含文档中的节点，对每一个节点进行初始化，将节点分为提及节点和句子节点，生成提及节点的向量信息和句子节点的向量信息；S4：篇章级文本结构图建立后，根据句子节点的向量信息，使用多个图卷积层计算句子节点的嵌入向量；S5：根据句子节点的嵌入向量，。

4、得到句子嵌入矩阵，进行触发词分类和事件参数提取；S6：使用Alpha算法对提取出的事件信息进行分析，识别多场景下流程内隐含的结构和联系，输出RPA流程挖掘模型。2.根据权利要求1所述的基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，步骤S1中，通过用户行为记录工具来记录用户执行业务流程中进行的操作，从而生成用户行为日志；预处理的过程为：将用户行为日志处理过程作为事件抽取任务，使用BERT对输入的中文文本序列进行编码，使用编码层将单词转为对应向量表示，在编码过程中将文档按句进行拆分，并对输入的句子按字依次编码得到对应的编码序列；对于所有的句子集合，表示第i个句子，表示所有句子的数量，句子，表。

5、示第j个单词，|Si|表示第i个句子中的单词数，i,j均为正整数，通过公式（1）将句子转换为句子向量：其中，表示句子对应的句子向量，表示第j个单词对应的向量，表示第j个单词属于第i个句子，()表示模型，用于将句子转换为句子向量；经过BERT编码后，句子向量中每个字符对应的编码信息均会包含对应的位置编码信息。3.根据权利要求2所述的基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，步骤S2中，命名实体识别采用的是CRF方法，将序列中的每个字符进行分类，输出结果为其所对应的BIO编码；在事件抽取任务中需要提取的事件共有五类，每一类均有不同的参数域，设定每个参数的Begin标签和Inside标签；。

6、将特定事件的某参数域名称记做A，则对应的标签为BA和IA；对于每一个提及，会获得一个嵌入编码，每个提及的嵌入编码由该提及所覆盖的所有的字符编码的平均值得出，即对于每一个提及m，其嵌入编码为：其中，表示提及m的嵌入编码，()表示平均值函数，表示提及m对应的权利要求书1/4 页2CN 117521658 A2句子向量，表示第j个单词属于提及m。4.根据权利要求3所述的基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，步骤S3中，构建篇章级文本结构图的过程为：提取提及和句子相互相关信息的各个边，篇章级文本结构图的边根据其所连接的节点可以被分为四类：句子句子边、句子提及边、内部提及提及边和外部提及提。

7、及边；句子句子边：所有的句子之间均使用句子句子边相互连接，这些边用于捕捉句子间在文档全局的相关信息；句子提及边：对于某一句所包含的各个提及均会使用句子提及边与该句子相互连接，用于捕捉句子内部的部分上下文信息；内部提及提及边：对于某一句子内部所包含的各个提及之间将会相互连接；外部提及提及边：对于指向相同实体的所有提及均会相互连接；提及节点的向量信息为每一个提及的嵌入编码，句子节点的向量信息为其所覆盖的所有字符的嵌入值的最大池化值再加上对应的位置嵌入，即：其中，表示句子节点的向量信息，()表示最大池化，()表示位置嵌入。5.根据权利要求4所述的基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，步。

8、骤S4中，使用多个图卷积层用于计算各个句子节点的嵌入向量，对于每一个句子节点均会输出一个嵌入向量，其中i为正整数，为句子节点的编号，该句子节点的嵌入向量计算如下：其中，表示句子节点的嵌入向量，表示一个可训练的矩阵，L为图卷积层的数量，为当前句子节点的初始嵌入信息，表示经过第1层图卷积得到的句子节点的嵌入信息，表示经过第L层图卷积得到的句子节点的嵌入信息。6.根据权利要求5所述的基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，步骤S5中，利用句子节点的嵌入向量计算得到各个句子嵌入矩阵和各个实体嵌入矩阵，句子嵌入矩阵的计算公式如下所示：其中，表示句子嵌入矩阵，|D|表示所有句子的数量，表示第1。

9、个句子表示的转置，表示第2个句子表示的转置，表示第|D|个句子表示的转置；实体嵌入矩阵为其各个提及嵌入信息的平均，采用字符串匹配的方式搜索该实体的所有提及，得到实体嵌入矩阵，表示所有实体的数量，实体嵌入的权利要求书2/4 页3CN 117521658 A3计算公式如下所示：(6)其中，表示均值操作，表示第 b 个实体的嵌入向量，表示含有第a个实体的句子节点，a、b均为正整数，a=1,2,.,；通过实体嵌入矩阵，对句子节点和实体以上下文感知的方式进行交互表示；利用产生的句子嵌入矩阵，基于一个多头注意力机制进行触发词分类，对文档进行多标签分类操作，即：其中，表示多头注。

10、意力机制，表示激活函数，A表示注意力矩阵，表示注意力矩阵的转置，Sent表示句子嵌入矩阵，第一个Sent用作注意力机制中的键向量，第二个Sent用作注意力机制中的值向量；和为可训练参数，表示事件类型。7.根据权利要求6所述的基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，步骤S5中，事件参数提取的过程为：将事件参数提取任务作为一个路径搜索任务，根据事件类型确定需要搜索的参数域，路径搜索按照参数域顺序进行，从一个虚拟的根节点开始，每次搜索均为一个路径扩展的子任务，当匹配到下一个句子节点时将会自动在全局记忆中记录当前搜索路径，若当前未搜索到句子节点时则添加一个NA节点，代表当前候选参数域可能。

11、不存在；路径扩展的子任务被建模为一组二分类问题，同时利用当前路径的状态、历史上下文信息和当前事件类型，使用一个线性分类器用于路径扩展分类；最终生成一个由各个实体路径所构成的搜索树，每一个叶子节点均对应了一个独立的事件记录；采用Tracker模块用于持续记录所有被提取的事件信息并将其存储于全局记忆信息G中，在路径扩展的过程中搜索全局记忆信息G，用于寻找当前事件和曾完成搜索的事件的相关性；在Tracker模块中，每一个代表特定事件的实体序列均会被一个长短时记忆网络编码为一个向量并添加对应事件类型的嵌入信息，然后加入到全局记忆中，其中，表示特定事件的第1个实体，表示特定事件的第2个实体；在抽取过程中。

12、，给定一条包含前J1个参数的路径，j为大于1的正整数，对于第J个参数，将有=E+，其中，表示增加了角色信息的实体嵌入矩阵，E表示实体嵌入矩阵，为第J位置的参数类型嵌入；然后将、句子嵌入矩阵Sent、当前搜索路径和全局记忆信息G进行拼接并输入到Transformer中，得到一个新的针对当前实体的特征信息，对于路径扩展中所涉及到的二分类问题则会基于该特征信息进行分类。8.根据权利要求7所述的基于篇章级事件抽取的RPA流程挖掘方法，其特征在于，步骤S6中，事件信息提取完毕后，采用Alpha算法对事件日志进行分析，识别多场景下流程内隐含的结构和联系；Alpha算法以事件日志为输入，抽象出事件日志中发生。

13、活动之间的紧邻、权利要求书3/4 页4CN 117521658 A4因果、并行、无关四种基本关系；根据基本关系的类型，生成对应足迹矩阵，然后根据预先设计的关系图建立输出流程模型，最终将事件日志转化为相应的流程模型。9.一种存储设备，其特征在于：所述存储设备存储指令及数据用于实现权利要求18任一项所述的基于篇章级事件抽取的RPA流程挖掘方法。10.一种基于篇章级事件抽取的RPA流程挖掘系统，其特征在于，包括：处理器及存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现权利要求18任一项所述的基于篇章级事件抽取的RPA流程挖掘方法。权利要求书4/4 页5CN 117521658 A5一。

14、种基于篇章级事件抽取的RPA流程挖掘方法及系统技术领域0001本发明涉及业务流程挖掘领域，尤其涉及一种基于篇章级事件抽取的RPA流程挖掘方法及系统。背景技术0002流程挖掘是一种通过提取事件日志中的有效数据并加以分析，从而优化业务流程的技术。在实际应用中，通过流程挖掘技术，企业可以持续监测大量重复流程，从中发现漏洞和缺陷并加以改善，从而提高企业运行中的工作效率。0003由流程发现算法挖掘事件日志得到的是流程模型，挖掘结果和流程发现算法的性能和事件日志的质量均有关联。0004篇章级事件抽取是同时处理一篇文档内的多个句子以获取事件信息，用于处理从文本文档中识别和提取事件及其属性，这些信息可用于理解。

15、真实世界的事件。篇章级事件抽取的过程通常包括几个步骤，包括文本预处理、事件检测、事件分类和事件属性抽取。0005目前，传统流程挖掘过程中数据采集模块大多为手工输入日志信息，后期再结合人工来构建流程文档，针对大量重复性任务构建日志耗时耗力。传统方法需要手工设计切分规则，生成事件日志。因此事件日志的质量常常取决于人工切分规则的质量。然而，在一个流程中，用户执行多次不同的行为，每一次行为可以看做是一个事件，同一个流程中的行为之间还存在关联性。因此流程挖掘过程中不仅需要根据单条用户行为日志来描述用户行为，还要考虑到上下文知识。为了避免相关数据信息的丢失并构造更加完善的流程模型，有必要利用篇章级事件抽取。

16、对流程发现过程进行事件发现。因此如何将篇章级事件抽取技术结合到流程挖掘领域值得深入探索。发明内容0006为了解决上述问题，本发明提供了一种基于篇章级事件抽取的RPA流程挖掘方法及系统，适用于从用户行为日志信息整合的文档信息中进行事件抽取，通过上下文信息对多个句子中包含的事件信息进行挖掘，用于提升流程发现过程中事件抽取的精度。0007一种基于篇章级事件抽取的RPA流程挖掘方法，包括：S1：获取用户行为日志信息并进行预处理；S2：对预处理后的文档进行命名实体识别；S3：构建篇章级文本结构图，该篇章级文本结构图包含文档中的节点，对篇章级文本结构图中每一个节点进行初始化，将节点分为提及节点和句子节点，。

17、生成提及节点的向量信息和句子节点的向量信息；S4：篇章级文本结构图建立后，根据句子节点的向量信息，使用多个图卷积层计算句子节点的嵌入向量；S5：根据句子节点的嵌入向量，得到句子嵌入矩阵，进行触发词分类和事件参数提取；说明书1/8 页6CN 117521658 A6S6：使用Alpha算法对提取出的事件信息进行分析，识别多场景下流程内隐含的结构和联系，输出RPA流程挖掘模型。0008进一步地，步骤S1中，通过用户行为记录工具来记录用户执行业务流程中进行的操作，从而生成用户行为日志；预处理的过程为：将用户行为日志处理过程作为事件抽取任务，使用BERT对输入的中文文本序列进行编码，使用编码层将单词转。

18、为对应向量表示，在编码过程中将文档按句进行拆分，并对输入的句子按字依次编码得到对应的编码序列；对于所有的句子集合，表示第i个句子，表示所有句子的数量，句子，表示第j个单词，|Si|表示第i个句子中的单词数，i,j均为正整数，通过公式（1）将句子转换句子向量：00090010其中，表示第i个句子对应的句子向量，表示第j个单词对应的向量，表示第j个单词属于第i个句子，()表示模型，用于将句子转换为句子向量；0011经过BERT编码后，句子向量中每个字符对应的编码信息均会包含对应的位置编码信息。0012进一步地，步骤S2中，命名实体识别采用的是CRF方法，将序列中的每个字符进行分类，输出结果为其所对。

19、应的BIO编码；在事件抽取任务中需要提取的事件共有五类，每一类均有不同的参数域，设定每个参数的Begin标签和Inside标签；将特定事件的某参数域名称记做A，则对应的标签为BA和IA；对于每一个提及，其同样会获得一个编码信息，每个提及的嵌入编码由该提及所覆盖的所有的字符编码的平均值得出，即对于每一个提及m，其嵌入编码为：0013其中，表示提及m的嵌入编码，()表示平均值函数，表示提及m对应的句子向量，表示第j个单词属于提及m。0014进一步地，步骤S3中，构建篇章级文本结构图的过程为：提取提及和句子相互相关信息的各个边，篇章级文本结构图的边根据其所连接的节点可以被分为四类：句子句子边、句子提。

20、及边、内部提及提及边和外部提及提及边；句子句子边：所有的句子之间均使用句子句子边相互连接，这些边用于捕捉句子间在文档全局的相关信息；句子提及边：对于某一句所包含的各个提及均会使用句子提及边与该句子相互连接，用于捕捉句子内部的部分上下文信息；内部提及提及边：对于某一句子内部所包含的各个提及之间将会相互连接；外部提及提及边：对于指向相同实体的所有提及均会相互连接；提及节点的向量信息为每一个提及的嵌入编码，句子节点的向量信息为其所覆盖的所有字符的嵌入值的最说明书2/8 页7CN 117521658 A7大池化值再加上对应的位置嵌入，即：0015其中，表示句子节点的向量信息，()表示最大池化，()表示。

21、位置嵌入。0016进一步地，步骤S4中，使用多个图卷积层用于计算各个句子节点的嵌入向量，对于每一个句子节点均会输出一个嵌入向量，其中i为句子节点的编号，该句子节点的嵌入向量计算如下：00170018其中，表示句子节点的嵌入向量，表示一个可训练的矩阵，L为图卷积层的数量，为当前句子节点的初始嵌入信息，表示经过第1层图卷积得到的句子节点的嵌入信息，表示经过第L层图卷积得到的句子节点的嵌入信息。0019进一步地，步骤S5中，利用句子节点的嵌入向量计算得到各个句子嵌入矩阵和各个实体嵌入矩阵，句子嵌入矩阵的计算公式如下所示：0020其中，表示句子嵌入矩阵，|D|表示所有句子的数量，表示第1个句子表示的转。

22、置，表示第2个句子表示的转置，表示第|D|个句子表示的转置；0021实体嵌入矩阵为其各个提及嵌入信息的平均，采用字符串匹配的方式搜索该实体的所有提及，得到实体嵌入矩阵，表示所有实体的数量，实体嵌入的计算公式如下所示：0022(6)0023其中，表示均值操作，表示第b个实体的嵌入向量，表示含有第个实体的句子节点，a、b均为正整数,a=1,2,.,；0024通过实体嵌入矩阵，对句子节点和实体以上下文感知的方式进行交互表示；利用产生的句子嵌入矩阵，基于一个多头注意力机制进行触发词分类，对文档进行多标签分类操作，即：0025其中，表示多头注意力机制，表示激活函数，A表示注意力矩阵，表示注意力矩阵的转。

23、置，Sent表示句子嵌入矩阵，第一个Sent用作注意力机制说明书3/8 页8CN 117521658 A8中的键向量，第二个Sent用作注意力机制中的值向量，和为可训练参数，表示事件类型。0026进一步地，步骤S5中，事件参数抽取的过程为：将事件参数抽取任务作为一个路径搜索任务，根据文档所包含的事件类型信息确定需要搜索的参数域，路径搜索按照参数域顺序进行，从一个虚拟的根节点开始，每次搜索均为一个路径扩展的子任务，当匹配到下一个句子节点时将会自动在全局记忆中记录当前搜索路径，若当前未搜索到句子节点时则添加一个NA节点，代表当前候选参数域可能不存在；路径扩展的子任务被建模为一组二分类问题，同时利用。

24、当前路径的状态、历史上下文信息和当前事件类型，使用一个线性分类器用于路径扩展分类；最终生成一个由各个实体路径所构成的搜索树，每一个叶子节点均对应了一个独立的事件记录；采用Tracker模块用于持续记录所有被提取的事件信息并将其存储于全局的记忆信息中，在路径扩展的过程中还会搜索全局记忆信息用于寻找当前事件和曾完成搜索的事件的相关性。0027在Tracker模块中，每一个代表特定事件的实体序列均会被一个长短时记忆网络编码为一个向量并添加对应事件类型的嵌入信息，然后加入到全局记忆中，其中，表示特定事件的第1个实体，表示特定事件的第2个实体；在抽取过程中，给定一条包含前J1个参数的路径，J为大于1的正。

25、整数，对于第J个参数，将有=E+，其中，表示增加了角色信息的实体嵌入矩阵，E表示实体嵌入矩阵，为第J位置的参数类型嵌入；然后将、句子嵌入矩阵Sent、当前搜索路径和全局记忆信息G进行拼接并输入到一个Transformer中得到一个新的针对当前实体的特征信息，对于路径扩展中所涉及到的二分类问题则会基于该特征信息进行分类。0028进一步地，在步骤S6中，事件信息提取完毕后，采用Alpha算法对事件日志进行分析，识别多场景下流程内隐含的结构和联系；Alpha算法以事件日志为输入，抽象出事件日志中发生活动之间的紧邻、因果、并行、无关四种基本关系；根据基本关系的类型，生成对应足迹矩阵，然后根据预先设计的。

26、关系图建立输出流程模型，最终将事件日志转化为相应的流程模型。0029一种存储设备，所述存储设备存储指令及数据用于实现所述的基于篇章级事件抽取的RPA流程挖掘方法。0030一种基于篇章级事件抽取的RPA流程挖掘系统，包括：处理器及存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现所述的基于篇章级事件抽取的RPA流程挖掘方法。0031本发明提供的技术方案带来的有益效果是：与现有技术相比，本发明提出的技术方案通过构建篇章级文本结构图实现跨实体以及跨句子之间的一个信息交互，利用全局上下文来捕获跨不同句子的分散事件参数，输出完整的流程挖掘模型。本发明的方案可以：（1）通过篇章级事件抽取使得。

27、模型可以在更大的范围内计算多个句子中可能包含的事件，提高了处理用户日志信息的效率；（2）通过事件间联系提升事件提取效果，从而进一步提高生成RPA流程图的准确性；（3）在提升了相同时间内处理用户日志信息数量的同时，保持了准确的结果。说明书4/8 页9CN 117521658 A9附图说明0032图1是本发明实施例中基于篇章级事件抽取的RPA流程挖掘方法流程图；图2是本发明实施例中异构图神经网络模型图；图3是本发明实施例中硬件设备工作的示意图。具体实施方式0033为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。0034请参考图1，图1是本发明实施例中基于。

28、篇章级事件抽取的RPA流程挖掘方法的流程图，包括下列步骤：S1：获取用户行为日志信息并进行预处理；S2：对预处理后的文档进行命名实体识别；S3：构建篇章级文本结构图，该篇章级文本结构图包含文档中的节点，对篇章级文本结构图中每一个节点进行初始化，将节点分为提及节点和句子节点，生成提及节点的向量信息，进而得到句子节点的向量信息；S4：篇章级文本结构图建立后，根据句子节点的向量信息，使用多个图卷积层计算句子节点的嵌入向量；S5：根据句子节点的嵌入向量，得到句子嵌入矩阵，进行触发词分类和事件参数提取；S6：使用Alpha算法对提取出的事件信息进行分析，识别多场景下流程内隐含的结构和联系，输出RPA流程。

29、挖掘模型。0035该方法中通过用户行为记录工具来记录用户执行业务流程中进行的操作，从而生成用户行为日志，对用户行为日志进行预处理；预处理的具体过程为：将用户行为日志处理过程当作是事件抽取任务，本发明在编码层直接使用了公开于HuggingFace上的中文预训练模型“bertbasechinese”，用于将用户行为日志中的单词转为对应向量表示，使用BERT对输入的中文文本序列进行编码；在编码过程中将文档按句进行拆分，并直接调用HuggingFace提供的分词器（Tokenizer）对输入的句子按字依次编码得到对应的编码序列，HuggingFace是一个提供模型的平台，可用于直接调用模型；对于所有的。

30、句子集合，表示第i个句子，表示句子数，假定输入信息为一个句子，wj表示第j个单词，|Si|表示第i个句子中的单词数，i,j均为正整数，通过公式（1）将句子转换为句子向量：00360037其中，表示句子对应的句子向量，表示第j个单词对应的向量，()表示模型，用于将句子转变为输出的句子向量。0038此时经过BERT编码后的句子向量中每个字符对应的编码信息均会包含对应的位置编码信息。说明书5/8 页10CN 117521658 A100039命名实体识别采用的是CRF方法，命名实体识别本质上是一个序列标注问题，其将序列中的每个字符进行分类，输出结果为其所对应的BIO编码。在本事件抽取任务中需要提取的。

31、事件共有五类，每一类均有不同的参数域，故Begin标签和Inside标签将会对应的被设定为每个参数的Begin标签和Inside标签；将特定事件的某参数域名称记做A，则对应的标签为BA和IA；对于每一个提及（mention），其同样会获得一个编码信息：每个提及的嵌入编码使用该提及所覆盖的所有的字符编码的平均值，即对于每一个实体提及m，其嵌入编码hm为：0040其中，表示提及m的嵌入编码，mean()表示平均值函数，m表示一个实体提及（entity mention），表示提及m对应的句子向量，表示第j个单词属于提及m。0041一个事件可能跨越文档中的多个句子，这意味着其相应的实体提及也可能分散在。

32、不同的句子中，为了识别和建模这些实体提及，需要构建一个篇章级文本结构图，该图包含文档中的实体提及节点和句子节点。0042首先需要对篇章级文本结构图中每一个节点进行初始化，将节点分为提及节点和句子节点两类；提及节点的向量信息即公式（2）中每一个提及的嵌入编码hm，句子节点的向量信息为其所覆盖的所有字符的嵌入值的最大池化值再加上对应的位置嵌入信息，即：00430044其中，表示句子节点的向量信息，Maxpooling()表示最大池化，Sentpos()表示位置嵌入。0045然后需要构建篇章级文本结构图，采用如图2所示的异构图神经网络模型来提取提及和句子相互相关信息的各个边。篇章级文本结构图中的边根。

33、据其所连接的句子节点可以被分为四类：句子句子边、句子提及边、内部提及提及边和外部提及提及边。0046句子句子边：所有的句子之间均使用句子句子边相互连接。这些边将会捕捉句子间在文档全局的相关信息，这些信息包括了部分相隔较远的句子可能存在的关联信息。0047句子提及边：对于某一句所包含的各个提及均会使用句子提及边与该句子相互连接，用于捕捉句子内部的部分上下文信息。0048内部提及提及边：此处的内部指句子内部，即对于某一句子内部所包含的各个提及之间将会相互连接。这些边的建立是基于同一句子内的各个提及大概率会属于同一事件的假设。0049外部提及提及边：对于指向相同实体的所有提及均会相互连接，此处的外部。

34、即这些提及不一定会在同一句子内。在篇章级事件提取任务中，单个实体可能会被多次在不同的句子中被提及，故可以使用这些边追踪这些被反复提及的实体从而捕捉一些分布于较远的句子间的单个事件信息。0050篇章级文本结构图建立后，使用多个图卷积层用于计算各个句子节点的全局相关信息，对于每一个句子节点均会输出一个嵌入向量，其中i为为正整数，是句子节点的编说明书6/8 页11CN 117521658 A11号，该句子节点的嵌入向量计算如下：00510052其中，表示句子节点的嵌入向量，表示一个可训练的矩阵，L为图卷积层的数量，为当前句子节点的初始嵌入信息，表示经过第1层图卷积得到的句子节点的嵌入信息，表示经过第。

35、L层图卷积得到的句子节点的嵌入信息。最终将会计算得到各个句子嵌入矩阵和各个实体嵌入矩阵。0053句子嵌入矩阵（即句子的嵌入信息）Sent计算如下：0054其中，表示句子嵌入矩阵，D表示所有句子的集合，|D|表示所有句子的数量，表示第1个句子表示的转置，表示第2个句子表示的转置，表示第|D|个句子表示的转置，表示矩阵的一列。0055实体嵌入矩阵为其各个提及嵌入信息的平均，采用字符串匹配的方式搜索该实体的所有提及，得到实体嵌入矩阵，dm表示实体嵌入的维数，表示所有实体的数量，实体嵌入计算公式如下所示：0056(6)0057其中，表示均值操作，表示第b个实体的嵌入向量，表示含有第a个实体的句子节点，。

36、a、b均为正整数，a=1,2,.,；通过实体嵌入矩阵，对句子节点和实体以上下文感知的方式进行交互表示。0058对于触发词分类，在使用异构图神经网络模型完成句子和实体的关系计算后，需要对文档内可能存在的候选事件进行初步分类，由于单一文档中可能存在多个不同类型的事件，需要检测所有可能的事件类型，即需要对文档进行多标签分类操作。分类使用产生的句子嵌入矩阵,基于一个多头注意力机制进行分类，即：0059其中，()表示多头注意力机制，()表示激活函数，A表示注意力矩阵，表示注意力矩阵的转置，Sent表示句子嵌入矩阵，第一个Sent用作注意力机制中的键向量，第二个Sent用作注意力机制中的值向量；和为可训练。

37、参数，R表示事件类型，表示事件类型集合，表示事件的种类数量。0060事件参数提取（argument extraction）的过程为：事件参数提取任务可以被视作一个路径搜索任务，该任务根据所得到的文档所包含的事件类型信息确定需要搜索的参数域。路径搜索按照参数域顺序进行，从一个虚拟的根节点开始，每次搜索均为一个路径扩展说明书7/8 页12CN 117521658 A12的子任务，当匹配到下一个合适的节点时将会自动在全局记忆中记录当前搜索路径，若当前未搜索到适当的节点时则添加一个NA节点，代表当前候选参数域可能不存在。路径扩展的子任务被建模为一组二分类问题，同时利用了当前路径的状态、历史上下文信息和。

38、当前事件类型，使用一个线性分类器用于路径扩展分类。最终生成一个由各个实体路径所构成的搜索树，每一个叶子节点均对应了一个独立的事件记录。考虑到不同的事件之间可能存在一定的联系，本发明应用Tracker模块来持续记录所有被提取的事件信息并将其存储于全局的记忆信息中，在路径扩展的过程中，Tracker模块还会搜索全局记忆信息用于寻找当前事件和曾完成搜索的事件的相关性。0061在一个Tracker模块中，每一个代表特定事件的实体序列均会被一个长短时记忆网络编码为一个向量并添加对应事件类型的嵌入信息，然后加入到全局记忆中，其中，表示特定事件的第1个实体，表示特定事件的第2个实体。在抽取过程中，给定一条包。

39、含前J1个参数的路径，J为大于1的正整数，对于第J个参数，将有=E+，其中，表示增加了角色信息的实体嵌入矩阵，E表示实体嵌入矩阵，为第J位置的参数类型嵌入。然后将、句子嵌入矩阵Sent、当前搜索路径和全局记忆信息G进行拼接并输入到一个Transformer中得到一个新的针对当前实体的特征信息，对于路径扩展中所涉及到的二分类问题则会基于该特征信息进行分类。0062事件抽取完毕后，采用Alpha算法对事件日志进行分析，识别多场景下流程内隐含的结构和联系，输出流程模型(即petri网)。Alpha算法是流程挖掘领域的主流算法之一，基本思想是以事件日志为输入，抽象出事件日志中发生活动之间的紧邻、因果、。

40、并行、无关四种基本关系；然后根据基本关系的类型，生成对应足迹矩阵；然后根据预先设计的关系图建立petri网，最终将事件日志转化为相应的流程模型。0063请参见图3，图3是本发明实施例的硬件设备工作示意图，所述硬件设备具体包括：一种基于篇章级事件抽取的RPA流程挖掘系统301，包括：处理器302及存储设备303；所述存储设备303存储指令及数据；所述处理器302加载并执行所述存储设备303中的指令及数据用于实现所述的基于篇章级事件抽取的RPA流程挖掘方法。0064与现有技术相比，本发明提出的技术方案通过构建篇章级文本结构图实现跨实体以及跨句子之间的一个信息交互，利用全局上下文来捕获跨不同句子的分。

41、散事件参数，输出完整的流程挖掘模型。本发明的方案可以：（1）通过篇章级事件抽取使得模型可以在更大的范围内计算多个句子中可能包含的事件，提高了处理用户日志信息的效率；（2）通过事件间联系提升事件提取效果，从而进一步提高生成RPA流程图的准确性；（3）在提升了相同时间内处理用户日志信息数量的同时，保持了准确的结果。0065以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书8/8 页13CN 117521658 A13图 1说明书附图1/2 页14CN 117521658 A14图 2图 3说明书附图2/2 页15CN 117521658 A15。

展开阅读全文