《文档匹配方法和文档匹配装置.pdf》由会员分享,可在线阅读,更多相关《文档匹配方法和文档匹配装置.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103678645 A (43)申请公布日 2014.03.26 CN 103678645 A (21)申请号 201310714413.1 (22)申请日 2013.12.20 G06F 17/30(2006.01) (71)申请人 中电长城网际系统应用有限公司 地址 102200 北京市昌平区科技园区超前路 37 号 6 号楼四层 1108 号 (72)发明人 刘恒 廖飞鸣 黄凯峰 陈洪波 黄玉金 (74)专利代理机构 北京天昊联合知识产权代理 有限公司 11112 代理人 彭瑞欣 张天舒 (54) 发明名称 文档匹配方法和文档匹配装置 (57) 摘要 本发明公开。
2、了一种文档匹配方法和文档匹配 装置。该文档匹配方法包括 : 从待比较文档中提 取出待比较文档摘要以及从基准文档中提取出基 准文档摘要 ; 根据所述待比较文档摘要和所述基 准文档摘要, 判断出所述待比较文档和所述基准 文档是否为相似文档。本发明提供的文档匹配方 法和文档匹配装置的技术方案中, 从待比较文档 中提取出待比较文档摘要以及从基准文档中提取 出基准文档摘要, 根据待比较文档摘要和基准文 档摘要判断出待比较文档和基准文档是否为相似 文档, 本发明通过从文档中提取出的文档摘要判 断出文档是否为相似文档, 无需对整个文档进行 分析和比较, 从而提高了文档匹配的处理效率。 (51)Int.Cl.。
3、 权利要求书 3 页 说明书 9 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书9页 附图3页 (10)申请公布号 CN 103678645 A CN 103678645 A 1/3 页 2 1. 一种文档匹配方法, 其特征在于, 包括 : 从待比较文档中提取出待比较文档摘要以及从基准文档中提取出基准文档摘要 ; 根据所述待比较文档摘要和所述基准文档摘要, 判断出所述待比较文档和所述基准文 档是否为相似文档。 2. 根据权利要求 1 所述的文档匹配方法, 其特征在于, 所述从待比较文档中提取出待 比较文档摘要包括 : 对待比较文档进行分词处。
4、理生成文档的名词集合, 并根据名词集合生成文档矩阵, 其 中, 名词集合中的名词为至少在待比较文档中的两个句子中出现的名词 ; 对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇异向量, 并根据 右特征向量和左奇异向量生成矩阵范数 ; 将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文档聚类 ; 根据文档矩阵中的句子数量以及预先设定的压缩比, 生成文档摘要假设句子数 ; 根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数量值 ; 根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文档摘要实际句子数 ; 根据矩阵范数, 。
5、从文档聚类的句子中选取出摘要实际句子数个或者摘要实际句子数加 1 个句子, 生成待比较文档摘要。 3. 根据权利要求 1 所述的文档匹配方法, 其特征在于, 所述从基准文档中提取出基准 文档摘要包括 : 对基准文档进行分词处理生成文档的名词集合, 并根据名词集合生成文档矩阵, 其中, 名词集合中的名词为至少在基准文档中的两个句子中出现的名词 ; 对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇异向量, 并根据 右特征向量和左奇异向量生成矩阵范数 ; 将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文档聚类 ; 根据文档矩阵。
6、中的句子数量以及预先设定的压缩比, 生成文档摘要假设句子数 ; 根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数量值 ; 根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文档摘要实际句子数 ; 根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数个或者摘要实际句子数加 1 个句子, 生成基准文档摘要。 4. 根据权利要求 1 所述的文档匹配方法, 其特征在于, 所述根据所述待比较文档和所 述基准文档, 判断出所述待比较文档和所述基准文档是否为相似文档包括 : 从所述待比较文档摘要和所述基准文档摘要中提取公共子序列 ; 若提取出所述公共子序列, 从所述公共子序列中选取出最大公共子序列。
7、, 判断所述最 大公共子序列的长度与所述基准文档摘要的长度之比是否大于设定比值, 若判断出所述最 大公共子序列的长度与所述基准文档摘要的长度之比大于设定比值, 确定出所述待比较文 档和所述基准文档是相似文档, 所述最大公共子序列为提取出的所述公共子序列中长度最 大的一个公共子序列。 5. 根据权利要求 1 所述的文档匹配方法, 其特征在于, 所述根据所述待比较文档和所 权 利 要 求 书 CN 103678645 A 2 2/3 页 3 述基准文档, 判断出所述待比较文档和所述基准文档是否为相似文档包括 : 从所述待比较文档摘要和所述基准文档摘要中提取公共子序列 ; 若提取出所述公共子序列, 。
8、从所述公共子序列中选取出长度最大的设定数量个所述公 共子序列并计算出长度最大的设定数量个所述公共子序列的长度之和, 判断长度最大的设 定数量个所述公共子序列的长度之和与所述基准文档摘要的长度之比是否大于设定比值, 若判断出长度最大的设定数量个所述公共子序列的长度之和与所述基准文档摘要的长度 之比大于所述设定比值, 确定出所述待比较文档和所述基准文档是相似文档。 6. 一种文档匹配装置, 其特征在于, 包括 : 提取单元, 用于从待比较文档中提取出待比较文档摘要以及从基准文档中提取出基准 文档摘要 ; 判断单元, 用于根据所述待比较文档摘要和所述基准文档摘要, 判断出所述待比较文 档和所述基准文。
9、档是否为相似文档。 7. 根据权利要求 6 所述的文档匹配装置, 其特征在于, 所述提取单元包括 : 第一生成模块, 用于对待比较文档进行分词处理生成文档的名词集合, 并根据名词集 合生成文档矩阵, 其中, 名词集合中的名词为至少在待比较文档中的两个句子中出现的名 词 ; 加权模块, 用于对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 分解模块, 用于对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇 异向量, 并根据右特征向量和左奇异向量生成矩阵范数 ; 聚类划分模块, 用于将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文档聚 类 ; 第二生成模块, 用于根据文档矩阵。
10、中的句子数量以及预先设定的压缩比, 生成文档摘 要假设句子数 ; 第三生成模块, 用于根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数量 值 ; 第四生成模块, 用于根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文档摘 要实际句子数 ; 第五生成模块, 用于根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数个或 者摘要实际句子数加 1 个句子, 生成待比较文档摘要。 8. 根据权利要求 6 所述的文档匹配装置, 其特征在于, 所述提取单元包括 : 第一生成模块, 用于对基准文档进行分词处理生成文档的名词集合, 并根据名词集合 生成文档矩阵, 其中, 名词集合中的名词为至少在基准。
11、文档中的两个句子中出现的名词 ; 加权模块, 用于对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 分解模块, 用于对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇 异向量, 并根据右特征向量和左奇异向量生成矩阵范数 ; 聚类划分模块, 用于将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文档聚 类 ; 第二生成模块, 用于根据文档矩阵中的句子数量以及预先设定的压缩比, 生成文档摘 要假设句子数 ; 权 利 要 求 书 CN 103678645 A 3 3/3 页 4 第三生成模块, 用于根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数量 值 ; 第四生成模块, 用。
12、于根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文档摘 要实际句子数 ; 第五生成模块, 用于根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数个或 者摘要实际句子数加 1 个句子, 生成基准文档摘要。 9. 根据权利要求 6 所述的文档匹配装置, 其特征在于, 所述判断单元包括 : 提取模块, 用于从所述待比较文档摘要和所述基准文档摘要中提取公共子序列 ; 选取模块, 用于若提取出所述公共子序列, 从所述公共子序列中选取出最大公共子序 列 ; 判断模块, 用于判断所述最大公共子序列的长度与所述基准文档摘要的长度之比是否 大于设定比值 ; 确定模块, 用于若判断出所述最大公共子序列的。
13、长度与所述基准文档摘要的长度之比 大于设定比值, 确定出所述待比较文档和所述基准文档是相似文档, 所述最大公共子序列 为提取出的所述公共子序列中长度最大的一个公共子序列。 10. 根据权利要求 6 所述的文档匹配装置, 其特征在于, 所述判断单元包括 : 提取模块, 用于从所述待比较文档摘要和所述基准文档摘要中提取公共子序列 ; 选取模块, 用于若提取出所述公共子序列, 从所述公共子序列中选取出长度最大的设 定数量个所述公共子序列 ; 判断模块, 用于判断长度最大的设定数量个所述公共子序列的长度之和与所述基准文 档摘要的长度之比是否大于设定比值 ; 确定模块, 用于若判断出长度最大的设定数量个。
14、所述公共子序列的长度之和与所述基 准文档摘要的长度之比大于所述设定比值, 确定出所述待比较文档和所述基准文档是相似 文档。 权 利 要 求 书 CN 103678645 A 4 1/9 页 5 文档匹配方法和文档匹配装置 技术领域 0001 本发明涉及信息检索领域, 特别涉及一种文档匹配方法和文档匹配装置。 背景技术 0002 目前, 随着信息检索技术的发展, 文档快速匹配技术的应用越来越广泛。 在信息检 索技术领域中, 对于文档智能快速匹配的问题已经做出了大量的研究工作, 并产生了相应 的研究成果。 0003 现有技术中, 文档智能快速匹配的方法是对整个文档进行分析和比较, 从而确定 出两篇。
15、文档是否是相同或者相似。 0004 但是, 由于文档通常都很大, 因此采用整篇文档比较的方法导致文档匹配的处理 效率不高。 发明内容 0005 本发明提供一种文档匹配方法和文档匹配装置, 用于提高文档匹配的处理效率。 0006 为实现上述目的, 本发明提供了一种文档匹配方法, 包括 : 0007 从待比较文档中提取出待比较文档摘要以及从基准文档中提取出基准文档摘 要 ; 0008 根据所述待比较文档摘要和所述基准文档摘要, 判断出所述待比较文档和所述基 准文档是否为相似文档。 0009 可选地, 所述从待比较文档中提取出待比较文档摘要包括 : 0010 对待比较文档进行分词处理生成文档的名词集。
16、合, 并根据名词集合生成文档矩 阵, 其中, 名词集合中的名词为至少在待比较文档中的两个句子中出现的名词 ; 0011 对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 0012 对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇异向量, 并 根据右特征向量和左奇异向量生成矩阵范数 ; 0013 将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文档聚类 ; 0014 根据文档矩阵中的句子数量以及预先设定的压缩比, 生成文档摘要假设句子数 ; 0015 根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数量值 ; 0016 根据文档摘要假设句子数和摘要聚类的最小数量值, 得。
17、出文档摘要实际句子数 ; 0017 根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数个或者摘要实际句子 数加 1 个句子, 生成待比较文档摘要。 0018 可选地, 所述从基准文档中提取出基准文档摘要包括 : 0019 对基准文档进行分词处理生成文档的名词集合, 并根据名词集合生成文档矩阵, 其中, 名词集合中的名词为至少在基准文档中的两个句子中出现的名词 ; 0020 对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 0021 对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇异向量, 并 说 明 书 CN 103678645 A 5 2/9 页 6 根据右特征向量和左。
18、奇异向量生成矩阵范数 ; 0022 将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文档聚类 ; 0023 根据文档矩阵中的句子数量以及预先设定的压缩比, 生成文档摘要假设句子数 ; 0024 根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数量值 ; 0025 根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文档摘要实际句子数 ; 0026 根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数个或者摘要实际句子 数加 1 个句子, 生成基准文档摘要。 0027 可选地, 所述根据所述待比较文档和所述基准文档, 判断出所述待比较文档和所 述基准文档是否为相似文档包括 : 0028。
19、 从所述待比较文档摘要和所述基准文档摘要中提取公共子序列 ; 0029 若提取出所述公共子序列, 从所述公共子序列中选取出最大公共子序列, 判断所 述最大公共子序列的长度与所述基准文档摘要的长度之比是否大于设定比值, 若判断出所 述最大公共子序列的长度与所述基准文档摘要的长度之比大于设定比值, 确定出所述待比 较文档和所述基准文档是相似文档, 所述最大公共子序列为提取出的所述公共子序列中长 度最大的一个公共子序列。 0030 可选地, 所述根据所述待比较文档和所述基准文档, 判断出所述待比较文档和所 述基准文档是否为相似文档包括 : 0031 从所述待比较文档摘要和所述基准文档摘要中提取公共子。
20、序列 ; 0032 若提取出所述公共子序列, 从所述公共子序列中选取出长度最大的设定数量个所 述公共子序列并计算出长度最大的设定数量个所述公共子序列的长度之和, 判断长度最大 的设定数量个所述公共子序列的长度之和与所述基准文档摘要的长度之比是否大于设定 比值, 若判断出长度最大的设定数量个所述公共子序列的长度之和与所述基准文档摘要的 长度之比大于所述设定比值, 确定出所述待比较文档和所述基准文档是相似文档。 0033 为实现上述目的, 本发明提供了一种文档匹配装置, 包括 : 0034 提取单元, 用于从待比较文档中提取出待比较文档摘要以及从基准文档中提取出 基准文档摘要 ; 0035 判断单。
21、元, 用于根据所述待比较文档摘要和所述基准文档摘要, 判断出所述待比 较文档和所述基准文档是否为相似文档。 0036 可选地, 所述提取单元包括 : 0037 第一生成模块, 用于对待比较文档进行分词处理生成文档的名词集合, 并根据名 词集合生成文档矩阵, 其中, 名词集合中的名词为至少在待比较文档中的两个句子中出现 的名词 ; 0038 加权模块, 用于对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 0039 分解模块, 用于对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和 左奇异向量, 并根据右特征向量和左奇异向量生成矩阵范数 ; 0040 聚类划分模块, 用于将文档矩阵以。
22、左奇异向量为聚类中心进行聚类划分, 生成文 档聚类 ; 0041 第二生成模块, 用于根据文档矩阵中的句子数量以及预先设定的压缩比, 生成文 档摘要假设句子数 ; 说 明 书 CN 103678645 A 6 3/9 页 7 0042 第三生成模块, 用于根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数 量值 ; 0043 第四生成模块, 用于根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文 档摘要实际句子数 ; 0044 第五生成模块, 用于根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数 个或者摘要实际句子数加 1 个句子, 生成待比较文档摘要。 0045 可选地, 所述。
23、提取单元包括 : 0046 第一生成模块, 用于对基准文档进行分词处理生成文档的名词集合, 并根据名词 集合生成文档矩阵, 其中, 名词集合中的名词为至少在基准文档中的两个句子中出现的名 词 ; 0047 加权模块, 用于对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 0048 分解模块, 用于对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和 左奇异向量, 并根据右特征向量和左奇异向量生成矩阵范数 ; 0049 聚类划分模块, 用于将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文 档聚类 ; 0050 第二生成模块, 用于根据文档矩阵中的句子数量以及预先设定的压缩比, 生。
24、成文 档摘要假设句子数 ; 0051 第三生成模块, 用于根据文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数 量值 ; 0052 第四生成模块, 用于根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文 档摘要实际句子数 ; 0053 第五生成模块, 用于根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数 个或者摘要实际句子数加 1 个句子, 生成基准文档摘要。 0054 可选地, 所述判断单元包括 : 0055 提取模块, 用于从所述待比较文档摘要和所述基准文档摘要中提取公共子序列 ; 0056 选取模块, 用于若提取出所述公共子序列, 从所述公共子序列中选取出最大公共 子序列 ;。
25、 0057 判断模块, 用于判断所述最大公共子序列的长度与所述基准文档摘要的长度之比 是否大于设定比值 ; 0058 确定模块, 用于若判断出所述最大公共子序列的长度与所述基准文档摘要的长度 之比大于设定比值, 确定出所述待比较文档和所述基准文档是相似文档, 所述最大公共子 序列为提取出的所述公共子序列中长度最大的一个公共子序列。 0059 可选地, 所述判断单元包括 : 0060 提取模块, 用于从所述待比较文档摘要和所述基准文档摘要中提取公共子序列 ; 0061 选取模块, 用于若提取出所述公共子序列, 从所述公共子序列中选取出长度最大 的设定数量个所述公共子序列 ; 0062 判断模块,。
26、 用于判断长度最大的设定数量个所述公共子序列的长度之和与所述基 准文档摘要的长度之比是否大于设定比值 ; 0063 确定模块, 用于若判断出长度最大的设定数量个所述公共子序列的长度之和与所 说 明 书 CN 103678645 A 7 4/9 页 8 述基准文档摘要的长度之比大于所述设定比值, 确定出所述待比较文档和所述基准文档是 相似文档。 0064 本发明具有以下有益效果 : 0065 本发明提供的文档匹配方法和文档匹配装置的技术方案中, 从待比较文档中提取 出待比较文档摘要以及从基准文档中提取出基准文档摘要, 0066 根据待比较文档摘要和基准文档摘要判断出待比较文档和基准文档是否 00。
27、67 为相似文档, 本发明通过从文档中提取出的文档摘要判断出文档是否为相 0068 似文档, 无需对整个文档进行分析和比较, 从而提高了文档匹配的处理效 0069 率。 附图说明 0070 图 1 为本发明实施例一提供的一种文档匹配方法的流程图 ; 0071 图 2 为本发明实施例二提供的一种文档匹配方法的流程图 ; 0072 图 3 为本发明实施例二中从文档中提取文档摘要的方法的流程图 ; 0073 图 4 为本发明实施例三提供的一种文档匹配装置的结构示意图 ; 0074 图 5 为本发明实施例四提供的一种文档匹配装置的结构示意图。 具体实施方式 0075 为使本领域的技术人员更好地理解本发。
28、明的技术方案, 下面结合附图对本发明提 供的文档匹配方法和文档匹配装置进行详细描述。 0076 图1为本发明实施例一提供的一种文档匹配方法的流程图, 如图1所示, 该方法包 括 : 0077 步骤 101、 从待比较文档中提取出待比较文档摘要以及从基准文档中提取出基准 文档摘要。 0078 步骤 102、 根据待比较文档摘要和基准文档摘要, 判断出待比较文档和基准文档是 否为相似文档。 0079 本实施例提供的文档匹配方法中, 从待比较文档中提取出待比较文档摘要以及从 基准文档中提取出基准文档摘要, 根据待比较文档摘要和基准文档摘要判断出待比较文档 和基准文档是否为相似文档, 本实施例通过从文。
29、档中提取出的文档摘要判断出文档是否为 相似文档, 无需对整个文档进行分析和比较, 从而提高了文档匹配的处理效率。 0080 图2为本发明实施例二提供的一种文档匹配方法的流程图, 如图2所示, 该方法包 括 : 0081 步骤 201、 从待比较文档中提取出待比较文档摘要以及从基准文档中提取出基准 文档摘要。 0082 本实施例可采用相同的方法提取出待比较文档摘要以及提取出基准文档摘要。 图 3 为本发明实施例二中从文档中提取文档摘要的方法的流程图, 如图 3 所示, 该方法具体包 括 : 0083 步骤 2011、 对文档进行分词处理生成文档的名词集合, 并根据名词集合生成文档 矩阵, 其中,。
30、 名词集合中的名词为至少在文档中的两个句子中出现的名词。 说 明 书 CN 103678645 A 8 5/9 页 9 0084 具体地, 可采用中文分词技术对文档进行分词处理, 分词处理后保留名词 ; 从分词 处理后得到的名词中查找出至少在文档中的两个句子中出现的名词, 并根据至少在两个句 子中出现的名词生成文档的名词集合。 0085 名词集合为 t1,t1,tn, 文档的文档矩阵 D 为 (S1,S2,Sm)T, 其中, Si表示文 档 D 中的每个句子, 且 Si=(fi1,fi2,fin), (i=1,2,m), fij表示名词 tj在句子 Si中出现 的频率, 则文档矩阵 D=(fi。
31、j)m*n。 0086 步骤 2012、 对文档矩阵进行加权处理, 生成加权处理后的文档矩阵。 0087 假设文档包括 h 个段落, 该 h 个段落分别为 P1,P2,Ph。由于每个句子 Si在文档 中的位置对文档摘要有影响, 因此可对文档中不同位置的句子按照下面的规则进行加权处 理, 具体为 : 0088 若 Si P1, 且 Si是 P1的第一个句子或者最后一个句子, 则 Si =4*Si; 0089 若 Si P1, 且 Si不是 P1的第一个句子也不是最后一个句子, 则 Si =3*Si; 0090 若 Si Ph, 且 Si是 Ph的第一个句子或者最后一个句子, 则 Si =4*Si。
32、; 0091 若 Si Ph, 且 Si不是 Ph的第一个句子也不是最后一个句子, 则 Si =3*Si; 0092 若 Si Pj,(i 1, 且 i h) , 且 Si是 Pj的第一个句子或者最后一个句子, 则 Si =2*Si; 0093 若 Si中含有 k 个标题中的词, 则 Si =k*Si; 0094 其余 Si不变, 即 : Si =Si; 0095 其中, Si为加权处理后的文档矩阵 D 中的句子。 0096 步骤 2013、 对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇 异向量, 并根据右特征向量和左奇异向量生成矩阵范数。 0097 本步骤具体包括 : 009。
33、8 步 骤 2013a、对 文 档 矩 阵 D=(fij)m*n进 行 奇 异 值 分 解 (Singular Value Decomposition, 简称 : SVD) , 得出单位化后的右特征向量Vi以及单位化后的左奇异向量Ui。 其中, Vi=(V1i,V2i,Vni)T, i=1,2,n ; Ui=(U1i,U2i,Umi)T, i=1,2,?,k。 0099 假定文档矩阵 D 的特征值为 1 2 kk+1=n-1=n=0, 则奇异值 i=1,2,n。 0100 步骤 2013b、 根据右特征向量 Vi和左奇异向量 Ui, 得出文档矩阵 D 的第 j 行句子 Sj, Sj=1Vj1U。
34、1+2Vj2U2+kVjkUk, j=1,2,m。 0101 步骤 2013c、 根据文档矩阵 D 的第 j 行句子 Sj, 得出矩阵范数 |Sj|, 0102 0103 步骤 2014、 将文档矩阵以左奇异向量为聚类中心进行聚类划分, 生成文档聚类。 0104 将文档矩阵中的句子以左奇异向量U1,U2,Uk为聚类中心进行划分, 得出文档聚 类 0105 具体地, Ui与 Sj的夹角为 ij, Ui与 Sj的相似度为 rij, 则 0106 说 明 书 CN 103678645 A 9 6/9 页 10 0107 将使得相似度 rij最大时的 Sj划分为以 Ui为聚类中心的文档聚类中, 以形成。
35、 文档聚类其中, 对于固定的 j 值, 相似度 rij公式中的分母相同, 则当公式中的分子 i|Vji|(i=1,2,k) 最大时相似度 rij最大, 此时公式中的分子 i|Vji| 最大时对应的 Sj 即为使得相似度 rij最大时的 Sj。 0108 步骤 2015、 根据文档矩阵中的句子数量以及预先设定的压缩比, 生成文档摘要假 设句子数。 0109 假设文档矩阵 D 中包括 m 个句子, 其文档摘要 Dsum中包括 m1 个句子, 则压缩比 当压缩比 和 m 已知时, 可根据压缩比公式、 压缩比 和 m 计算出文档摘要假设 句子数 m1。 0110 步骤 2016、 根据文档聚类和预先设。
36、定的覆盖率, 生成摘要聚类的最小数量值。 0111 假设文档矩阵 D 的句子取自非空文档聚类为其文档摘要 Dsum的 句子取自摘要聚类则覆盖率当覆盖率 R 和 已知时, 可根据覆盖率公式、 覆盖率 R 和计算出满足覆盖率 R 时摘要聚 类的最小数量值 L。 0112 步骤 2017、 根据文档摘要假设句子数和摘要聚类的最小数量值, 得出文档摘要实 际句子数。 0113 文档摘要实际句子数, 其中, m=m1, L 为最小数量值。 通过上述文档摘要实际句子数的公式, 根据文档摘要假设句子数m1和最小数量值L计算出 文档摘要实际句子数 0114 步骤 2018、 根据矩阵范数, 从文档聚类的句子中。
37、选取出摘要实际句子数个或者摘 要实际句子数加 1 个句子, 生成文档摘要。 0115 假设文档聚类中包括 p 个句子, 则将文档聚类中的 p 个句子按照矩阵范数 |Sj| 从高至低选取出个或者个句子, 生成文档摘要。 0116 本实施例中, 采用步骤 2011 至步骤 2018 可实现从待比较文档中提取出待比较文 档摘要, 以及采用步骤 2011 至步骤 2018 可实现从基准文档中提取出基准文档摘要。 0117 当采用步骤 2011 至步骤 2018 从待比较文档中提取出待比较文档摘要时, 步骤 2011 至步骤 2018 中的文档为待比较文档, 提取出的文档摘要为待比较文档摘要。 0118。
38、 当采用步骤 2011 至步骤 2018 从基准文档中提取出基准文档摘要时, 步骤 2011 至 步骤 2018 中的文档为基准文档, 提取出的文档摘要为基准文档摘要。 0119 步骤 202、 从待比较文档摘要和基准文档摘要中提取公共子序列, 若提取出公共子 序列, 则执行步骤 203 ; 若未提取出公共子序列, 则执行步骤 206。 0120 公共子序列是指 : 存在一个序列 S, 如果该序列 S 分别是多个已知序列的子序列, 则该序列 S 称之为多个已知序列的公共子序列。本实施例中, 已知序列为待比较文档摘要 和基准文档摘要, 则公共子序列为上述待比较文档摘要和基准文档摘要这两个已知序列。
39、的 说 明 书 CN 103678645 A 10 7/9 页 11 公共子序列。 0121 步骤 203、 从公共子序列中选取出最大公共子序列。 0122 步骤 204、 判断最大公共子序列的长度与基准文档摘要的长度之比是否大于设定 比值, 若是, 则执行步骤 205 ; 若否, 则执行步骤 206, 最大公共子序列为提取出的所述公共 子序列中长度最大的一个公共子序列。 0123 若已知序列中存在多个公共子序列, 则按照公共子序列的长度由大到小的顺序排 列, 其中长度最长的公共子序列称为最大公共子序列。若已知序列中仅存在一个公共子序 列, 则该公共子序列为最大公共子序列。 0124 步骤 2。
40、05、 确定出待比较文档和基准文档是相似文档, 流程结束。 0125 步骤 206、 确定出待比较文档和基准文档不是相似文档, 流程结束。 0126 本发明中的相似文档指的是 : 待比较文档和基准文档具有相同或者相近的内容。 0127 可选地, 本实施例中, 若步骤 202 中从待比较文档摘要和基准文档摘要中提取出 公共子序列, 还可以执行如下步骤 : 0128 从公共子序列中选取出长度最大的设定数量个公共子序列 ; 0129 判断长度最大的设定数量个公共子序列的长度之和与基准文档摘要的长度之比 是否大于设定比值 ; 0130 若判断出长度最大的设定数量个公共子序列的长度之和与基准文档摘要的长。
41、度 之比大于设定比值, 则确定出待比较文档和基准文档是相似文档 ; 若判断出长度最大的设 定数量个公共子序列的长度之和与基准文档摘要的长度之比小于或者等于设定比值, 则确 定出待比较文档和基准文档不是相似文档。 0131 本实施例提供的文档匹配方法中, 从待比较文档中提取出待比较文档摘要以及从 基准文档中提取出基准文档摘要, 根据待比较文档摘要和基准文档摘要判断出待比较文档 和基准文档是否为相似文档, 本实施例通过从文档中提取出的文档摘要判断出文档是否为 相似文档, 无需对整个文档进行分析和比较, 从而提高了文档匹配的处理效率。 本实施例通 过提取文档摘要和根据公共子序列判断待比较文档和基准文。
42、档是否为相似文档的方案实 现文档匹配, 从而提高了文档匹配结果的准确性, 并且能够最大限度的查找出与基准文档 匹配的待比较文档。 0132 图4为本发明实施例三提供的一种文档匹配装置的结构示意图, 如图4所示, 该文 档匹配装置包括 : 提取单元 1 和判断单元 2。 0133 提取单元 1 用于从待比较文档中提取出待比较文档摘要以及从基准文档中提取 出基准文档摘要 ; 判断单元 2 用于根据所述待比较文档摘要和所述基准文档摘要, 判断出 所述待比较文档和所述基准文档是否为相似文档。 0134 本实施例提供的文档匹配装置可用于实现上述实施例一提供的文档匹配方法。 0135 本实施例提供的文档匹。
43、配装置从待比较文档中提取出待比较文档摘要以及从基 准文档中提取出基准文档摘要, 根据待比较文档摘要和基准文档摘要判断出待比较文档和 基准文档是否为相似文档, 本实施例通过从文档中提取出的文档摘要判断出文档是否为相 似文档, 无需对整个文档进行分析和比较, 从而提高了文档匹配的处理效率。 0136 图5为本发明实施例四提供的一种文档匹配装置的结构示意图, 如图5所示, 本实 施例在上述实施例三提供的文档匹配装置的基础上, 提取单元 1 具体可包括 : 第一生成模 说 明 书 CN 103678645 A 11 8/9 页 12 块 11、 加权模块 12、 分解模块 13、 聚类划分模块 14、。
44、 第二生成模块 15、 第三生成模块 16、 第 四生成模块 17 和第五生成模块 18。 0137 第一生成模块 11 用于对待比较文档进行分词处理生成文档的名词集合, 并根据 名词集合生成文档矩阵, 其中, 名词集合中的名词为至少在待比较文档中的两个句子中出 现的名词 ; 加权模块 12 用于对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 分解 模块 13 用于对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇异向 量, 并根据右特征向量和左奇异向量生成矩阵范数 ; 聚类划分模块 14 用于将文档矩阵以左 奇异向量为聚类中心进行聚类划分, 生成文档聚类 ; 第二生成模块 。
45、15 用于根据文档矩阵中 的句子数量以及预先设定的压缩比, 生成文档摘要假设句子数 ; 第三生成模块 16 用于根据 文档聚类和预先设定的覆盖率, 生成摘要聚类的最小数量值 ; 第四生成模块 17 用于根据 文档摘要假设句子数和摘要聚类的最小数量值, 得出文档摘要实际句子数 ; 第五生成模块 18, 用于根据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数个或者摘要实际句子 数加 1 个句子, 生成待比较文档摘要。 0138 第一生成模块 11 用于对基准文档进行分词处理生成文档的名词集合, 并根据名 词集合生成文档矩阵, 其中, 名词集合中的名词为至少在基准文档中的两个句子中出现的 名词 。
46、; 加权模块 12 用于对文档矩阵进行加权处理, 生成加权处理后的文档矩阵 ; 分解模块 13 用于对加权处理后的文档矩阵进行奇异值分解处理生成右特征向量和左奇异向量, 并根 据右特征向量和左奇异向量生成矩阵范数 ; 聚类划分模块 14 用于将文档矩阵以左奇异向 量为聚类中心进行聚类划分, 生成文档聚类 ; 第二生成模块 15 用于根据文档矩阵中的句子 数量以及预先设定的压缩比, 生成文档摘要假设句子数 ; 第三生成模块 16 用于根据文档聚 类和预先设定的覆盖率, 生成摘要聚类的最小数量值 ; 第四生成模块 17 用于根据文档摘要 假设句子数和摘要聚类的最小数量值, 得出文档摘要实际句子数 。
47、; 第五生成模块 18 用于根 据矩阵范数, 从文档聚类的句子中选取出摘要实际句子数个或者摘要实际句子数加 1 个句 子, 生成基准文档摘要。 0139 进一步地, 判断单元2具体可包括 : 提取模块21、 选取模块22、 判断模块23和确定 模块 24。 0140 作为一种优选方案, 提取模块 21 用于从所述待比较文档摘要和所述基准文档摘 要中提取公共子序列 ; 选取模块 22 用于若提取出所述公共子序列, 从所述公共子序列中选 取出最大公共子序列 ; 判断模块 23 用于判断所述最大公共子序列的长度与所述基准文档 摘要的长度之比是否大于设定比值 ; 确定模块 24 用于若判断出所述最大公。
48、共子序列的长 度与所述基准文档摘要的长度之比大于设定比值, 确定出所述待比较文档和所述基准文档 是相似文档, 所述最大公共子序列为提取出的所述公共子序列中长度最大的一个公共子序 列。确定模块 24 还用于若判断出所述最大公共子序列的长度与所述基准文档摘要的长度 之比小于或者等于设定比值, 确定出所述待比较文档和所述基准文档不是相似文档。确定 模块 24 还用于若提取模块 21 未提取出公共子序列, 确定出所述待比较文档和所述基准文 档不是相似文档。 0141 作为一种优选方案, 提取模块 21 用于从所述待比较文档摘要和所述基准文档摘 要中提取公共子序列 ; 选取模块 22 用于若提取出所述公共子序列, 从所述公共子序列中选 取出长度最大的设定数量个所述公共子序列 ; 判断模块 23 用于判断长度最大的设定数量 说 明 书 CN 103678645 A 12 9/9 页 13 个所述公共子序列的长度之和与所述基准文档摘要的长度之比是否大于设定比值 ; 确定模 块 24 用于若判断出长度最大的设定数量个所述公共子序列的长度之和与所述基准文档摘 要的长度之比大于所述设定比值, 确定出所述待比较文档和所述基准文档是相似文档。确 定模块 24 还用于若判断出若判断出长度最大的设定数量个。