一种论文查重的方法.pdf

摘要
申请专利号：	CN201410319183.3	申请日：	2014.07.07
公开号：	CN104050299A	公开日：	2014.09.17
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140917\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20140707\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	江苏金智教育信息技术有限公司
发明人：	严敏; 林文荟; 杨华; 刘志程
地址：	211100 江苏省南京市江宁经济开发区将军大道100号
优先权：
专利代理机构：	江苏银创律师事务所 32242	代理人：	孙计良
PDF下载：	PDF下载

内容摘要

本发明公开了一种论文查重的方法。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，则待查文章在文本库中内容有重复。本发明的论文查重的方法判重速率和响应速度快，通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。

权利要求书

1. 一种论文查重的方法，其特征在于，包括以下步骤：
S1：对文本库中的原文进行分句，并计算原文每个分句的指纹；
S2：对待查文章进行分句，并计算待查文章每个分句的指纹；
S3：通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置；
S4：根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复；其中M为预先设定的常量。

2. 如权利要求1所述的论文查重的方法，其特征在于，还包括构建分句指纹库的步骤；所述构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库；所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。

说明书

一种论文查重的方法
技术领域
本发明涉及论文查重的技术。
背景技术
目前论文查重方法主要有三种：基于字符串匹配的方法，基于文档指纹的方法和基于语义知识的方法。
基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法，找出待检测文档与数据库中的文档相匹配的字符串数目，随后利用相似性计算公式求出结果。这种方法对字符串的选取要求很高，同时字符串匹配算法的时间复杂度较高，需要较大的资源开销和较长的计算时间。
基于文档指纹的方法通过将代表文档语义的文本作为“指纹”，通过比较“指纹”从而达到判别抄袭的目的。在选取“指纹”的过程中可能受到文章的层次结构的影响而造成漏判。
基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。该方法依赖于自然语言相似性的计算，由于中文语言的复杂性，基于语义知识的判断结果正确性很难得到保证。
针对目前的查重技术，如果论文作者在同一段落，尽可能多的选择多篇文献，从每篇参考文献中摘取部分子句到同一段落，不会被论文查重系统快速检测出来。
发明内容
本发明所要解决的问题：如果论文作者选择多篇文献，从每篇参考文献中摘取部分子句，则不会被目前的论文查重系统快速检测出来。
为解决上述问题，本发明采用的方案如下：
一种论文查重的方法，包括以下步骤：
S1：对文本库中的原文进行分句，并计算原文每个分句的指纹；
S2：对待查文章进行分句，并计算待查文章每个分句的指纹；
S3：通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置；
S4：根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复；其中M为预先设定的常量。
进一步，根据本发明的论文查重的方法，还包括构建分句指纹库的步骤；所述构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库；所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。
本发明的技术效果如下：
1. 本发明通过指纹对比，计算开销低，判重速率快，响应速度快。
2. 精确到分句的判别方法，可以更加准确地对抄袭的现象进行判别。
3. 可以精确还原被抄袭的段落及子句内容，为论文查重提供有力证据。
4. 可以从多个原始论文中多处摘抄中找出摘抄的原始论文。
附图说明
图1本发明论文查重方法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，则待查文章在文本库中内容有重复。如图1所示，包括步骤：
S1：计算文本库中原文各个分句的指纹；
S2：计算待查文章的各个分句的指纹；
S3：找出重复分句和重复分句在原文中的位置；
S4：判断重复分句在原文中的间隔是否小于M。
这里的原文是指文本库中的文献文本。步骤S1和S2中计算指纹的过程实际上包含了两个步骤：对文本进行分句的步骤和计算分句指纹的步骤。对文本进行分句的步骤是指将文本根据分割符进行分割成多个句子的过程。分割符可以是句号、感叹号、问号、分号、分段符等等。文本分割后得到的句子称为分句。文本所有的分句按顺序组合后成文原始文本。计算分句指纹的步骤是采用哈希函数对分句进行运算的过程。这里的哈希函数是指单向散列函数，比如MD5、SHA-1、SHA-2、SHA-3等等。通过采用哈希函数对分句进行运算后得到分句的哈希值，该哈希值即可作为该分句的指纹。
图1中的整体过程是本发明的一实施例。更为通常的情形，步骤S1从属于初始化的步骤。该初始化的步骤又可以称为构建分句指纹库的步骤。构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库。分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。有了初始化的构建分句指纹库的步骤后，当需要对某待查文章进行查重时，只需要执行步骤S2、S3和S4即可。分句指纹库可以通过数据库保存，也可以通过内存保存。当分句指纹库采用数据库保存时，可以采用独立的数据库保存，也可以将每个原文的分句指纹信息作为文本的属性保存至文本库内。
步骤S3是通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置。步骤S4是根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复。其中M为预先设定的常量，可以是2或3或5。步骤S3和步骤S4是连续的过程，即，步骤S3的输出直接作为步骤S4判重的输入依据。步骤S3和S4有两种实施方式：第一种实施方式是对文本库中各个原文逐个与待查文章比较分句的指纹，这种实施方式如图1所示，当一个原文判重结束后执行下一个原文的判重。第二种实施方式是首先在步骤S3中找出在文本库中所有的与待查文章分句指纹相同的分句，然后在步骤S4中一次性地找出符合“重复分句在原文中的间隔小于M”条件的各个原文。其中第一种实施方式适用于前述的“每个原文的分句指纹信息作为文本的属性保存至文本库内”和 “未构建分句指纹库”的情形，第二种实施方式适用于前述的“分句指纹库采用独立的数据库保存”和“通过内存保存分句指纹库”的情形。本发明优先第二种实施方式。需要说明的是，根据本发明的方法，找到的与待查文章具有相同内容的原文可能有多个。
下面用具体的数据演示说明本发明的过程。设文本库中的文本为：P₁，P₂，P₃，...，P_n。待查文章的文本为R。文本库中的各个文本拆分分句后如下：
P₁={ P_1,1，P_1,2，P_1,3，...，P_1,m1 }；
P₂={ P_2,1，P_2,2，P_2,3，...，P_2,m2 }；
P₃={ P_3,1，P_3,2，P_3,3，...，P_3,m3 }；
P_n={ P_n,1，P_n,2，P_n,3，...，P_n,mn }。
上述m1，m2，m3，...，mn分别为文本P₁，P₂，P₃，...，P_n的分句数。经计算指纹后得到各个文本的指纹如下所示：
P₁={ h_1,1，h_1,2，h_1,3，...，h_1,m1 }；
P₂={ h_2,1，h_2,2，h_2,3，...，h_2,m2 }；
P₃={ h_3,1，h_3,2，h_3,3，...，h_3,m3 }；
P_n={ h_n,1，h_n,2，h_n,3，...，h_n,mn }。
分句指纹库，文本库中各个原文的分句的指纹和分句的位置对应关系表如下所示：
{ P₁，h_1,1，1}，
{ P₁，h_1,2，2}，
{ P₁，h_1,3，3}，
{ P₁，h_1,m1，m1}，
{ P₂，h_2,1，1}，
{ P_n，h_n,mn，mn}。
待查文章的文本R的各个分句为：R={ S₁，S₂，S₃，...，S_R }。计算待查文章的各个分句指纹为：{ k₁，k₂，k₃，...，k_R }。经步骤S3得到重复分句序列为：{ S₂，P₁，3}，{ S₃，P₁，4}，{ S₄，P₂，6}，{ S₈，P₂，8}，{ S₉，P₁，7}。上述重复分句序列{}结构中，第一个是待查文章的分句序号，第二个为文本库中原文的ID，第三个为原文中分句的序号。上述重复分句中，分句S₂和S₃在原文P₁中的间隔为1，分句S₃和S₉在原文P₁中的间隔为3，分句S₄和S₈在原文P₂中的间隔为2。假设M为2，则原文P₁与文本R具有相同内容。假如M选3，则原文P₁和P₂均与文本R具有相同内容。

资源描述

《一种论文查重的方法.pdf》由会员分享，可在线阅读，更多相关《一种论文查重的方法.pdf（6页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104050299A43申请公布日20140917CN104050299A21申请号201410319183322申请日20140707G06F17/3020060171申请人江苏金智教育信息技术有限公司地址211100江苏省南京市江宁经济开发区将军大道100号72发明人严敏林文荟杨华刘志程74专利代理机构江苏银创律师事务所32242代理人孙计良54发明名称一种论文查重的方法57摘要本发明公开了一种论文查重的方法。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，。

2、则待查文章在文本库中内容有重复。本发明的论文查重的方法判重速率和响应速度快，通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。51INTCL权利要求书1页说明书3页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书3页附图1页10申请公布号CN104050299ACN104050299A1/1页21一种论文查重的方法，其特征在于，包括以下步骤S1对文本库中的原文进行分句，并计算原文每个分句的指纹；S2对待查文章进行分句，并计算待查文章每个分句的指纹；S3通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分。

3、句和分句的位置，得到重复分句和重复分句在原文中的位置；S4根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复；其中M为预先设定的常量。2如权利要求1所述的论文查重的方法，其特征在于，还包括构建分句指纹库的步骤；所述构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库；所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。权利要求书CN104050299A1/3页3一种论文查重的方法技术领域0001本发明涉及论文查重的技术。背景技术0002目前论文查重方法主要。

4、有三种基于字符串匹配的方法，基于文档指纹的方法和基于语义知识的方法。0003基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法，找出待检测文档与数据库中的文档相匹配的字符串数目，随后利用相似性计算公式求出结果。这种方法对字符串的选取要求很高，同时字符串匹配算法的时间复杂度较高，需要较大的资源开销和较长的计算时间。0004基于文档指纹的方法通过将代表文档语义的文本作为“指纹”，通过比较“指纹”从而达到判别抄袭的目的。在选取“指纹”的过程中可能受到文章的层次结构的影响而造成漏判。0005基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。

5、。该方法依赖于自然语言相似性的计算，由于中文语言的复杂性，基于语义知识的判断结果正确性很难得到保证。0006针对目前的查重技术，如果论文作者在同一段落，尽可能多的选择多篇文献，从每篇参考文献中摘取部分子句到同一段落，不会被论文查重系统快速检测出来。发明内容0007本发明所要解决的问题如果论文作者选择多篇文献，从每篇参考文献中摘取部分子句，则不会被目前的论文查重系统快速检测出来。0008为解决上述问题，本发明采用的方案如下一种论文查重的方法，包括以下步骤S1对文本库中的原文进行分句，并计算原文每个分句的指纹；S2对待查文章进行分句，并计算待查文章每个分句的指纹；S3通过待查文章各个分句的指纹与原。

6、文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置；S4根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复；其中M为预先设定的常量。0009进一步，根据本发明的论文查重的方法，还包括构建分句指纹库的步骤；所述构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库；所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。说明书CN104050299A2/3页40010本发明的技术效果如下1本发明通。

7、过指纹对比，计算开销低，判重速率快，响应速度快。00112精确到分句的判别方法，可以更加准确地对抄袭的现象进行判别。00123可以精确还原被抄袭的段落及子句内容，为论文查重提供有力证据。00134可以从多个原始论文中多处摘抄中找出摘抄的原始论文。附图说明0014图1本发明论文查重方法的流程图。具体实施方式0015下面结合附图对本发明做进一步详细说明。0016本发明通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，则待查文章在文本库中内容有重复。如图1所示，包括步骤S1计算文本库中原文各个。

8、分句的指纹；S2计算待查文章的各个分句的指纹；S3找出重复分句和重复分句在原文中的位置；S4判断重复分句在原文中的间隔是否小于M。0017这里的原文是指文本库中的文献文本。步骤S1和S2中计算指纹的过程实际上包含了两个步骤对文本进行分句的步骤和计算分句指纹的步骤。对文本进行分句的步骤是指将文本根据分割符进行分割成多个句子的过程。分割符可以是句号、感叹号、问号、分号、分段符等等。文本分割后得到的句子称为分句。文本所有的分句按顺序组合后成文原始文本。计算分句指纹的步骤是采用哈希函数对分句进行运算的过程。这里的哈希函数是指单向散列函数，比如MD5、SHA1、SHA2、SHA3等等。通过采用哈希函数对。

9、分句进行运算后得到分句的哈希值，该哈希值即可作为该分句的指纹。0018图1中的整体过程是本发明的一实施例。更为通常的情形，步骤S1从属于初始化的步骤。该初始化的步骤又可以称为构建分句指纹库的步骤。构建分句指纹库的步骤为对文本库中各个原文进行分句，并计算各个原文每个分句的指纹得到分句指纹库。分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。有了初始化的构建分句指纹库的步骤后，当需要对某待查文章进行查重时，只需要执行步骤S2、S3和S4即可。分句指纹库可以通过数据库保存，也可以通过内存保存。当分句指纹库采用数据库保存时，可以采用独立的数据库保存，也可以将每个原文的分句指纹信息作为。

10、文本的属性保存至文本库内。0019步骤S3是通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置。步骤S4是根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复。其中M为预先设定的常量，可以是2或3或5。步骤S3和步骤S4是连续的过程，即，步骤S3的输出直接作为步骤S4判重的输入依据。步骤S3和S4有两种实施方式第一种实施方式是对文说明书CN104050299A3/3页5本库中各个原文逐个与待查文章比较分句的指纹，这种实施方。

11、式如图1所示，当一个原文判重结束后执行下一个原文的判重。第二种实施方式是首先在步骤S3中找出在文本库中所有的与待查文章分句指纹相同的分句，然后在步骤S4中一次性地找出符合“重复分句在原文中的间隔小于M”条件的各个原文。其中第一种实施方式适用于前述的“每个原文的分句指纹信息作为文本的属性保存至文本库内”和“未构建分句指纹库”的情形，第二种实施方式适用于前述的“分句指纹库采用独立的数据库保存”和“通过内存保存分句指纹库”的情形。本发明优先第二种实施方式。需要说明的是，根据本发明的方法，找到的与待查文章具有相同内容的原文可能有多个。0020下面用具体的数据演示说明本发明的过程。设文本库中的文本为P1。

12、，P2，P3，PN。待查文章的文本为R。文本库中的各个文本拆分分句后如下P1P1,1，P1,2，P1,3，P1,M1；P2P2,1，P2,2，P2,3，P2,M2；P3P3,1，P3,2，P3,3，P3,M3；PNPN,1，PN,2，PN,3，PN,MN。0021上述M1，M2，M3，MN分别为文本P1，P2，P3，PN的分句数。经计算指纹后得到各个文本的指纹如下所示P1H1,1，H1,2，H1,3，H1,M1；P2H2,1，H2,2，H2,3，H2,M2；P3H3,1，H3,2，H3,3，H3,M3；PNHN,1，HN,2，HN,3，HN,MN。0022分句指纹库，文本库中各个原文的分句的指。

13、纹和分句的位置对应关系表如下所示P1，H1,1，1，P1，H1,2，2，P1，H1,3，3，P1，H1,M1，M1，P2，H2,1，1，PN，HN,MN，MN。0023待查文章的文本R的各个分句为RS1，S2，S3，SR。计算待查文章的各个分句指纹为K1，K2，K3，KR。经步骤S3得到重复分句序列为S2，P1，3，S3，P1，4，S4，P2，6，S8，P2，8，S9，P1，7。上述重复分句序列结构中，第一个是待查文章的分句序号，第二个为文本库中原文的ID，第三个为原文中分句的序号。上述重复分句中，分句S2和S3在原文P1中的间隔为1，分句S3和S9在原文P1中的间隔为3，分句S4和S8在原文P2中的间隔为2。假设M为2，则原文P1与文本R具有相同内容。假如M选3，则原文P1和P2均与文本R具有相同内容。说明书CN104050299A1/1页6图1说明书附图CN104050299A。

展开阅读全文