一种防抄袭方法.pdf

摘要
申请专利号：	CN201010506555.5	申请日：	2010.10.14
公开号：	CN101957809A	公开日：	2011.01.26
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/21申请公布日:20110126\|\|\|实质审查的生效IPC(主分类):G06F 17/21申请日:20101014\|\|\|公开
IPC分类号：	G06F17/21; G06F17/30	主分类号：	G06F17/21
申请人：	传神联合（北京）信息技术有限公司
发明人：	江潮
地址：	100085 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间
优先权：
专利代理机构：	北京康盛知识产权代理有限公司 11331	代理人：	张良
PDF下载：	PDF下载

内容摘要

本发明公开了一种防抄袭方法，包括：输入检测文件，从所述检测文件中提取出关键字；调用搜索引擎对所述关键字进行搜索，调取搜索结果页面的源文件，获得所述关键字的匹配结果，得出所述关键字的匹配率；当所述匹配率和预设置匹配率相符时，按照设定标记方式对所述待检测文件中和所述关键字相符的内容进行标记处理。本发明解决了对文章内容的抄袭识别问题，只需要输入文章内容，就能在短时间内分辨出哪些是网上已经存在的内容，哪些是作者自己的内容。

权利要求书

1：一种防抄袭方法，包括：输入检测文件，从所述检测文件中提取出关键字；调用搜索引擎对所述关键字进行搜索，调取搜索结果页面的源文件，获得所述关键字的匹配结果，得出所述关键字的匹配率；当所述匹配率和预设置匹配率相符时，按照设定标记方式对所述待检测文件中和所述关键字相符的内容进行标记处理。
2：如权利要求 1 所述的防抄袭方法，其特征在于：将所述待检测文件的格式转换为文本格式，对所述文本格式的待检测文件进行断句或者分段处理，将断句或者分段处理后的内容作为关键字。
3：如权利要求 1 或者 2 所述的防抄袭方法，其特征在于：所述设定标记方式选用调整字体大小、字体加粗、字体加下划线或者字体更换颜色。
4：如权利要求 1 或者 2 所述的防抄袭方法，其特征在于：当所述匹配率大于 50％时，对所述待检测文件中和所述关键字相同的内容按照第一预设定颜色进行标记；当所述匹配率在 50％～ 30％时，对所述待检测文件中和所述关键字相同的内容内容按照第二预设定颜色进行标记。
5：如权利要求 1 或者 2 所述的防抄袭方法，其特征在于：所述待检测文件是一个完整的 word 文档或者是 word 文档中的一段文字。
6：如权利要求 5 所述的防抄袭方法，其特征在于：得到内容搜索结果匹配率后，根据预设置匹配率及字体颜色设定，在 word 文档中对所述关键字进行标记处理，此时，调用 word 软件提供的接口，对所述 word 文档中的关键字进行标记处理。
7：如权利要求 1 或者 2 所述的防抄袭方法，其特征在于：判断当前正在检测的所述待检测文件的内容是否全部检索完成；当所述待检测文件没有全部检索完成时，调用所述搜索引擎利用所述关键字对所述待检测文件的剩余内容进行检测；当所述待检测文件检测完成，保存并关闭所述待检测文件。
8：如权利要求 1 所述的防抄袭方法，其特征在于：所述匹配率等于关键字的匹配结果字数 *100/ 关键字的字数％。

说明书

一种防抄袭方法
    【技术领域】
     本发明涉及一种文件内容识别技术，具体说，涉及一种防抄袭方法。背景技术随着 Internet 的普及，人们在解决事情的时候都会在第一时间上网查询。为了对付这种抄袭，很多网站也是想尽了各种办法。常见的就是用网页脚本来禁止鼠标右键，右键菜单没有了就找不到 “复制” 这个命令了。这种手段，破解起来也是容易的，例如，用键盘快捷键 Ctrl+C 就行；或者，同时按下鼠标左右键，然后用左键点掉对话框；或者，直接查看网页源文件。
     同样的问题也会出现在出版业，抄袭成了目前最大的问题，很多作者在写书的时候为了省事，直接使用网上查询到的内容，这种行为往往侵犯了作者的著作权，但是，现有技术没有办法来鉴定和防止这种抄袭行为。
     发明内容
     本发明所解决的技术问题是提供一种防抄袭方法，解决了对文章内容的抄袭识别问题。技术方案如下：
     一种防抄袭方法，包括：
     输入检测文件，从所述检测文件中提取出关键字；
     调用搜索引擎对所述关键字进行搜索，调取搜索结果页面的源文件，获得所述关键字的匹配结果，得出所述关键字的匹配率；
     当所述匹配率和预设置匹配率相符时，按照设定标记方式对所述待检测文件中和所述关键字相符的内容进行标记处理。
     进一步：将所述待检测文件的格式转换为文本格式，对所述文本格式的待检测文件进行断句或者分段处理，将断句或者分段处理后的内容作为关键字。
     进一步：所述设定标记方式选用调整字体大小、字体加粗、字体加下划线或者字体更换颜色。
     进一步：当所述匹配率大于 50％时，对所述待检测文件中和所述关键字相同的内容按照第一预设定颜色进行标记；当所述匹配率在 50％～ 30％时，对所述待检测文件中和所述关键字相同的内容内容按照第二预设定颜色进行标记。
     进一步：所述待检测文件是一个完整的 word 文档或者是 word 文档中的一段文字。
     进一步：得到内容搜索结果匹配率后，根据预设置匹配率及字体颜色设定，在 word 文档中对所述关键字进行标记处理，此时，调用 word 软件提供的接口，对所述 word 文档中的关键字进行标记处理。
     进一步：判断当前正在检测的所述待检测文件的内容是否全部检索完成；当所述待检测文件没有全部检索完成时，调用所述搜索引擎利用所述关键字对所述待检测文件的
     剩余内容进行检测；当所述待检测文件检测完成，保存并关闭所述待检测文件。
     进一步：所述匹配率等于关键字的匹配结果字数 *100/ 关键字的字数％。
     本发明技术方案带来的技术效果包括：
     本发明解决了对文章内容的抄袭识别问题，只需要输入文章内容，就能在短时间内分辨出哪些是网上已经存在的内容，哪些是作者自己的内容。附图说明
     图 1 是本发明的主流程图；图 2 是本发明中利用搜索引擎百度进行搜索的结果示意图；图 3 是本发明中调取百度搜索结果源文件的示意图；图 4 是本发明中标记后的文档示意图。具体实施方式
     本发明采用获取搜索引擎的源文件，并通过源文件来获取搜索关键字的匹配结果，进而通过匹配率来识别文字内容是否被抄袭。源文件是指源代码的集合，源代码则是一组具有特定意义的可以实现特定功能的字符 ( 程序开发代码 )。下面参考附图和优选实施例，对本发明的技术方案作详细描述。
     如图 1 所示，是本发明的主流程图。
     步骤 101 ：输入待检测文件，文件格式选用 word 格式；
     待检测文件可以是一个完整的 word 文档，也可以是 word 文档中的某段文字。
     步骤 102 ：文件格式转换，将 word 格式文件转换为文本格式 (txt 格式文件 ) ；
     转文本的目的主要是为了方便处理文字，直接对 WORD 内容进行按句处理效率会很低，转换成纯文本后，方便后续断句处理。
     步骤 103 ：对 txt 格式文件进行断句或者分段处理，断句或者分段处理后的内容作为搜索的关键字；
     步骤 104 ：利用搜索引擎，将断句或者分段处理后的后的 txt 格式文件的内容作为关键字进行搜索；如果有搜索结果则进行步骤 105，否则结束分析；
     本发明技术方案适用于任意一种搜索引擎，例如，将 txt 格式文件内容方到百度 (http://www.baidu.com) 中去搜索。
     如图 2 所示，是本发明利用搜索引擎百度进行搜索的结果示意图。在百度进行搜索时，匹配率高的搜索结果会排在前面，同时，内容中的关键字会作标记，匹配到的关键字标记为红色。
     步骤 S105 ：解析搜索结果；如果搜索到的内容有标记则进行步骤 S106，做进一步分析，否则进行步骤 S108 ；
     步骤 S106 ：计算匹配率；
     如图 3 所示，是本发明中调取百度搜索结果源文件的示意图。从中可以看到搜索的关键字。
     对断句后的 txt 格式文件，按句在网络中查询，对于查询的结果通过提取关键字，再用正则表达式 (.* ？ ) 可获取到搜索关键字的匹配结果，此时计算匹配率。
     调取搜索结果页面的 html 源文件，分析结果页面的 html 源文件可以发现，用标记部分为关键字，基于此，通过正则表达式 (.* ？ ) 可获取到搜索关键词的匹配结果。
     计算关键词的匹配率：
     匹配率＝关键字的匹配结果字数 *100/ 关键字的字数％。
     步骤 S107 ：判断关键字的匹配率；当匹配率大于 50％时，对 word 文档中和关键字相同的内容按照第一预设定颜色进行标记；
     步骤 S108 ：在 word 文档中，对匹配率在 50％～ 30％的和关键字相同的内容内容按照第二预设定颜色进行标记；
     计算出内容搜索结果匹配率后，根据预设置匹配率及字体颜色设定，需要在 word 文档中对关键字进行标记处理，此时，调用 word 软件提供的接口，对 word 文档中的关键字进行标记处理。匹配率及颜色设定可自定义。对 word 文档的标记也可以采用其他方式，例如调整字体大小、加粗、加下划线等方式。
     如图 4 所示，是本发明中标记后的文档示意图。从图中可以看出，相关的关键字进行了标记处理。
     步骤 S109 ：判断当前正在检测的 word 文档的内容是否全部检索完成；当还有需要检索的内容时，即当前正在检测的 word 文档没有全部检索完成，进行步骤 S104 ；如果当前正在检测的 word 文档的内容全部检索完成，进行步骤 S110 ；
     步骤 S110 ：保存并关闭 word 文档；
     当检索完成，就完成了对 word 文档全文的标记，即已经根据预设置匹配率及颜色对 word 文档全文进行了标记。
     步骤 S111 ：生成报表，处理完成。
     报表是根据被标记的文字生成的，通过报表可以直观看出 word 文档中哪些内容是抄袭的，哪些内容有抄袭可能，哪些是作者自己的内容。

资源描述

《一种防抄袭方法.pdf》由会员分享，可在线阅读，更多相关《一种防抄袭方法.pdf（8页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN101957809A43申请公布日20110126CN101957809ACN101957809A21申请号201010506555522申请日20101014G06F17/21200601G06F17/3020060171申请人传神联合（北京）信息技术有限公司地址100085北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间72发明人江潮74专利代理机构北京康盛知识产权代理有限公司11331代理人张良54发明名称一种防抄袭方法57摘要本发明公开了一种防抄袭方法，包括输入检测文件，从所述检测文件中提取出关键字；调用搜索引擎对所述关键字进行搜索，调取搜索结果。

2、页面的源文件，获得所述关键字的匹配结果，得出所述关键字的匹配率；当所述匹配率和预设置匹配率相符时，按照设定标记方式对所述待检测文件中和所述关键字相符的内容进行标记处理。本发明解决了对文章内容的抄袭识别问题，只需要输入文章内容，就能在短时间内分辨出哪些是网上已经存在的内容，哪些是作者自己的内容。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书3页附图3页CN101957810A1/1页21一种防抄袭方法，包括输入检测文件，从所述检测文件中提取出关键字；调用搜索引擎对所述关键字进行搜索，调取搜索结果页面的源文件，获得所述关键字的匹配结果，得出所述关键字的匹配率；当。

3、所述匹配率和预设置匹配率相符时，按照设定标记方式对所述待检测文件中和所述关键字相符的内容进行标记处理。2如权利要求1所述的防抄袭方法，其特征在于将所述待检测文件的格式转换为文本格式，对所述文本格式的待检测文件进行断句或者分段处理，将断句或者分段处理后的内容作为关键字。3如权利要求1或者2所述的防抄袭方法，其特征在于所述设定标记方式选用调整字体大小、字体加粗、字体加下划线或者字体更换颜色。4如权利要求1或者2所述的防抄袭方法，其特征在于当所述匹配率大于50时，对所述待检测文件中和所述关键字相同的内容按照第一预设定颜色进行标记；当所述匹配率在5030时，对所述待检测文件中和所述关键字相同的内容内容。

4、按照第二预设定颜色进行标记。5如权利要求1或者2所述的防抄袭方法，其特征在于所述待检测文件是一个完整的WORD文档或者是WORD文档中的一段文字。6如权利要求5所述的防抄袭方法，其特征在于得到内容搜索结果匹配率后，根据预设置匹配率及字体颜色设定，在WORD文档中对所述关键字进行标记处理，此时，调用WORD软件提供的接口，对所述WORD文档中的关键字进行标记处理。7如权利要求1或者2所述的防抄袭方法，其特征在于判断当前正在检测的所述待检测文件的内容是否全部检索完成；当所述待检测文件没有全部检索完成时，调用所述搜索引擎利用所述关键字对所述待检测文件的剩余内容进行检测；当所述待检测文件检测完成，保存。

5、并关闭所述待检测文件。8如权利要求1所述的防抄袭方法，其特征在于所述匹配率等于关键字的匹配结果字数100/关键字的字数。权利要求书CN101957809ACN101957810A1/3页3一种防抄袭方法技术领域0001本发明涉及一种文件内容识别技术，具体说，涉及一种防抄袭方法。背景技术0002随着INTERNET的普及，人们在解决事情的时候都会在第一时间上网查询。为了对付这种抄袭，很多网站也是想尽了各种办法。常见的就是用网页脚本来禁止鼠标右键，右键菜单没有了就找不到“复制”这个命令了。这种手段，破解起来也是容易的，例如，用键盘快捷键CTRLC就行；或者，同时按下鼠标左右键，然后用左键点掉对话框。

6、；或者，直接查看网页源文件。0003同样的问题也会出现在出版业，抄袭成了目前最大的问题，很多作者在写书的时候为了省事，直接使用网上查询到的内容，这种行为往往侵犯了作者的著作权，但是，现有技术没有办法来鉴定和防止这种抄袭行为。发明内容0004本发明所解决的技术问题是提供一种防抄袭方法，解决了对文章内容的抄袭识别问题。0005技术方案如下0006一种防抄袭方法，包括0007输入检测文件，从所述检测文件中提取出关键字；0008调用搜索引擎对所述关键字进行搜索，调取搜索结果页面的源文件，获得所述关键字的匹配结果，得出所述关键字的匹配率；0009当所述匹配率和预设置匹配率相符时，按照设定标记方式对所述待。

7、检测文件中和所述关键字相符的内容进行标记处理。0010进一步将所述待检测文件的格式转换为文本格式，对所述文本格式的待检测文件进行断句或者分段处理，将断句或者分段处理后的内容作为关键字。0011进一步所述设定标记方式选用调整字体大小、字体加粗、字体加下划线或者字体更换颜色。0012进一步当所述匹配率大于50时，对所述待检测文件中和所述关键字相同的内容按照第一预设定颜色进行标记；当所述匹配率在5030时，对所述待检测文件中和所述关键字相同的内容内容按照第二预设定颜色进行标记。0013进一步所述待检测文件是一个完整的WORD文档或者是WORD文档中的一段文字。0014进一步得到内容搜索结果匹配率后，。

8、根据预设置匹配率及字体颜色设定，在WORD文档中对所述关键字进行标记处理，此时，调用WORD软件提供的接口，对所述WORD文档中的关键字进行标记处理。0015进一步判断当前正在检测的所述待检测文件的内容是否全部检索完成；当所述待检测文件没有全部检索完成时，调用所述搜索引擎利用所述关键字对所述待检测文件的说明书CN101957809ACN101957810A2/3页4剩余内容进行检测；当所述待检测文件检测完成，保存并关闭所述待检测文件。0016进一步所述匹配率等于关键字的匹配结果字数100/关键字的字数。0017本发明技术方案带来的技术效果包括0018本发明解决了对文章内容的抄袭识别问题，只需要。

9、输入文章内容，就能在短时间内分辨出哪些是网上已经存在的内容，哪些是作者自己的内容。附图说明0019图1是本发明的主流程图；0020图2是本发明中利用搜索引擎百度进行搜索的结果示意图；0021图3是本发明中调取百度搜索结果源文件的示意图；0022图4是本发明中标记后的文档示意图。具体实施方式0023本发明采用获取搜索引擎的源文件，并通过源文件来获取搜索关键字的匹配结果，进而通过匹配率来识别文字内容是否被抄袭。源文件是指源代码的集合，源代码则是一组具有特定意义的可以实现特定功能的字符程序开发代码。0024下面参考附图和优选实施例，对本发明的技术方案作详细描述。0025如图1所示，是本发明的主流程图。

10、。0026步骤101输入待检测文件，文件格式选用WORD格式；0027待检测文件可以是一个完整的WORD文档，也可以是WORD文档中的某段文字。0028步骤102文件格式转换，将WORD格式文件转换为文本格式TXT格式文件；0029转文本的目的主要是为了方便处理文字，直接对WORD内容进行按句处理效率会很低，转换成纯文本后，方便后续断句处理。0030步骤103对TXT格式文件进行断句或者分段处理，断句或者分段处理后的内容作为搜索的关键字；0031步骤104利用搜索引擎，将断句或者分段处理后的后的TXT格式文件的内容作为关键字进行搜索；如果有搜索结果则进行步骤105，否则结束分析；0032本发明。

11、技术方案适用于任意一种搜索引擎，例如，将TXT格式文件内容方到百度HTTP/WWWBAIDUCOM中去搜索。0033如图2所示，是本发明利用搜索引擎百度进行搜索的结果示意图。在百度进行搜索时，匹配率高的搜索结果会排在前面，同时，内容中的关键字会作标记，匹配到的关键字标记为红色。0034步骤S105解析搜索结果；如果搜索到的内容有标记则进行步骤S106，做进一步分析，否则进行步骤S108；0035步骤S106计算匹配率；0036如图3所示，是本发明中调取百度搜索结果源文件的示意图。从中可以看到搜索的关键字。0037对断句后的TXT格式文件，按句在网络中查询，对于查询的结果通过提取关键字，再用正则。

12、表达式可获取到搜索关键字的匹配结果，此时计算匹配率。说明书CN101957809ACN101957810A3/3页50038调取搜索结果页面的HTML源文件，分析结果页面的HTML源文件可以发现，用标记部分为关键字，基于此，通过正则表达式可获取到搜索关键词的匹配结果。0039计算关键词的匹配率0040匹配率关键字的匹配结果字数100/关键字的字数。0041步骤S107判断关键字的匹配率；当匹配率大于50时，对WORD文档中和关键字相同的内容按照第一预设定颜色进行标记；0042步骤S108在WORD文档中，对匹配率在5030的和关键字相同的内容内容按照第二预设定颜色进行标记；0043计算出内容搜。

13、索结果匹配率后，根据预设置匹配率及字体颜色设定，需要在WORD文档中对关键字进行标记处理，此时，调用WORD软件提供的接口，对WORD文档中的关键字进行标记处理。匹配率及颜色设定可自定义。对WORD文档的标记也可以采用其他方式，例如调整字体大小、加粗、加下划线等方式。0044如图4所示，是本发明中标记后的文档示意图。从图中可以看出，相关的关键字进行了标记处理。0045步骤S109判断当前正在检测的WORD文档的内容是否全部检索完成；当还有需要检索的内容时，即当前正在检测的WORD文档没有全部检索完成，进行步骤S104；如果当前正在检测的WORD文档的内容全部检索完成，进行步骤S110；0046步骤S110保存并关闭WORD文档；0047当检索完成，就完成了对WORD文档全文的标记，即已经根据预设置匹配率及颜色对WORD文档全文进行了标记。0048步骤S111生成报表，处理完成。0049报表是根据被标记的文字生成的，通过报表可以直观看出WORD文档中哪些内容是抄袭的，哪些内容有抄袭可能，哪些是作者自己的内容。说明书CN101957809ACN101957810A1/3页6图1说明书附图CN101957809ACN101957810A2/3页7图2图3说明书附图CN101957809ACN101957810A3/3页8图4说明书附图CN101957809A。

展开阅读全文