一种防抄袭方法 【技术领域】
本发明涉及一种文件内容识别技术, 具体说, 涉及一种防抄袭方法。背景技术 随着 Internet 的普及, 人们在解决事情的时候都会在第一时间上网查询。为了对 付这种抄袭, 很多网站也是想尽了各种办法。 常见的就是用网页脚本来禁止鼠标右键, 右键 菜单没有了就找不到 “复制” 这个命令了。这种手段, 破解起来也是容易的, 例如, 用键盘快 捷键 Ctrl+C 就行 ; 或者, 同时按下鼠标左右键, 然后用左键点掉对话框 ; 或者, 直接查看网 页源文件。
同样的问题也会出现在出版业, 抄袭成了目前最大的问题, 很多作者在写书的时 候为了省事, 直接使用网上查询到的内容, 这种行为往往侵犯了作者的著作权, 但是, 现有 技术没有办法来鉴定和防止这种抄袭行为。
发明内容
本发明所解决的技术问题是提供一种防抄袭方法, 解决了对文章内容的抄袭识别问题。 技术方案如下 :
一种防抄袭方法, 包括 :
输入检测文件, 从所述检测文件中提取出关键字 ;
调用搜索引擎对所述关键字进行搜索, 调取搜索结果页面的源文件, 获得所述关 键字的匹配结果, 得出所述关键字的匹配率 ;
当所述匹配率和预设置匹配率相符时, 按照设定标记方式对所述待检测文件中和 所述关键字相符的内容进行标记处理。
进一步 : 将所述待检测文件的格式转换为文本格式, 对所述文本格式的待检测文 件进行断句或者分段处理, 将断句或者分段处理后的内容作为关键字。
进一步 : 所述设定标记方式选用调整字体大小、 字体加粗、 字体加下划线或者字体 更换颜色。
进一步 : 当所述匹配率大于 50%时, 对所述待检测文件中和所述关键字相同的内 容按照第一预设定颜色进行标记 ; 当所述匹配率在 50%~ 30%时, 对所述待检测文件中和 所述关键字相同的内容内容按照第二预设定颜色进行标记。
进一步 : 所述待检测文件是一个完整的 word 文档或者是 word 文档中的一段文字。
进一步 : 得到内容搜索结果匹配率后, 根据预设置匹配率及字体颜色设定, 在 word 文档中对所述关键字进行标记处理, 此时, 调用 word 软件提供的接口, 对所述 word 文 档中的关键字进行标记处理。
进一步 : 判断当前正在检测的所述待检测文件的内容是否全部检索完成 ; 当所述 待检测文件没有全部检索完成时, 调用所述搜索引擎利用所述关键字对所述待检测文件的
剩余内容进行检测 ; 当所述待检测文件检测完成, 保存并关闭所述待检测文件。
进一步 : 所述匹配率等于关键字的匹配结果字数 *100/ 关键字的字数%。
本发明技术方案带来的技术效果包括 :
本发明解决了对文章内容的抄袭识别问题, 只需要输入文章内容, 就能在短时间 内分辨出哪些是网上已经存在的内容, 哪些是作者自己的内容。 附图说明
图 1 是本发明的主流程图 ; 图 2 是本发明中利用搜索引擎百度进行搜索的结果示意图 ; 图 3 是本发明中调取百度搜索结果源文件的示意图 ; 图 4 是本发明中标记后的文档示意图。具体实施方式
本发明采用获取搜索引擎的源文件, 并通过源文件来获取搜索关键字的匹配结 果, 进而通过匹配率来识别文字内容是否被抄袭。 源文件是指源代码的集合, 源代码则是一 组具有特定意义的可以实现特定功能的字符 ( 程序开发代码 )。 下面参考附图和优选实施例, 对本发明的技术方案作详细描述。
如图 1 所示, 是本发明的主流程图。
步骤 101 : 输入待检测文件, 文件格式选用 word 格式 ;
待检测文件可以是一个完整的 word 文档, 也可以是 word 文档中的某段文字。
步骤 102 : 文件格式转换, 将 word 格式文件转换为文本格式 (txt 格式文件 ) ;
转文本的目的主要是为了方便处理文字, 直接对 WORD 内容进行按句处理效率会 很低, 转换成纯文本后, 方便后续断句处理。
步骤 103 : 对 txt 格式文件进行断句或者分段处理, 断句或者分段处理后的内容作 为搜索的关键字 ;
步骤 104 : 利用搜索引擎, 将断句或者分段处理后的后的 txt 格式文件的内容作为 关键字进行搜索 ; 如果有搜索结果则进行步骤 105, 否则结束分析 ;
本发明技术方案适用于任意一种搜索引擎, 例如, 将 txt 格式文件内容方到百度 (http://www.baidu.com) 中去搜索。
如图 2 所示, 是本发明利用搜索引擎百度进行搜索的结果示意图。在百度进行搜 索时, 匹配率高的搜索结果会排在前面, 同时, 内容中的关键字会作标记, 匹配到的关键字 标记为红色。
步骤 S105 : 解析搜索结果 ; 如果搜索到的内容有标记则进行步骤 S106, 做进一步 分析, 否则进行步骤 S108 ;
步骤 S106 : 计算匹配率 ;
如图 3 所示, 是本发明中调取百度搜索结果源文件的示意图。从中可以看到搜索 的关键字。
对断句后的 txt 格式文件, 按句在网络中查询, 对于查询的结果通过提取关键字, 再用正则表达式
(.* ? ) 可获取到搜索关键字的匹配结果, 此时计算匹配率。
调取搜索结果页面的 html 源文件, 分析结果页面的 html 源文件可以发现, 用
标记部分为关键字, 基于此, 通过正则表达式
(.* ? ) 可获取到搜索关 键词的匹配结果。
计算关键词的匹配率 :
匹配率=关键字的匹配结果字数 *100/ 关键字的字数%。
步骤 S107 : 判断关键字的匹配率 ; 当匹配率大于 50%时, 对 word 文档中和关键字 相同的内容按照第一预设定颜色进行标记 ;
步骤 S108 : 在 word 文档中, 对匹配率在 50%~ 30%的和关键字相同的内容内容 按照第二预设定颜色进行标记 ;
计算出内容搜索结果匹配率后, 根据预设置匹配率及字体颜色设定, 需要在 word 文档中对关键字进行标记处理, 此时, 调用 word 软件提供的接口, 对 word 文档中的关键字 进行标记处理。匹配率及颜色设定可自定义。对 word 文档的标记也可以采用其他方式, 例 如调整字体大小、 加粗、 加下划线等方式。
如图 4 所示, 是本发明中标记后的文档示意图。从图中可以看出, 相关的关键字进 行了标记处理。
步骤 S109 : 判断当前正在检测的 word 文档的内容是否全部检索完成 ; 当还有需要 检索的内容时, 即当前正在检测的 word 文档没有全部检索完成, 进行步骤 S104 ; 如果当前 正在检测的 word 文档的内容全部检索完成, 进行步骤 S110 ;
步骤 S110 : 保存并关闭 word 文档 ;
当检索完成, 就完成了对 word 文档全文的标记, 即已经根据预设置匹配率及颜色 对 word 文档全文进行了标记。
步骤 S111 : 生成报表, 处理完成。
报表是根据被标记的文字生成的, 通过报表可以直观看出 word 文档中哪些内容 是抄袭的, 哪些内容有抄袭可能, 哪些是作者自己的内容。