《一种版权资源识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种版权资源识别方法及装置.pdf(18页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103123634 A(43)申请公布日 2013.05.29CN103123634A*CN103123634A*(21)申请号 201110371888.6(22)申请日 2011.11.21G06F 17/30(2006.01)(71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层(72)发明人徐兴军 吴羡 刘婵(74)专利代理机构北京鸿德海业知识产权代理事务所(普通合伙) 11412代理人袁媛(54) 发明名称一种版权资源识别方法及装置(57) 摘要本发明提供了一种版权资源识别方法及装置,其中方法包括:S1、利用已有的版。
2、权资源和非版权资源的标题获取正样本语料和负样本语料;S2、提取正样本语料和负样本语料的分类特征,并采用机器学习训练得到各分类特征在所属类别中的权值,建立分类模型;S3、获取待识别的资源,对获取的待识别资源执行步骤S31至步骤S33:S31、利用待识别资源的标题获得待预测语料;S32、提取待预测语料的分类特征,利用建立的分类模型确定待识别资源属于版权资源或非版权资源的置信度;S33、根据得到待识别资源属于版权资源或者非版权资源的置信度,识别待识别资源是否为版权资源。本发明可以在保证准确率和召回率的同时,节约人力资源,提高效率。(51)Int.Cl.权利要求书3页 说明书11页 附图3页(19)中。
3、华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书11页 附图3页(10)申请公布号 CN 103123634 ACN 103123634 A1/3页21.一种版权资源识别方法,其特征在于,包括:S1、利用已有的版权资源的标题进行搜索获取正样本语料,并利用非版权资源的标题进行搜索获取负样本语料;S2、提取正样本语料的特征作为版权资源对应的分类特征,提取负样本语料的特征作为非版权资源对应的分类特征,并计算各分类特征在所属类别中的权值,构成分类模型;S3、获取待识别资源,对所述待识别资源执行步骤S31至步骤S33:S31、利用所述待识别资源的标题进行搜索,获得待预测语料;S32、。
4、提取待预测语料的分类特征,利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度;S33、根据所述待识别资源属于版权资源或者非版权资源的置信度,识别所述待识别资源是否为版权资源。2.根据权利要求1所述的方法,其特征在于,步骤S1中具体包括:获取已有的版权资源和非版权资源的标题;利用获取到的标题在搜索引擎中进行搜索,将利用已有的版权资源的标题搜索得到的搜索结果、已有的版权资源的标题和已有的版权资源的内容作为正样本语料;将利用已有的非版权资源的标题搜索得到的搜索结果、已有的非版权资源的标题和已有的非版权资源的内容作为负样本语料。3.根据权利要求1所述的方法,其特征在于,步骤S2中,提取。
5、正样本语料和负样本语料的特征,具体包括:对正样本语料和负样本语料进行预处理,分别得到正样本词项集合和负样本词项集合;用得到的正样本词项集合与预设的特征列表进行匹配,将匹配的词项作为正样本语料的特征;用得到的负样本词项集合与预设的特征列表进行匹配,将匹配的词项作为负样本语料的特征;所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。4.根据权利要求1所述的方法,其特征在于,所述计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频,或者各分类特征的词频-倒文档率计算的。5.根据权利要求1所述的方法,其特征在于,步骤S31中具体包括:获取所述待识别。
6、资源的标题;利用获取到的标题在搜索引擎中进行搜索,将搜索得到的搜索结果、所述待识别资源的标题和所述待识别资源的内容作为待预测语料。6.根据权利要求1所述的方法,其特征在于,步骤S32中,提取待预测语料的分类特征,具体包括:对待预测语料进行预处理,得到待预测词项集合;用得到的待预测词项集合与预设的特征列表进行匹配,将匹配的词项作为待预测语料的分类特征;所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。权 利 要 求 书CN 103123634 A2/3页37.根据权利要求1所述的方法,其特征在于,步骤S33具体为:如果所述待识别资源属于版权资源的置信度大于预设第一阈值N1,将所。
7、述待识别资源识别为版权资源;如果所述待识别资源属于版权资源的置信度小于预设第二阈值N2,将所述待识别资源识别为非版权资源,其中,0N2N11;或者,如果所述待识别资源属于非版权资源的置信度大于预设第三阈值N3,将所述待识别资源识别为非版权资源;如果所述待识别资源属于非版权资源的置信度小于预设第四阈值N4,将所述待识别资源识别为版权资源,其中,0N4N31。8.一种版权资源识别装置,其特征在于,包括:训练语料获取模块,用于利用已有的版权资源的标题进行搜索获取正样本语料,并利用非版权资源的标题进行搜索获取负样本语料;分类模型建立模块,用于提取正样本语料的特征作为版权资源对应的分类特征,提取负样本语。
8、料的特征作为非版权资源对应的分类特征,并计算各分类特征在所属类别中的权值,构成分类模型;待预测语料获取模块,用于获取待识别资源,利用所述待识别资源的标题进行搜索,获得待预测语料;置信度获取模块,用于提取待预测语料的分类特征,利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度;识别模块,用于根据所述待识别资源属于版权资源或者非版权资源的置信度,识别所述待识别资源是否为版权资源。9.根据权利要求8所述的装置,其特征在于,所述训练语料获取模块包括标题获取模块和搜索模块,所述标题获取模块用于获取已有的版权资源和非版权资源的标题;所述搜索模块用于利用标题获取模块获取的标题在搜索引擎中进行。
9、搜索,将利用已有的版权资源的标题搜索得到的搜索结果和已有的版权资源的信息作为正样本语料;将利用已有的非版权资源的标题搜索得到的搜索结果和已有的非版权资源的信息作为负样本语料。10.根据权利要求8所述的装置,其特征在于,所述分类模型建立模块提取正样本语料和负样本语料的特征时,先对语料进行预处理,用得到的词项集合与预设的特征列表进行匹配,将匹配的词项作为对应语料的特征,所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。11.根据权利要求8所述的装置,其特征在于,所述分类模型建立模块计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频,或者各分类。
10、特征的词频-倒文档率计算的。12.根据权利要求8所述的装置,其特征在于,所述待预测语料获取模块包括标题获取模块和搜索模块,所述标题获取模块用于获取所述待识别资源的标题;所述搜索模块用于利用标题获取模块获取到的标题在搜索引擎中进行搜索,将搜索得权 利 要 求 书CN 103123634 A3/3页4到的搜索结果、所述待识别资源的标题和所述待识别资源的内容作为待预测语料。13.根据权利要求8所述的装置,其特征在于,所述置信度获取模块提取待预测语料的分类特征时,先对待预测语料进行预处理,用得到的词项集合与预设的特征列表进行匹配,将匹配的词项作为待预测语料的分类特征,所述预设的特征列表包括关键字特征、。
11、领域特征以及站点特征中的至少一种。14.根据权利要求8所述的装置,其特征在于,所述识别模块如果识别到所述待识别资源属于版权资源的置信度大于预设第一阈值N1,将所述待识别资源识别为版权资源;如果识别到所述待识别资源属于版权资源的置信度小于预设第二阈值N2,将所述待识别资源识别为非版权资源;其中,0N2N11;或者,如果识别到所述待识别资源属于非版权资源的置信度大于预设第三阈值N3,将所述待识别资源识别为非版权资源;如果识别到所述待识别资源属于非版权资源的置信度小于预设第四阈值N4,将所述待识别资源识别为版权资源,其中,0N4N31。权 利 要 求 书CN 103123634 A1/11页5一种版。
12、权资源识别方法及装置【 技术领域 】0001 本发明涉及计算机技术领域,特别涉及一种版权资源识别方法及装置。【 背景技术 】0002 随着网络技术的不断发展,人们越来越习惯于利用互联网进行资源的分享和获取。一些资源分享平台,如百度贴吧、百度文库、MP3、视频、豆丁网、道客巴巴等,是供网友在线分享文档、音频、视频等资源的开放平台,用户可以自由地上传资源进行分享,也可以在平台上在线观看视频、收听歌曲,还可以在线阅览或下载关于课件、习题、考试题库、论文报告、专业资料、公函模板、法律文件、文学小说等多个领域的文档资料。开放平台上所累积的资源,均来自用户的上传,开放平台本身并不编纂或修改用户上传的资源内。
13、部实质意义,资源经由用户上传后,资源分享平台即提供该资源的分享和下载。这样的方式给网友带来了很大的便利,然而,由于平台系统并不能自动对这些资源的版权进行判断,使得资源分享平台很可能会面临版权问题。例如:如果上传的资源是具有版权的资源,则需要进一步对上传者进行验证,确定上传者是否是版权拥有者。因而,对上传的资源是否具有版权进行识别是非常有必要的。0003 现有的版权资源识别方法主要有以下三种方式:0004 1)通过人工举报或人工审核的方式,对上传的资源进行版权资源的识别。这种方式不仅耗费人力资源、效率较低、反应相对滞后,而且无法发现内容相同的其他版权资源,对于未举报的版权资源,无法进行判定。00。
14、05 2)基于题目检索的识别方式,通过获取版权资源的题目进行识别,由于不对资源正文内容进行识别,其准确率和召回率都无法得到保证,对于无法获取题目的资源,无法进行判定。0006 3)基于正文匹配的识别方式,通过获取版权资源的正文进行识别,其依赖于对正确获取正文内容,因而,资源构建难度较大,对于无法获得正文内容的资源,无法进行判定。【 发明内容 】0007 本发明提供了一种版权资源识别方法及装置,基于有限的已有资源信息,可以对任意资源定量识别其版权风险,在保证准确率和召回率的同时,节约人力资源,提高效率。0008 具体技术方案如下:0009 一种版权资源识别方法,该方法包括:0010 S1、利用已。
15、有的版权资源的标题进行搜索获取正样本语料,并利用非版权资源的标题进行搜索获取负样本语料;0011 S2、提取正样本语料的特征作为版权资源对应的分类特征,提取负样本语料的特征作为非版权资源对应的分类特征,并计算各分类特征在所属类别中的权值,构成分类模型;0012 S3、获取待识别资源,对所述待识别资源执行步骤S31至步骤S33:说 明 书CN 103123634 A2/11页60013 S31、利用所述待识别资源的标题进行搜索,获得待预测语料;0014 S32、提取待预测语料的分类特征,利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度;0015 S33、根据所述待识别资源属于版。
16、权资源或者非版权资源的置信度,识别所述待识别资源是否为版权资源。0016 根据本发明一优选实施例,步骤S1中具体包括:0017 获取已有的版权资源和非版权资源的标题;0018 利用获取到的标题在搜索引擎中进行搜索,将利用已有的版权资源的标题搜索得到的搜索结果、已有的版权资源的标题和已有的版权资源的内容作为正样本语料;将利用已有的非版权资源的标题搜索得到的搜索结果、已有的非版权资源的标题和已有的非版权资源的内容作为负样本语料。0019 根据本发明一优选实施例,步骤S2中,提取正样本语料和负样本语料的特征,具体包括:0020 对正样本语料和负样本语料进行预处理,分别得到正样本词项集合和负样本词项集。
17、合;0021 用得到的正样本词项集合与预设的特征列表进行匹配,将匹配的词项作为正样本语料的特征;0022 用得到的负样本词项集合与预设的特征列表进行匹配,将匹配的词项作为负样本语料的特征;0023 所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。0024 根据本发明一优选实施例,所述计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频,或者各分类特征的词频-倒文档率计算的。0025 根据本发明一优选实施例,步骤S31中具体包括:0026 获取所述待识别资源的标题;0027 利用获取到的标题在搜索引擎中进行搜索,将搜索得到的搜索结果、所述待。
18、识别资源的标题和所述待识别资源的内容作为待预测语料。0028 根据本发明一优选实施例,步骤S32中,提取待预测语料的分类特征,具体包括:0029 对待预测语料进行预处理,得到待预测词项集合;0030 用得到的待预测词项集合与预设的特征列表进行匹配,将匹配的词项作为待预测语料的分类特征;0031 所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。0032 根据本发明一优选实施例,步骤S33具体为:0033 如果所述待识别资源属于版权资源的置信度大于预设第一阈值N1,将所述待识别资源识别为版权资源;0034 如果所述待识别资源属于版权资源的置信度小于预设第二阈值N2,将所述待识别。
19、资源识别为非版权资源,其中,0N2N11;0035 或者,如果所述待识别资源属于非版权资源的置信度大于预设第三阈值N3,将所述待识别资源识别为非版权资源;说 明 书CN 103123634 A3/11页70036 如果所述待识别资源属于非版权资源的置信度小于预设第四阈值N4,将所述待识别资源识别为版权资源,其中,0N4N31。0037 一种版权资源识别装置,该装置包括:0038 训练语料获取模块,用于利用已有的版权资源的标题进行搜索获取正样本语料,并利用非版权资源的标题进行搜索获取负样本语料;0039 分类模型建立模块,用于提取正样本语料的特征作为版权资源对应的分类特征,提取负样本语料的特征作。
20、为非版权资源对应的分类特征,并计算各分类特征在所属类别中的权值,构成分类模型;0040 待预测语料获取模块,用于获取待识别资源,利用所述待识别资源的标题进行搜索,获得待预测语料;0041 置信度获取模块,用于提取待预测语料的分类特征,利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度;0042 识别模块,用于根据所述待识别资源属于版权资源或者非版权资源的置信度,识别所述待识别资源是否为版权资源。0043 根据本发明一优选实施例,所述训练语料获取模块包括标题获取模块和搜索模块,0044 所述标题获取模块用于获取已有的版权资源和非版权资源的标题;0045 所述搜索模块用于利用标题获。
21、取模块获取的标题在搜索引擎中进行搜索,将利用已有的版权资源的标题搜索得到的搜索结果和已有的版权资源的信息作为正样本语料;将利用已有的非版权资源的标题搜索得到的搜索结果和已有的非版权资源的信息作为负样本语料。0046 根据本发明一优选实施例,所述分类模型建立模块提取正样本语料和负样本语料的特征时,先对语料进行预处理,用得到的词项集合与预设的特征列表进行匹配,将匹配的词项作为对应语料的特征,所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。0047 根据本发明一优选实施例,所述分类模型建立模块计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频。
22、,或者各分类特征的词频-倒文档率计算的。0048 根据本发明一优选实施例,所述待预测语料获取模块包括标题获取模块和搜索模块,0049 所述标题获取模块用于获取所述待识别资源的标题;0050 所述搜索模块用于利用标题获取模块获取到的标题在搜索引擎中进行搜索,将搜索得到的搜索结果、所述待识别资源的标题和所述待识别资源的内容作为待预测语料。0051 根据本发明一优选实施例,所述置信度获取模块提取待预测语料的分类特征时,先对待预测语料进行预处理,用得到的词项集合与预设的特征列表进行匹配,将匹配的词项作为待预测语料的分类特征,所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。0052 。
23、根据本发明一优选实施例,所述识别模块如果识别到所述待识别资源属于版权资源的置信度大于预设第一阈值N1,将所述待识别资源识别为版权资源;说 明 书CN 103123634 A4/11页80053 如果识别到所述待识别资源属于版权资源的置信度小于预设第二阈值N2,将所述待识别资源识别为非版权资源;其中,0N2N11;0054 或者,如果识别到所述待识别资源属于非版权资源的置信度大于预设第三阈值N3,将所述待识别资源识别为非版权资源;0055 如果识别到所述待识别资源属于非版权资源的置信度小于预设第四阈值N4,将所述待识别资源识别为版权资源,其中,0N4N31。0056 由以上技术方案可以看出,本发。
24、明提供的方法及装置通过这种方式基于有限的版权资源和非版权资源训练得到分类模型,利用该分类模型对于任意资源定量给出版权风险判定,无需人工参与,节约了人力资源提高了效率,同时也保证了准确率、召回率以及审核结果的一致性。【 附图说明 】0057 图1为本发明实施例一提供的方法流程图;0058 图2为本发明实施例二提供的一种装置结构图;0059 图3为本发明实施例三提供的另一种装置结构图。【 具体实施方式 】0060 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。0061 实施例一、以文档资源为例0062 图1为本发明实施例一提供的方法流程图,如图1所示,该。
25、方法包括以下步骤:0063 步骤S101:利用已有的版权资源的标题进行搜索获取正样本语料,并利用非版权资源的标题进行搜索获取负样本语料。0064 获取已有的版权资源和非版权资源,提取已有的版权资源的标题,用提取到的标题作为搜索词(query)在搜索引擎中进行搜索,得到搜索结果,这些搜索结果包含与已有的版权资源的标题相关的页面,具体包括页面标题、摘要、站点信息、链接信息等信息,将搜索结果和已有的版权资源的信息,包括已有的版权资源的标题和已有的版权资源的正文内容等,构成正样本语料。0065 提取已有的非版权资源的标题,用提取到的标题作为query在搜索引擎中进行搜索,得到搜索结果,将搜索结果和已有。
26、的非版权资源的信息,包括已有的非版权资源的标题和已有的非版权资源的正文内容等,构成负样本语料。0066 上述已有版权资源和非版权资源可以通过人工标注的方式,或者直接获取已知版权资源的文档。0067 比如,长安乱、狼性商道等作品是已经出版的文学作品,为版权资源。利用“长安乱”“狼性商道”在搜索引擎中搜索得到相关的搜索结果,包括标题、摘要、站点信息、链接信息等信息,将这些搜索结果加入到正样本语料中。长安乱的搜索结果中有百科结果、在线版权资源网站、豆瓣等信息,狼性商道的搜索结果中有当当网站信息等,将所有的搜索结果加入到正样本语料中。0068 比如,文档名称为“中级职称考试内科样题测试”“数字图像处理。
27、实验1”预先说 明 书CN 103123634 A5/11页9通过人工标注为非版权资源,则利用“中级职称考试内科样题测试” “数字图像处理实验1”在搜索引擎中进行搜索,得到相关的搜索结果,将这些搜索结果加入到负样本语料中。0069 利用有限数量的版权资源和非版权资源,在搜索引擎中获取搜索结果,构成正样本语料和负样本语料。0070 步骤S102:提取正样本语料的特征作为版权资源对应的分类特征,提取负样本语料的特征作为非版权资源对应的分类特征,并采用机器学习的方式训练得到各分类特征在所属类别(版权资源或者非版权资源)中的权值,建立分类模型,所述分类模型包括分类特征和分类特征的权值。0071 拥有版。
28、权文档资源通常都具有明显的特征,比如纸质图书正在售卖,在线阅读平台的大量展现,用户标明免费下载等;而非版权文档资源的表现,则通常不具有这些特征,而那些不属于版权保护领域的文档资源,如考试题、文书模板、读后感等一般不具有版权。本发明则通过提取这些明显的特征作为分类特征,采用机器学习训练分类器,对文档资源进行分类。0072 其中,提取正样本语料和负样本语料的分类特征,具体包括:0073 对正样本语料和负样本语料进行分词和过滤等预处理,分别得到正样本词项集合和负样本词项集合。所述预处理过程可采用现有的分词方法和过滤方法进行。0074 用得到的正样本词项集合与预设的特征列表进行匹配,将命中的词项作为正。
29、样本语料的分类特征。用得到的负样本词项集合与预设的特征列表进行匹配,将命中的词项作为负样本语料的分类特征。0075 所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种,可以采用统一的特征列表的形式,可以通过设置白名单和黑名单的方式分别罗列资源的版权或者非版权特征信息。0076 预设的特征列表可以通过人工设定的方式进行设定,也可以是一个动态形成的列表,利用一定规模的语料通过机器学习的方式自动产生。下面对特征列表中包含的内容进行举例说明:0077 关键字特征包括能够标识版权资源或者非版权资源的词项,如“免费下载” “番外”“全文下载”“全文阅读”“在线版权资源”等为标识版权资源的词。
30、项。比如,“读后感”等为标识非版权资源的词项。0078 领域特征主要用于按领域区分著作权的资源特征。比如“考试题库”“课件”“习题”“模板”为非版权文档资源的特征。0079 站点特征包括含有版权资源的站点名和站点的url,如“当当网”“晋江文学”“起点网”“卓越亚马逊”“http:/ 上述的特征可以从搜索结果、文档资源内容中提取。搜索结果中通常包括标题、摘要、站点信息、链接信息等信息。在文档资源的正文内容中,可能还有“更多详情和内容请访问网站”、“以上内容为版权所有”等附带的信息内容,也可以作为分类特征。0081 在本步骤中,各分类特征在其所属类别中的权值可以基于但不限于:各分类特征在正样本语。
31、料或负样本语料中的词频(TF)或者TF-倒文档率IDF。也可以进一步通过机器学习训练的方式进行权值的调整。所述的机器学习优选地采用有监督的机器学习模型,如最大熵模型、支持向量机模型(SVM)等,这些成熟的机器分类模型,有成熟的估计算法,都说 明 书CN 103123634 A6/11页10是基于最优化方法进行自动调权的。针对提取的分类特征,利用机器学习模型中的调权公式,反复地根据分类结果进行特征调权,直到达到满意的分类正确率或指定的最大迭代次数。0082 通过上述机器学习训练后,得到各个分类特征在版权资源中的权值和在非版权资源中的权值,建立分类模型,所述分类模型包括分类特征和分类特征的权值。0。
32、083 步骤S103:获取待识别资源,对待识别资源执行步骤S1031至步骤S1033。0084 步骤S1031:利用待识别资源的标题进行搜索,获得待预测语料。0085 用待识别资源的标题作为query在搜索引擎中进行搜索,得到搜索结果,将搜索结果、待识别资源的标题和待识别资源的正文内容作为待预测语料。0086 待预测语料不仅包括搜索引擎的搜索结果,还包括文档的标题、文档摘要或内容、文档内部包含站点信息等。0087 步骤S1032:提取待预测语料的分类特征,利用步骤S102建立的分类模型确定待识别资源属于版权资源或非版权资源的置信度。0088 其中,提取待预测语料的分类特征,具体包括:0089 。
33、对待预测语料进行分词和过滤等预处理,得到待预测词项集合。0090 用得到的待预测词项集合与预设的特征列表进行匹配,将匹配的词项作为待预测语料的分类特征。优选地,所述预设的特征列表采用与步骤S102中相同的特征列表,包括关键字特征、领域特征以及站点特征中的至少一种。0091 将得到的待预测语料的分类特征,放入机器学习的分类模型中打分,得到待识别资源属于版权资源或非版权资源的置信度。以最大熵模型为例,其打分值的公式可以采用但不限于以下公式:0092 0093 其中,y是版权资源类别或者非版权资源类别,X为待预测语料的分类特征的集合。c为归一化因子,xi是属于X的第i个分类特征,i为xi在分类模型中。
34、属于y的权值。f(xi,y)是特征函数,p(y|X)为条件概率,表示待预测语料属于版权资源或者属于非版权资源的概率。当计算待预测语料属于版权资源的概率时,所述特征函数f(xi,y)可以为:0094 当y属于版权资源时,f(xi,y)1;否则f(xi,y)0。0095 p(当前文档为版权|文档信息)+p(当前文档为非版权|文档信息)1。0096 最终,计算得到待识别资源属于版权资源或者非版权资源的置信度。0097 步骤S1033:根据步骤S1032得到待识别资源属于版权资源或者非版权资源的置信度,识别待识别资源是否为版权资源。0098 如果待识别资源属于版权资源的置信度大于预设第一阈值N1,将待识别资源识别为版权资源。如果待识别资源属于版权资源的置信度小于预设第二阈值N2,将待识别资源识别为非版权资源。其中,0N2N11。置信度越高,待识别资源为版权资源的可能性越大。或者,如果待识别资源属于非版权资源的置信度大于预设的第三阈值N3,则将待识别资源识别为非版权资源,如果待识别资源属于非版权资源的置信度小于预设第四阈值N4,则将待识别资源识别为版权资源,其中,0N4N31。说 明 书CN 103123634 A10。