《一种基于新核函数LUKE核的专利文献相似度检测方法.pdf》由会员分享,可在线阅读,更多相关《一种基于新核函数LUKE核的专利文献相似度检测方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103455609 A(43)申请公布日 2013.12.18CN103455609A*CN103455609A*(21)申请号 201310400244.4(22)申请日 2013.09.05G06F 17/30(2006.01)(71)申请人江苏大学地址 212013 江苏省镇江市学府路301号(72)发明人王秀红 卢章平 陈潇君 汪满容鞠时光(74)专利代理机构南京正联知识产权代理有限公司 32243代理人卢霞(54) 发明名称一种基于新核函数Luke核的专利文献相似度检测方法(57) 摘要本发明公开了一种基于新核函数Luke核的专利文献相似度检测方法,将专利文。
2、献分成5要素,即专利名称、摘要、权利要求书、说明书和主分类号;构造新的核函数Luke核,利用Luke核分别计算两篇专利文献前四个要素间的相似度,再利用字符串匹配计算两专利文献的主分类号之间的相似度,然后将两专利文献5要素间的相似度进行加权求和得专利文献的总体相似度。本发明的技术方案进一步提高了专利文献的相似度检测的精准率和召回率,可应用于专利文献的相似度检测。(51)Int.Cl.权利要求书2页 说明书5页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书5页 附图1页(10)申请公布号 CN 103455609 ACN 103455609 A1/2页21。
3、.一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于包括以下步骤:步骤1,将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤;步骤2,专利文献结构化表示的步骤:将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号5个要素;所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x1、x2、x3、x4和z1、z2、z3、z4;步骤3,构造适于专利文献相似度计算的新核函数k(x,z),并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明;步骤4,首先利用所述核函数k(x,z),先计算所述待比对的两篇专利文献DX和DZ前四。
4、个各对应要素间的相似度Sj,Sjk(xj,zj),j1,2,3,4;然后,对于所述待比对的两篇专利文献DX和DZ的主分类号要素,直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S5,具体算法过程为:依部、大类、小类、大组、小组顺序从前往后比较主分类号,如果两个专利的主分类号完全相同即小组号相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果完全不同,即部号不同,则S5=0;最后加权求和得所述待比对的两篇专利文献DX和D。
5、Z的相似度S此处,0j1,j1,2,.,5。2.如权利要求1所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于:所述的新核函数k(x,z)具有形式3.如权利要求2所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于所述的新核函数可以作为核函数的理论证明过程如下:令X是Rn上的一个紧集,k(x,z)是XX上连续实值对称函数,则有:称此为Mercer条件;(1)式等价于k(x,z)是一个核函数即k(x,z)(x) (z),x,zX其中为某个从X到Hilbert空间H的映射:|(x)H,()是Hilbert空间L2上的内积。下面证明所构建的函数可以作为核函数,满足M。
6、ercer条件;1)令k1(x,z)xTz,所述新核函数可以改写为2)显然k1(x,z)xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是XX上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为非负;3)当两篇专利文献DX和DZ完全相同时,k1(x,z)xTz1,而此时必然有当两篇文档完全不同时,k1(x,z)=0,而此时必然有权 利 要 求 书CN 103455609 A2/2页3综上所述,当X是Rn上的一个紧集时,是XX上为连续实值对称函数,且为非负;则由Mercer定理可推出于是有所构造的k(x,z)可以作为核函数,即k(x,z)(x)(z),。
7、x,zX。4.如权利要求1所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于所述的步骤1具体为:Step1,词包表示:将所有待比对的专利文献的整个集合称为文集,将出现在文集中的实词的集合称为词典;分别将待比对的两篇专利文献DX和DZ视为两个词包,:DZzz1(Z)(tf(t1,z),tf(t2,z),.,tf(tN,z)RN,:DXxx1(X)(tf(t1,x),tf(t2,x),.,tf(tN,x)RN,为词包法映射关系,N为所有待比对的专利文献中的实词构成的词典中实词的个数;ti为词典中的实词;f(ti,z)表示实词ti在专利文献DZ中出现的频率,f(ti,x)表示实词t。
8、i在专利文献DX中出现的频率;i1,2,.,N;Step2,语义表达:由于词包表示未考虑词的语义信息,为此在包表示法的基础上构建语义核;不同的词对主题的重要程度不同,采用一个词在文档中出现的频率来量化这个词所带的信息重要程度,即逆文档频率IDF规则,具体为其中l为所述文集中存在的专利文献的个数,df(t)是包含实词t的专利文献的个数,w(t)为逆文档频率IDF规则定义的衡量实词t的权重的绝对尺度;进一步地,所述待比对的专利文献DX和DZ的带语义的向量表示形式为:z0(t1)tf(t1,z),(t2)tf(t2,z),.,(tN)tf(tN,z)RNx0(t1)tf(t1,x),(t2)tf(t。
9、2,x),.,tf(tN)(tN,x)RN再对向量z0和x0分别进行归一化处理,得所述向量x和z。权 利 要 求 书CN 103455609 A1/5页4一种基于新核函数 Luke 核的专利文献相似度检测方法技术领域0001 本发明属于信息检索技术领域,具体涉及专利文献的文本相似度计算技术。背景技术0002 专利的相似度是旨专利间技术内容上的相似性,现有的计算方法大体分成两类:一是基于专利引文的分析,二是基于专利内容的分析。利用引文分析法来来分析文献间的相似性的研究已久。在专利相似检测方面,Stuart用专利的共引关系测量日本10家半导体企业的技术相似度。Lai利用共引分析法来测量专利的相似度。
10、。McGill和Mowery等在分析专利联盟内企业之间的关系时,采用互引率测量企业的专利相似度。利用引文分析法来测量专利的相似度有许多不足:只能体现有引用有关系的专利间的相似,不能表明所有真正相关的专利间的相似关系,如中国专利大部分没有引文,这样的专利文献相似度计算通过引文分析法无法很好地解决。基于专利内容来分析专利内容上的相似性的目前研究主要有:Bergmann,Moehrle等提出专利语义分析方法;Gerken于2012年提出一种基于语义专利分析的方法来测量专利的新颖性。Cascini提出发明功能树方法,通过比较该树中组件以及组件的功能和层次关系来确定专利的相似度,反映的是专利概念上的相似。
11、度而非专利内容上的相似度。Magerman等验证了文本挖掘技术测量专利相似度的准确性和可能性,Yoon等利用文本挖掘技术对专利文献进行预处理,构建专利的关键词向量、利用传统的方法,通过计算向量间的欧氏距离来计算专利的相似度,相似检测的精准率和召回率有待进一步提高。陈芨熙等依据专利文献特征构建专利模型树和节点,基于现有的向量空间模型进行相似计算,以专利的名称和摘要信息加权相似度作为分类的依据。彭继东和谭宗颖提出一种基于文本挖掘技术,以专利名称、摘要、权利要求和说明书4个文本要素的加权相似度作为专利相似度的计算方法1。Kim等2012年提出使用奇异值方法来计算给定的节点对节点相似矩阵的贡献,从而检。
12、测有影响力的专利。Moehrle于2012年提出基于设计决策和结果的文本专利相似测量方法。基于内容的专利相似度计算方法,比起引文分析方法来具有更准确和全面的优势。现有的研究中,大部分是通过分析专利文献的特征,利用现有的向量空间模型计算方法或文本挖掘技术来计算同来类间或一同一特征内的相似度;本课题组提出的S_Wang核2(专利号ZL201210105942.7)在分布式信息检索结果融合中有较好的表现。0003 专利文献的相似度检测中最本质的问题是计算两个专利文献间的相似度。现有技术中用于计算专利文献的相似度的数学模型往往采用传统的现有向量相似计算数学模型,缺少针对性;在专利文献的结构要素方面只考。
13、虑到名称、摘要、权利要求和说明书,忽视了国际专利分类号在专利文献相似计算中的重要作用;现有的方法导致在对专利文献进行相似度计算时的精准率和召回率均有待进一步提高。0004 1彭继东;谭宗颖一种基于文本挖掘的专利相似度测量方法及其应用,情报理论与实践,2012(12):114-118.0005 2王秀红.一种基于核函数的文档相似检测方法,专利号ZL201210105942.7.说 明 书CN 103455609 A2/5页5发明内容0006 本发明的目的在于提供一种基于新核函数Luke核的专利文献相似度检测方法,进一步提高专利相似计算的精准率和召回率。0007 为了解决以上技术问题,本发明构造新。
14、的适合专利文献相似度计算的核函数,并结合考虑国际专利分类号在专利文献相似度计算中的重要作用。具体技术方案如下:0008 一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于包括以下步骤:0009 步骤1,将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤;0010 步骤2,专利文献结构化表示的步骤:将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号即IPC主分类号5个要素;所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x1、x2、x3、x4和z1、z2、z3、z4;0011 步骤3,构造适于专利文献相似度计算的新核函数k。
15、(x,z),并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明;0012 步骤4,首先利用所述核函数k(x,z),先计算所述待比对的两篇专利文献DX和DZ前四个各对应要素间的相似度Sj,Sjk(xj,zj),j1,2,3,4;0013 然后,对于所述待比对的两篇专利文献DX和DZ的主分类号,直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S5,具体算法过程为:依部、大类、小类、大组、小组顺序从前往后比较主分类号,如果两个专利的主分类号完全相同即小组号相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.。
16、5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果完全不同,即部号不同,则S5=0;0014 最后加权求和得所述待比对的两篇专利文献DX和DZ的相似度S,具有如下形式0015 此处,0j1,j1,2,.,5。0016 所述的新核函数k(x,z)具有形式0017 所述的新核函数可以作为核函数的理论证明过程如下:0018 令X是Rn上的一个紧集,k(x,z)是XX上连续实值对称函数,则有:0019 0020 称此为Mercer条件;0021 (1)式等价于k(x,z)是一个核函数即k(x,z)(x)(z),x,zX其中为某个从X到Hilbert空间。
17、H的映射:|(x)H,()是Hilbert空间L2上的内积。0022 下面证明所构建的函数可以作为核函数,满足Mercer条件;0023 1)令k1(x,z)xTz,所述新核函数可以改写为0024 0025 2)显然k1(x,z)xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是XX上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为说 明 书CN 103455609 A3/5页6非负;0026 3)当两篇专利文献DX和DZ完全相同时,k1(x,z)xTz1,而此时必然有当两篇文档完全不同时,k1(x,z)=0,而此时必然有0027 综上所述,当X是。
18、Rn上的一个紧集时,是XX上为连续实值对称函数,且为非负;则由Mercer定理可推出于是有所构造的k(x,z)可以作为核函数,即k(x,z)(x)(z),x,zX。0028 所述的步骤1具体为:0029 Step1,词包表达:将所有待比对的专利文献的整个集合称为文集,将出现在文集中的实词的集合称为词典;分别将待比对的两篇专利文献DX和DZ视为两个词包;0030 :DZzz1(Z)(tf(t1,z),tf(t2,z),.,tf(tN,z)RN,0031 :DXxx1(X)(tf(t1,x),tf(t2,x),.,tf(tN,x)RN,0032 为词包法映射关系,N为所有待比对的专利文献中的实词构。
19、成的词典中词的个数;ti为词典中的实词;f(ti,z)表示实词ti在专利文献DZ中出现的频率,f(ti,x)表示实词ti在专利文献DX中出现的频率;i1,2,.,N;0033 Step2,语义表示:由于词包表示未考虑词的语义信息,为此在包表示法的基础上构建语义核;不同的词对主题的重要程度不同,采用一个词在文档中出现的频率来量化这个词所带的信息重要程度,即逆文档频率IDF(InverseDocumentFrequency)规则,具体为0034 0035 其中l为所述文集中存在的专利文献的个数,df(t)是包含实词t的专利文献的个数,w(t)为逆文档频率IDF规则定义的衡量实词t的权重的绝对尺度;。
20、0036 所述待比对的专利文献的带语义的向量表示形式为:0037 z0(t1)tf(t1,z),(t2)tf(t2,z),.,(tN)tf(tN,z)RN0038 x0(t1)tf(t1,x),(t2)tf(t2,x),.,tf(tN)(tN,x)RN0039 再对向量z0和x0分别进行归一化处理,得所述向量x和z。0040 本发明具有有益效果。一方面,将本发明构造的新的核函数Luke核应用到专利文献的相似度计算,进一步提高了专利文献相似度计算的精准率和召回率。另一方面,本发明通过将专利文献分成5个要素,考虑到国际专利分类号在相似度计算方面的作用,通过先分别计算两个待比对的专利文献的对应要素间。
21、的相似度然后再加权求和得两篇专利文献的总相似度,提高了相似度计算的精准率和召回率的同时,减少了计算开销,提高了计算效率。附图说明0041 图1为本发明方法流程图。说 明 书CN 103455609 A4/5页7具体实施方式0042 下面结合附图,对本发明的技术方案作进一步详细说明。0043 如图1所示为本发明的思路图。为了方便描述,将本发明的新核核函数简称为Luke核。0044 步骤1,利用词包法和逆文档频率IDF规则将专利文献的专利名称、摘要、权利要求、说明书四个要素分别表示成对应的向量x1、x2、x3、x4和z1、z2、z3、z4;0045 步骤2,利用构造的新核函数Luke核分别计算专利。
22、名称、摘要、权利要求、说明书各要素对应的文本相似度j1,2,3,4。0046 步骤3,利用字符串比较算法计算不同专利文献主分类号之间的相似度S5,具体算法过程为:从前往后比较,依部、大类、小类、大组、小组顺序比较。如果两个专利的主分类号相同即到小组号均相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果部号也不同,则S5=0。0047 步骤4,计算两篇专利文献的总体相似度0048 实验采用的评价指标分别为精准率(Precision)、招回率。
23、(Recall)和综合评价指标F。0049 评价指标的具体算法为:0050 0051 0052 0053 将专利文献相似度计算中的招回率和精准率视为同等重要,本实施例中综合评价指标中的参数取1,得F1指标。0054 实验数据取DEWENT专利数据库中2000个美国专利,则文集中专利文献的个数l=2000,训练/测试的比例是3:1。使用的软件有MATLAB7.0。信息检索工具箱选用卡内基-梅隆大学信息检索及语言模型工作组研发的Lemur工具箱。该Lemur工具箱支持对大规模文本数据库的索引,以及对文档、提问或文档子集构建简单的语言模型,除此之外,它还支持传统的检索模型,如向量空间模型VSM等。实。
24、验中线性学习器采用LibSVM。0055 现有研究中专利号为ZL201210105942.7的“一种基于核函数的文档相似检测方法”中的S-Wang核与其它现有的核函数比较起来在文本相似度计算方面有更好的精准率和召回率表现。在此基础上,本实施例将Luke核与S-Wang核函数和线性核在专利文献相似度检测中的效果进行了比较最终得不同核函数的相似度计算表现。实验还对比了将专利文献作为整体、依前四个要素即专利名称、摘要、权利要求书和说明书先分别进行相似度计算再加权求和、考虑主分类号在内的5个要素进行相似度计算再加权求和,实验结果分别说 明 书CN 103455609 A5/5页8如表1、表2和表3所示。
25、。表中,P表示相似度计算精准率分值,R表示相似度计算招回率分值,F1为综合评价指标分值。0056 表1专利文献作为一个整体,直接利用核函数计算相似度0057 线性核S_wang核Luke核P 0.21 0.36 0.43R 0.87 0.91 0.93F10.34 0.52 0.590058 表2不考虑IPC,只考虑前4个要素间的相似度,然后再加权求和0059 线性核S_wang核Luke核P 0.25 0.39 0.50R 0.88 0.93 0.95F10.39 0.55 0.660060 表3考虑5个要素间的相似度,然后再加权求和0061 线性核S_wang核Luke核P 0.29 0.。
26、41 0.58R 0.90 0.94 0.96F10.44 0.57 0.720062 *本实施例中,专利名称、摘要、权利要求、说明书以及主分类号五个要素的相似度权系数分别依次取1=0.1,2=0.1,3=0.25,4=0.25,5=0.3。0063 从表1、表2和表3中可以看出,本发明的Luke核具有很好的相似度计算表现。从表2和表3的比较中可以看出,本发明将主分类号考虑进去将专利文献分成5个要素,先计算各要素间的相似度然后再加权求和得专利文献的相似度的技术方案,进一步提高了相似度计算的表现。0064 实验结果表明,本发明采用的专利文献的相似度计算技术方案,提高了专利文献相似度计算的精准率和召回率。说 明 书CN 103455609 A1/1页9图1说 明 书 附 图CN 103455609 A。