《一种文献的自动二维聚类方法.pdf》由会员分享,可在线阅读,更多相关《一种文献的自动二维聚类方法.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103455622 A(43)申请公布日 2013.12.18CN103455622A*CN103455622A*(21)申请号 201310416674.5(22)申请日 2013.09.12G06F 17/30(2006.01)(71)申请人广东电子工业研究院有限公司地址 523808 广东省东莞市松山湖科技产业园区松科苑10号楼(72)发明人袁子牧 彭澎 岳强 季统凯(74)专利代理机构北京科亿知识产权代理事务所(普通合伙) 11350代理人汤东凤(54) 发明名称一种文献的自动二维聚类方法(57) 摘要本发明涉及信息检索技术领域,特别涉及一种文献的自动二维聚类。
2、方法。本发明根据能获取得到的学科方向分类和关键词这两项信息的部分文献建立起若干个聚类,并将其余的文献或新的文献加入到这些聚类之中,使用作者单位信息将聚类中的文献链接起来。本发明使得用户可以很方便的通过关键词查找快速定位文献分类;可以查阅到对某一个文献分类做出贡献的单位;可以查阅到一个单位的工作主要集中在哪些分类之中;应用本发明可以避免用户手工查阅的繁琐,降低用户等待的时间;可以用于文献的聚类上。(51)Int.Cl.权利要求书3页 说明书6页 附图4页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书6页 附图4页(10)申请公布号 CN 103455622 ACN。
3、 103455622 A1/3页21.一种文献的自动二维聚类方法,其特征在于:按如下步骤进行:步骤1,根据学科方向分类和关键词这两项信息计算二维相似度;步骤2,根据能获取到学科方向分类和关键词这两项信息的文献建立一个聚类集合;步骤3,将获取不到学科方向分类和关键词这两项信息的文献加入建立起来的这个聚类集合之中;步骤4,使用作者单位信息将聚类中的文献链接起来。2.根据权利要求1所述的自动二维聚类方法,其特征在于:步骤1中,对获取到的学科方向分类和关键词这两项文献信息进行分词处理,将信息分成若干个词组;在完成分词之后,计算单维相似度;学科方向分类和关键词这两项信息的相似度用L1(Sc1,Sk1)和。
4、L2(Sc2,Sk2)表示,L1和L2分别表示前者和后者两篇文献,Sc1和Sc2表示学科方向分类的相似度,Sk1和Sk2表示关键词的相似度;基于单维相似度,计算L1和L2的二维相似度S(L1,L2)如下:将能获取到学科方向分类和关键词这两项信息的这部分文献任意两两之间计算二维相似度,用矩阵M来表示,其中元素Mi,j或Mj,i表示第i篇文献和第j篇文献的二维相似度。3.根据权利要求1所述的自动二维聚类方法,其特征在于:步骤2中,初始时选择二维相似度矩阵中值最小的元素所代表两篇文献做为初始聚点,依据递推公式:逐步往聚点集合中加入新的文献做为聚点,在公式中,Point为聚点集合;在聚点选择开始之时,。
5、聚点数n2;递推公式的含义为nx即已经选出x篇文献做为聚点之后计算选取第x+1个聚点;对于已经选出来的x个聚点,依次获取这些聚点与其它未作为聚点的文献的二维相似度的最大值,然后从这些最大值中挑选最小值;最小值所代表的两篇文献,其中一篇为己作为聚点的文献,另一篇则为作为新加入的第x+1个聚点加入集合Point;再非聚点文献选择加入二维相似度最大的聚点所代表的聚类;即根据下式加入到文献所对应的聚类中:前式中,假定N篇文献中已有p篇被选作聚点,将这p个聚点每个作为一个聚类;剩余N-p篇文献则加入这p个聚类中的一类。对于这N-p篇文献中的任意一篇文献Li,根据前式加入到文献Lj所对应的聚类,即从p个聚。
6、点中选择二维相似度最大的聚点并加入该聚类。4.根据权利要求2所述的自动二维聚类方法,其特征在于:步骤2中,初始时选择二维相似度矩阵中值最小的元素所代表两篇文献做为初始聚点,依据递推公式:逐步往聚点集合中加入新的文献做为聚点,在公式中,Point为聚点集合;在聚点选择开始之时,聚点数n2;递推公式的含义为权 利 要 求 书CN 103455622 A2/3页3nx即已经选出x篇文献做为聚点之后计算选取第x+1个聚点;对于已经选出来的x个聚点,依次获取这些聚点与其它未作为聚点的文献的二维相似度的最大值,然后从这些最大值中挑选最小值;最小值所代表的两篇文献,其中一篇为已作为聚点的文献,另一篇则为作为。
7、新加入的第x+1个聚点加入集合Point;再非聚点文献选择加入二维相似度最大的聚点所代表的聚类;即根据下式加入到文献所对应的聚类中:前式中,假定N篇文献中已有p篇被选作聚点,将这p个聚点每个作为一个聚类;剩余N-p篇文献则加入这p个聚类中的一类。对于这N-p篇文献中的任意一篇文献Li,根据前式加入到文献Lj所对应的聚类,即从p个聚点中选择二维相似度最大的聚点并加入该聚类。5.根据权利要求1至4任一项所述的自动二维聚类方法,其特征在于:步骤3中,采用统计标题和摘要中词组出现频率的方法,认定标题中出现的词组重要性要高于摘要中出现的词组,按照重要性和出现频率进行排序,计算权重矩阵,将文献归入对应权重。
8、最大的聚点所代表的聚类;首先对文献的标题和摘要进行分词处理并统计出现词组出现的频率,同时认定标题中出现的词组重要性要高于摘要中出现的词组,这样对于这M篇文献中的任意一篇文献Li将得到如下按频率以及重要性排序的形式:(w11,f11),(w12,f12),.,(w1A,f1A),(w21,f21),(w22,f22),.,(w2B,f2B)其中w11,w12,.,w1A代表在标题中出现过的词组,w21,w22,.,w2B代表未在标题中出现过的词组;前一组在标题中出现过的词组重要性要高于后一组词组,则前一组的词组在排序中均在后一组之前;词组的出现频率满足f11f12f1A和f21f22f2B,出现。
9、频率越高的词组在排序中越靠前:然后,对f11,f12,.,f1A各加一个常数,使得f1A+cf21,得到f11,f12,.,f1A;针对作为聚点的p篇文献中的任意一篇文献Lj,文献Li与之计算权重如下:其中d1a,d2b的值为0或1,如果该词组在文献Lj中出现,则d1a或d2b置为1,否则则置为0;通过计算将得到权重值矩阵Wt;最后,将文献Li归入p个聚点中对应权重为最大的聚类,记为Lm:Lmarg max Wt(Li,Lj),j1,2,.,p完成上述步骤,这N+M篇文献已归于p个聚类之中;聚类之间连接用双向链表链接聚点文献表示。6.根据权利要求1至4任一项所述的自动二维聚类方法,其特征在于:。
10、步骤4中,针对任意某个单位均设置一个两层链表,两层链表的第一层用于链接各个聚类中同一单位的文献,第二层用于链接聚类之中同一单位的文献;对文献涉及到所有单位,按照单位的英文字母或者拼音按a到z的顺序进行排列,特殊字符排在字母之后,不区分大小写,记录于数组之中;数组中的每个元素通过指针指向与该元素相关单位的两层链表。7.根据权利要求5所述的自动二维聚类方法,其特征在于:步骤4中,针对任意某个单权 利 要 求 书CN 103455622 A3/3页4位均设置一个两层链表,两层链表的第一层用于链接各个聚类中同一单位的文献,第二层用于链接聚类之中同一单位的文献;对文献涉及到所有单位,按照单位的英文字母或。
11、者拼音按a到z的顺序进行排列,特殊字符排在字母之后,不区分大小写,记录于数组之中;数组中的每个元素通过指针指向与该元素相关单位的两层链表。权 利 要 求 书CN 103455622 A1/6页5一种文献的自动二维聚类方法技术领域0001 本发明涉及信息检索技术领域,特别涉及一种文献的自动二维聚类方法。背景技术0002 用户使用信息检索系统查找自己感兴趣的内容。在信息检索系统中聚类是指对所需检索的信息进行类别划分。聚类技术是对信息检索系统的一种有效改进策略。在信息检索中应用聚类技术能使用户在检索信息的过程中快速定位到自己感兴趣的内容。相较未引用聚类技术的信息检索系统,使用聚类技术能起到降低用户等。
12、待时间的作用,有着分类更加清晰的特点。0003 在其中一些文献数据库或用户指定的文献中,可以获取到文献的学科方向分类和关键词这两项信息,利用这两项信息可以对文章的内容归类。仍有很大一部分文献在获取的来源中不包含这两项信息。同时,文献的作者信息通常都会记录在所获取的信息之中。发明内容0004 本发明解决的技术问题在于提供一种对发表文献的内容类别和作者所属单位这二维信息的自动二维聚类方法。0005 本发明解决上述技术问题的技术方案是:0006 按如下步骤进行:0007 步骤1,根据学科方向分类和关键词这两项信息计算二维相似度;0008 步骤2,根据能获取到学科方向分类和关键词这两项信息的文献建立一。
13、个聚类集合;0009 步骤3,将获取不到学科方向分类和关键词这两项信息的文献加入建立起来的这个聚类集合之中;0010 步骤4,使用作者单位信息将聚类中的文献链接起来。0011 步骤1中,对获取到的学科方向分类和关键词这两项文献信息进行分词处理,将信息分成若干个词组;0012 在完成分词之后,计算单维相似度;学科方向分类和关键词这两项信息的相似度用L1(Sc1,Sk1)和L2(Sc2,Sk2)表示,L1和L2分别表示前者和后者两篇文献,Sc1和Sc2表示学科方向分类的相似度,Sk1和Sk2表示关键词的相似度;0013 基于单维相似度,计算L1和L2的二维相似度S(L1,L2)如下:0014 00。
14、15 将能获取到学科方向分类和关键词这两项信息的这部分文献任意两两之间计算二维相似度,用矩阵M来表示,其中元素Mi,j或Mj,i表示第i篇文献和第j篇文献的二维相似度。0016 步骤2中,初始时选择二维相似度矩阵中值最小的元素所代表两篇文献做为初始说 明 书CN 103455622 A2/6页6聚点,依据递推公式:逐步往聚点集合中加入新的文献做为聚点,0017 在公式中,Point为聚点集合;在聚点选择开始之时,聚点数n2;递推公式的含义为nx即已经选出x篇文献做为聚点之后计算选取第x+1个聚点;对于已经选出来的x个聚点,依次获取这些聚点与其它未作为聚点的文献的二维相似度的最大值,然后从这些最。
15、大值中挑选最小值;最小值所代表的两篇文献,其中一篇为已作为聚点的文献,另一篇则为作为新加入的第x+1个聚点加入集合Point;0018 再非聚点文献选择加入二维相似度最大的聚点所代表的聚类;即根据下式加入到文献所对应的聚类中:0019 0020 前式中,假定N篇文献中已有p篇被选作聚点,将这p个聚点每个作为一个聚类;剩余N-p篇文献则加入这p个聚类中的一类。对于这N-p篇文献中的任意一篇文献Li,根据前式加入到文献Lj所对应的聚类,即从p个聚点中选择二维相似度最大的聚点并加入该聚类。0021 步骤3中,采用统计标题和摘要中词组出现频率的方法,认定标题中出现的词组重要性要高于摘要中出现的词组,按。
16、照重要性和出现频率进行排序,计算权重矩阵,将文献归入对应权重最大的聚点所代表的聚类;0022 首先对文献的标题和摘要进行分词处理并统计出现词组出现的频率,同时认定标题中出现的词组重要性要高于摘要中出现的词组,这样对于这M篇文献中的任意一篇文献Li将得到如下按频率以及重要性排序的形式:0023 0024 其中w11,w12,.,w1A代表在标题中出现过的词组,w21,w22,.,w2B代表未在标题中出现过的词组;前一组在标题中出现过的词组重要性要高于后一组词组,则前一组的词组在排序中均在后一组之前;词组的出现频率满足f11f12f1A和f21f22f2B,出现频率越高的词组在排序中越靠前;002。
17、5 然后,对f11,f12,.,f1A各加一个常数,使得f1A+cf21,得到f11,f12,.,f1A;针对作为聚点的p篇文献中的任意一篇文献Lj,文献Li与之计算权重如下:0026 0027 其中d1a,d2b的值为0或1,如果该词组在文献Lj中出现,则d1a或d2b置为1,否则则置为0;通过计算将得到权重值矩阵Wt;0028 最后,将文献Li归入p个聚点中对应权重为最大的聚类,记为Lm:0029 Lmarg max Wt(Li,Lj),j1,2,.,p0030 完成上述步骤,这N+M篇文献已归于p个聚类之中;聚类之间连接用双向链表链接聚点文献表示。0031 本发明的有益效果体现在:一是能。
18、帮助用户通过关键词快速查找到相关分类下所说 明 书CN 103455622 A3/6页7属的一系列文献;二是能帮助用户找到在某一特定分类下,有哪些单位对该特定分类下所指的学科方向做出了贡献;三是能帮助用户清晰的了解一个单位的文献主要集中哪些方向上。附图说明0032 下面结合附图对本发明进一步说明:0033 图1是本发明针对文献自动二维聚类的实施图;0034 图2是本发明聚类示意图;0035 图3是本发明某单位链表示意图;0036 图4是本发明所有单位链表示意图;具体实施方式0037 如图1所示,本发明方法流程是:0038 以能获取到包含学科分类和关键词这两项信息的N篇文献和不能获取到这两项信息。
19、的M篇文献作为输入。首先将N篇文献中的学科分类和关键词这两项信息进行分词处理,将信息分成若干个词组。在完成分词之后,根据词组的重合程度计算这所有N篇文献中两两之间的单维相似度,如两篇文献对应的学科方向分类分别为“计算机网络”和“计算机系统结构”,前者分为“计算机”和“网络”,后者分为“计算机”,“系统”和“结构”。在完成分词之后,前者总共有两个词组,其中“计算机”在后者词组中存在,则说明前者对于后者的相似度为同理可以计算后者对于前者的相似度为依据学科分类和关键词的单维相似度,依据公式计算两两之间的二维相似度,用相似度矩阵M来表示。0039 在得到相似度矩阵M之后,从这N篇文献中建立p个聚类(p。
20、N)。初始时,选择矩阵M中值最小的元素所代表两篇文献做为初始聚点加入聚点集合Point,即选择最不相似的的两篇文献,此时聚点数n=2。依据聚点选择的递推公式:Lx+1arg minmax Mk,x+1,LkPoint,k=1,2,.,x。逐步往聚点集合Point加入新的文献做为聚点,直至聚点数n=p。0040 此时已形成p个聚类,每个聚类包含一篇聚点文献。剩余的N-p篇文章从相似度矩阵M中获取与这p个聚类对应聚点文献的二维相似度,取矩阵中对应相似度值最大的聚点文献并加入该聚类之中,即满足公式Ljarg max Mi,j,LjPoint,j1,2,.,p。0041 对于不能获取到学科分类和关键词。
21、这两项信息M篇文献,对这些文献的标题和摘要进行分词处理并统计出现词组出现的频率,同时认定标题中出现的词组重要性要高于摘要中出现的词组。这样对于一篇文献Li将得到如下按频率以及重要性排序的形式:(w11,f11),(w12,f12),.,(w1A,f1A),(w21,f21),(w22,f22),.,(w2B,f2B)。其中w11,w12,.,w1A代表在标题中出现过的词组,w21,w22,.,w2B代表未在标题中出现过的词组。前一组在标题中出现过的词组重要性要高于后一组词组,则前一组的词组在排序中均在后一组之前。词说 明 书CN 103455622 A4/6页8组的出现频率满足f11f12f1。
22、A和f21f22f2B,出现频率越高的词组在排序中越靠前。对f11,f12,.,f1A各加一个常数,使得f1A+cf21,得到f11,f12,.,f1A。文献Li与作为聚点中文献Lj计算权重:其中d1a,d2b的值为0或1,如果该词组在文献Lj中出现,则d1a或d2b置为1,否则则置为0。这样得到Mp的权重值矩阵Wt,其中行表示这M篇文献,列表示p个聚类。对于这M篇文献的每一篇,获取并加入权重值最大的那个聚类,即满足表达式:Lmarg max Wt(Li,Lj),j=1,2,.,p。完成上述步骤,N+M篇文献己归于p个聚类之中0042 统计这N+M篇文献中所有涉及到的所有单位并按照单位的英文字。
23、母或者拼音按a到z的顺序进行排列,特殊字符排在字母之后,不区分大小写。用数组记录所有单位的排列(附图4),数组中的每个元素通过指针指向与该元素相关单位的两层链表。对于相关单位的两层链表(附图3),第一层双向链表建立在p个聚类之间,用于连接各个聚类中同一单位的文献,第二层双向链表建立在聚类之中连接属于该单位的文献。0043 整个过程最后输出p个聚类,并且在这p个聚类之上,属于各个单位文献被链表链接起来。输出可实现本发明的三个目标:快速定位文献分类;查阅到对某文献分类做出贡献的单位;查阅某单位的工作集中在哪些分类之中。0044 按如下步骤进行:0045 步骤1,根据学科方向分类和关键词这两项信息计。
24、算二维相似度二0046 在获取到部分文献的学科方向分类和关键词这两项信息之后,首先进行分词操作,将信息分成若干个词组,如两篇文献对应的学科方向分类分别为“计算机网络”和“计算机系统结构”,前者分为“计算机”和“网络”,后者分为“计算机”,“系统”和“结构”。在完成分词之后,计算单维相似度,前者总共有两个词组,其中“计算机”在后者词组中存在,则说明前者对于后者的相似度为同理可以计算后者对于前者的相似度为学科方向分类和关键词这两项信息的相似度用L1=(Sc1,Sk1)和L2=(Sc2,Sk2)表示,L1和L2分别表示前者和后者两篇文献,Sc1和Sc2表示学科方向分类的相似度,Sk1和Sk2表示关键。
25、词的相似度。基于单维相似度,计算L1和L2的二维相似度S(L1,L2)如下:0047 0048 将能获取到学科方向分类和关键词这两项信息的这部分文献任意两两之间计算二维相似度,用矩阵M来表示,其中元素Mi,j或Mj,i表示第i篇文献和第j篇文献的二维相似度。0049 步骤2,根据能获取到学科方向分类和关键词这两项信息的N篇文献建立p个聚类(pN);0050 有N篇文献被用来建立聚类,则二维相似度矩阵M为NN的矩阵。这N篇文献中选择p篇来作为聚类中的聚点(pN)。聚点的选择方式用如下的递推公式来表达:0051 Lx+1=arg minmax Mk,x+1,LkPoint,k=1,2,.,x005。
26、2 在公式中,Point为聚点集合。在聚点选择开始之时,选择矩阵M中值最小的元素所代表两篇文献做为初始聚点加入聚点集合Point,此时聚点数n2。递推公式的含义为说 明 书CN 103455622 A5/6页9nx即已经选出x篇文献做为聚点之后计算选取第x+1个聚点。对于已经选出来的x个聚点,依次获取这些聚点与其它未作为聚点的文献的二维相似度的最大值,然后从这些最大值中挑选最小值。最小值所代表的两篇文献,其中一篇为己作为聚点的文献,另一篇则为作为新加入的第x+1个聚点加入集合Point。0053 N篇文献中已有p篇被选作聚点,将这p个聚点每个作为一个聚类。剩余N-p篇文献则加入这p个聚类中的一。
27、类。对于这N-p篇文献中的任意一篇文献Li,根据下式加入到文献Lj所对应的聚类中:0054 Lj=arg max Mi,j,LjPoint,j=1,2,.,p0055 即从p个聚点中选择二维相似度最大的聚点并加入该聚类。0056 步骤3,将获取不到学科方向分类和关键词这两项信息的M篇文献加入这p个聚类之中;0057 本发明采用统计标题和摘要中词组出现频率的方法来处理并将这M篇文献加入这p个聚类。首先对文献的标题和摘要进行分词处理并统计出现词组出现的频率,同时认定标题中出现的词组重要性要高于摘要中出现的词组,这样对于这M篇文献中的任意一篇文献Li将得到如下按频率以及重要性排序的形式:0058 0。
28、059 其中w11,w12,.,w1A代表在标题中出现过的词组,w21,w22,.,w2B代表未在标题中出现过的词组。前一组在标题中出现过的词组重要性要高于后一组词组,则前一组的词组在排序中均在后一组之前。词组的出现频率满足f11r12f1A和f21f22f2B,出现频率越高的词组在排序中越靠前。第二步,对f11,f12,.,f1A各加一个常数,使得f1A+cf21,得到f11,f12,.,f1A。针对作为聚点的p篇文献中的任意一篇文献Lj,文献Li与之计算权重如下:0060 0061 其中d1a,d2b的值为0或1,如果该词组在文献Lj中出现,则d1a或d2b置为1,否则则置为0。通过计算将。
29、得到权重值矩阵Wt。第三步,将文献Li归入p个聚点中对应权重为最大的聚类,记为Lm:0062 Lm=arg max Wt(Li,Lj),j1,2,.,p0063 完成上述步骤,这N+M篇文献已归于p个聚类之中,如附图2所示。聚类之间连接用双向链表链接聚点文献表示。0064 步骤4,使用作者单位信息将聚类中的文献链接起来;0065 此时,已经根据发表文献的内容类别将所有文献归于p个聚类之中,用户能通过关键词快速查找到相关分类下所属的一系列文献。基于此形成的p个聚类,本发明将进一步实现快速统计单位对特定内容类别所做出的贡献和快速统计一个单位发表文献主要集中在哪些方向上的目标。0066 本发明针对任。
30、意某个单位均设置一个两层链表。对于某单位的统计信息,首先建立各个聚类之间的双向链表,其次对于每个聚类之中通过双向链表连接属于该单位的文献。如附图3所示,某单位的第一层双向链表建立在p个聚类之间,第二层双向链表建立在说 明 书CN 103455622 A6/6页10聚类之中连接属于该单位的文献,如类1指示属于该单位的文献包括文献A和文献B。0067 对于文献中涉及到所有的单位,本发明根据单位的英文字母或者拼音按a到z的顺序进行排列,特殊字符排在字母之后,不区分大小写,如“aaa”排在“aab”之前,“aab”排在“aa-”之前。如附图4所示,用数组记录所有单位的排列,数组中的每个元素通过指针指向与该元素相关单位的两层链表。0068 本发明中文献即可以指文献数据库中所公开的信息,亦可指用户指定的文献,并不限定文献的来源。从各种来源的文献中所获取的信息也不尽相同。说 明 书CN 103455622 A10。