《基于网页类型的信息推送方法和装置.pdf》由会员分享,可在线阅读,更多相关《基于网页类型的信息推送方法和装置.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103440342 A(43)申请公布日 2013.12.11CN103440342A*CN103440342A*(21)申请号 201310410102.6(22)申请日 2013.09.10G06F 17/30(2006.01)(71)申请人广州市动景计算机科技有限公司地址 510665 广东省广州市天河区科韵路16号信息港大厦B栋3楼(72)发明人梁捷 李建兴 李建设(74)专利代理机构北京万慧达知识产权代理有限公司 11111代理人杨颖 张金芝(54) 发明名称基于网页类型的信息推送方法和装置(57) 摘要本发明涉及移动通信技术领域,公开了一种基于网页类型的信。
2、息推送方法和装置,该方法包括:利用预先获得的历史页面描述词语的共现关系获取各个历史页面描述词语对各页面类型的类型权值;以类型权值为词语的属性构建词语分类属性库;利用实时获取的当前页面描述词语在词语分类属性库中进行查询,获取当前页面描述词语的各个页面类型的类型权值;计算每个页面类型中各个当前页面描述词语的类型权值之和,将类型权值之和最大的页面类型设置为当前浏览网页的类型;基于当前浏览网页的类型在用户当前浏览网页中推送网络信息。本发明简单、高效而准确地实现了网页类型的判定,使得基于网页类型进行的信息推送的精准度得到大幅提升。(51)Int.Cl.权利要求书2页 说明书10页 附图2页(19)中华人。
3、民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书10页 附图2页(10)申请公布号 CN 103440342 ACN 103440342 A1/2页21.一种基于网页类型的信息推送方法,其特征在于,所述方法包括步骤:利用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值;其中,所述共现关系用于表示词语间的共存状态;以所述类型权值为词语的属性构建词语分类属性库;利用实时获取的当前页面描述词语在所述词语分类属性库中进行查询,获取当前页面描述词语的各个页面类型的类型权值;计算每个页面类型中各个当前页面描述词语的类型权值之和,将类型权值之和最大的。
4、页面类型设置为所述当前浏览网页的类型;基于所述当前浏览网页的类型在用户当前浏览网页中推送网络信息。2.根据权利要求1所述的基于网页类型的信息推送方法,其特征在于,所述利用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值的步骤包括:利用预先获得的历史页面描述词语的共现关系建立词语网络;根据所述共现关系获取所述词语网络中各历史页面描述词语间的关联强度;遍历所述词语网络,获取各个所述历史页面描述词语间的距离;根据预先给每个设定的分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值。3.根据。
5、权利要求2所述的基于网页类型的信息推送方法,其特征在于,所述根据共现关系获取所述词语网络中各历史页面描述词语间的关联强度的步骤包括:根据所述共现关系获取各个历史页面描述词语共同出现的次数;根据如下公式获取各历史页面描述词语间的关联强度:SijCij/Max(C)其中,Cij是词i与词j的共现次数;Max(C)是词语间的共现次数最大的。4.根据权利要求2所述的基于网页类型的信息推送方法,其特征在于,所述根据给每个分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值的步骤包括:利用如下公式获取各个所述历史页面描述词语对应不同页面。
6、类型的类型权值:其中,wj为词语节点j的类型权值;i和j是词语网络中关联的两个词语节点,Sij是词语节点i与词语节点j的关联强度,wi是词语节点i的类型权值;是预设的衰减强度,di是节点i与分类核心词的距离,当第一次计算时,wi为赋予所述分类核心词的初始权值。5.根据权利要求1至4任一项所述的基于网页类型的信息推送方法,其特征在于,所述基于当前浏览网页的类型在用户当前浏览网页中推送网络信息的步骤包括:在预设的网络信息数据库中查询与当前浏览网页的类型相同或者相近的网络信息;将查询到的网络信息向当前浏览网页进行推送。6.一种基于网页类型的信息推送装置,其特征在于,所述装置包括:第一权值获取模块,利。
7、用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值;其中,所述共现关系用于表示词语间的共存权 利 要 求 书CN 103440342 A2/2页3状态;属性库建立模块,用于以所述类型权值为词语的属性构建词语分类属性库;第二权值获取模块,利用实时获取的当前页面描述词语在所述词语分类属性库中进行查询,获取当前页面描述词语的各个页面类型的类型权值;页面类型确定模块,用于计算每个页面类型中各个当前页面描述词语的类型权值之和,将类型权值之和最大的页面类型设置为所述当前浏览网页的类型;信息推送模块,用于基于所述当前浏览网页的类型在用户当前浏览网页中推送网络信息。7。
8、.根据权利要求6所述的基于网页类型的信息推送装置,其特征在于,所述第一权值获取模块包括:词语网络建立单元,用于利用预先获得的历史页面描述词语的共现关系建立词语网络;词语关联强度获取单元,用于根据所述共现关系获取所述词语网络中各历史页面描述词语间的关联强度;遍历单元,用于遍历所述词语网络,获取各个所述历史页面描述词语间的距离;获取单元,用于根据预先给每个设定的分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值。8.根据权利要求7所述的基于网页类型的信息推送装置,其特征在于,所述词语关联强度获取单元根据所述共现关系获取各个历史。
9、页面描述词语共同出现的次数;根据如下公式获取各历史页面描述词语间的关联强度:SijCij/Max(C)其中,Cij是词i与词j的共现次数;Max(C)是词语间的共现次数最大的。9.根据权利要求7所述的基于网页类型的信息推送装置,其特征在于,所述获取单元利用如下公式获取各个所述历史页面描述词语对应不同页面类型的类型权值:其中,wj为词语节点j的类型权值;i和j是词语网络中关联的两个词语节点,Sij是词语节点i与词语节点j的关联强度,wi是词语节点i的类型权值;是预设的衰减强度,di是节点i与分类核心词的距离,当第一次计算时,wi为赋予所述分类核心词的初始权值。10.根据权利要求6至9任一项所述的。
10、基于网页类型的信息推送装置,其特征在于,所述信息推送模块包括:信息查询单元,用于在预设的网络信息数据库中查询与当前浏览网页的类型相同或者相近的网络信息;信息推送单元,用于将获取的网络信息向当前浏览网页进行推送。权 利 要 求 书CN 103440342 A1/10页4基于网页类型的信息推送方法和装置技术领域0001 本发明涉及移动通信技术领域,特别涉及一种基于网页类型的信息推送方法和装置。背景技术0002 数据聚类是当前互联网应用的一个热点,经过几十年的发展,网络用户和互联网规模呈现爆发式增长,少量的有用信息往往会被海量的互联网数据所淹没,仅靠用户个人主动浏览网页已经很难有效获取关键信息。在这。
11、种情况下,互联网从单纯被动地展示信息开始向主动推送信息转变,为了使推送的信息更为快速准确,必须对全部互联网信息进行初步筛选,数据聚类就是一种用来在互联网信息之间建立关联的信息分类方法。0003 由于推送信息通常不是用户主动要求的信息,很容易被用户所反感,因而推送的精准性显得尤为重要。一般情况下,推送信息主要包括搜索结果、新闻、生活娱乐信息和广告等,推送信息的精准投放越来越受到重视,基于用户当前浏览网页的类型推送相关的信息就是其中一种实现思路。比如基于网页内容的广告定向技术,就是指在浏览器返回的页面中追加一条广告,广告的类别尽可能与网页类型相符。通过数据聚类,网络推送可以从关联度较高的信息中进行。
12、优选,但由于要实时在线对用户当前浏览的网页进行归类,对相关分类算法的性能提出了苛刻的要求。0004 目前网页分类通常使用机器学习算法,如朴素贝叶斯(Naive Bayes)算法、KNN(K-nearest neighbor)算法、支持向量机(Support Vector Machine,SVM)算法、神经网络(Artificial Neural Network,ANN)算法等。这些算法的基本思路都是基于文档的向量空间模型,通过大量已标注分类的文档作训练,得到训练后的模型来预测新网页的分类。0005 现有技术这些机器学习算法的主要问题有:0006 (1)需要大量的已标注好分类的样本,工作量大,并。
13、且分类器的质量受标注样本的质量影响比较大。获取标注分类网页通常是靠人工标注,这种方法的优点是标注样本质量高,但需耗费大量人力。还有一些做法是利用互联网的分类导航网站或搜索引擎定向爬取页面,这种方法的优点是可以自动化标注,但样本的质量不高,噪音较大,类别也不一定能满足自身所需,即获取网页的效率低、准确率低。0007 (2)部分算法(如ANN算法、SVM算法等)本身比较复杂,运行开销高,只适合离线处理,不能用于性能要求较高的在线实时处理,即实时性低。0008 基于上述获取网页的方法,进行信息推送时,造成信息推送效率低下,实时性低。发明内容0009 针对现有技术的缺陷,本发明所要解决的技术问题是如何。
14、实时高效地进行精准的信息推送。0010 为解决上述问题,本发明的一方面提供了一种基于网页类型的信息推送方法,所述方法包括步骤:说 明 书CN 103440342 A2/10页50011 利用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值;其中,所述共现关系用于表示词语间的共存状态;以所述类型权值为词语的属性构建词语分类属性库;利用实时获取的当前页面描述词语在所述词语分类属性库中进行查询,获取当前页面描述词语的各个页面类型的类型权值;计算每个页面类型中各个当前页面描述词语的类型权值之和,将类型权值之和最大的页面类型设置为所述当前浏览网页的类型;基于所述。
15、当前浏览网页的类型在用户当前浏览网页中推送网络信息。0012 优选地,所述利用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值的步骤包括:0013 利用历史页面描述词语的共现关系建立词语网络;0014 根据所述共现关系获取所述词语网络中各历史页面描述词语间的关联强度;0015 遍历所述词语网络,获取各个所述历史页面描述词语间的距离;0016 根据预先给每个设定的分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值。0017 优选地,所述根据共现关系获取所述词语网络中各历史页面描述词语。
16、间的关联强度的步骤包括:0018 根据所述共现关系获取各个历史页面描述词语共同出现的次数;0019 根据如下公式获取各历史页面描述词语间的关联强度:0020 SijCij/Max(C)0021 其中,Cij是词i与词j的共现次数;Max(C)是词语间的共现次数最大的。0022 优选地,所述根据给每个分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值的步骤包括:0023 利用如下公式获取各个所述历史页面描述词语对应不同页面类型的类型权值:0024 0025 其中,wj为词语节点j的类型权值;i和j是词语网络中关联的两个词语节。
17、点,Sij是节点i与节点j的关联强度,wi是节点i的类型权值;是预设的衰减强度,di是节点i与分类核心词的距离,当第一次计算时,wi为赋予所述分类核心词的初始权值。0026 优选地,所述基于当前浏览网页的类型在用户当前浏览网页中推送网络信息的步骤包括:0027 在预设的网络信息数据库中查询与当前浏览网页的类型相同或者相近的网络信息;0028 将获取的网络信息向当前浏览网页进行推送。0029 另一方面,本发明还同时提供了一种基于网页类型的信息推送装置,所述装置包括:0030 第一权值获取模块,利用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值;其中,所。
18、述共现关系用于表示词语间的共存状态;0031 属性库建立模块,用于以所述类型权值为词语的属性构建词语分类属性库;说 明 书CN 103440342 A3/10页60032 第二权值获取模块,利用实时获取的当前页面描述词语在所述词语分类属性库中进行查询,获取当前页面描述词语的各个页面类型的类型权值;0033 页面类型确定模块,用于计算每个页面类型中各个当前页面描述词语的类型权值之和,将类型权值之和最大的页面类型设置为所述当前浏览网页的类型;0034 信息推送模块,用于基于所述当前浏览网页的类型在用户当前浏览网页中推送网络信息。0035 优选地,所述权值模块包括:0036 所述第一权值获取模块包括。
19、:0037 词语网络建立单元,用于利用预先获得的历史页面描述词语的共现关系建立词语网络;0038 词语关联强度获取单元,用于根据所述共现关系获取所述词语网络中各历史页面描述词语间的关联强度;0039 遍历单元,用于遍历所述词语网络,获取各个所述历史页面描述词语间的距离;0040 获取单元,用于根据预先给每个设定的分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值。0041 优选地,所述词语关联强度获取单元根据所述共现关系获取各个历史页面描述词语共同出现的次数;根据如下公式获取各历史页面描述词语间的关联强度:0042 Sij。
20、Cij/Max(C)0043 其中,Cij是词i与词j的共现次数;Max(C)是词语间的共现次数最大的。0044 优选地,所述获取单元利用如下公式获取各个所述历史页面描述词语对应不同页面类型的类型权值:0045 0046 其中,wj为词语节点j的类型权值;i和j是词语网络中关联的两个词语节点,Sij是节点i与节点j的关联强度,wi是节点i的类型权值;是预设的衰减强度,di是节点i与分类核心词的距离,当第一次计算时,wi为赋予所述分类核心词的初始权值。0047 优选地,所述信息推送模块包括:0048 信息查询单元,用于在预设的网络信息数据库中查询与当前浏览网页的类型相同或者相近的网络信息;004。
21、9 信息推送单元,用于将获取的网络信息向当前浏览网页进行推送。0050 与现有技术相比,本发明提供了一种基于网页类型的信息推送方法和装置,通过预获的历史页面描述词的共现关系确定词语相对于不同页面类型的类型权值;以该类型权值建立词语属性库;在用户实时浏览网页时,实时获取页面描述词语,以实时获取的页面描述词语查询词语属性库,获得实时获取的各页面描述词语相对不同页面类型的类型权值;然后再计算不同页面类型中,各类型权值的和;由此可得到各个页面类型的页面描述词语的类型权值和;将类型权值和最大的页面类型设置为当前页面的页面类型,从而可以更加准确的确定当前的页面类型;再根据确定的页面类型选择相应的网络信息进。
22、行推送;由于可以准确地确定页面类型,不需要重复网页类型判断和网络信息推送的过程,从而可以实现为用户推送精确的关联信息。因此,本发明的技术方案实时性强、判断精确,大大提高了说 明 书CN 103440342 A4/10页7信息推送的准确度和效率。附图说明0051 图1为本发明一个实施例中基于网页类型的信息推送方法的流程示意图;0052 图2为本发明一个实施例中构建出词语网络的拓扑结构示意图;0053 图3为本发明一个实施例中基于网页类型的信息推送装置的结构示意图。具体实施方式0054 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例为实施本发明。
23、的较佳实施方式,所述描述是以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围应当以权利要求所界定者为准,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。0055 现有技术中的机器学习算法主要依赖于大量已标注的文档,如何获得这些大量已标注的文档成为影响现有技术性能的瓶颈。本发明的技术方案中,不再依赖于对文档的标注,通过统计网页描述词的共现关系建立词语网络,利用词语网络中词语间的映射关系实现准确的类型判定,从而保证推送的精准性。0056 图1是基于网页类型的信息推送方法的流程示意图,在本发明的一个实施例中,基。
24、于网页类型的信息推送方法包括步骤:0057 S1、利用预先获得的历史页面描述词语的共现关系获取各个历史页面描述词语对应不同页面类型的类型权值;其中,共现关系用于表示词语间的共存状态;进入步骤S2;0058 S2、以类型权值为词语的属性构建词语分类属性库;等待进入步骤S3;0059 S3、利用实时获取的当前页面描述词语在词语分类属性库中进行查询,获取当前页面描述词语的各个页面类型的类型权值;进入步骤S4;0060 优选地,该S3步骤包括但不限于以下步骤:0061 从用户当前浏览网页中获取当前页面描述词语;0062 以当前页面描述词语为索引在词语分类属性库中进行查询,得到每个当前页面描述词语的业务。
25、分类、每个当前页面描述词语相对于该业务分类的类型权值;其中,词语分类属性库包括页面描述词语与各页面类型的映射关系。0063 S4、计算每个页面类型中各个当前页面描述词语的类型权值之和,将类型权值之和最大的页面类型设置为当前浏览网页的类型;进入步骤S5;0064 优选地,该S4包括但不限于以下步骤:0065 计算各业务分类中,各当前页面描述词语相对于该业务分类的类型权值之和;0066 将类型权值之和最大的页面类型设置为当前浏览网页的类型。0067 S5、基于当前浏览网页的类型在用户当前浏览网页中推送网络信息。0068 与现有技术相比,本发明提供了一种基于网页类型的信息推送方法和装置,通过预获的历。
26、史页面描述词的共现关系确定词语相对于不同页面类型的类型权值;以该类型权值建立词语属性库;在用户实时浏览网页时,实时获取页面描述词语,以实时获取的页面描述词语查询词语属性库,获得实时获取的各页面描述词语相对不同页面类型的类型权值;说 明 书CN 103440342 A5/10页8然后再计算不同页面类型中,各类型权值的和;由此可得到各个页面类型的页面描述词语的类型权值和;将类型权值和最大的页面类型设置为当前页面的页面类型,从而可以更加准确的确定当前的页面类型;再根据确定的页面类型选择相应的网络信息进行推送;由于可以准确地确定页面类型,不需要重复网页类型判断和网络信息推送的过程,从而可以实现为用户推。
27、送精确的关联信息。因此,本发明的技术方案实时性强、判断精确,大大提高了信息推送的准确度和效率。0069 在一个或多个实施方式中,对历史网页的处理可以离线进行即步骤S1和S2可以离线处理,不占用系统的实时资源。历史网页可以是本地用户在一段时间内访问的网页的累积,也可以是服务器端对网络页面的采集。基于这两种方式,词语分类属性库可以在用户本地构建或更新,也可以在服务器端构建或更新后再传给用户本地保存使用。对用户当前浏览网页的处理和推送过程的计算量小、实时性要求高,可以在用户浏览网页的同时实时在线处理,即步骤S3至S5可以在线处理。0070 在本发明的实施例中,通过研究HTML网页的共性发现,现有HT。
28、ML网页中存在不少含有描述网页特征主要信息的标签,比如常见的title、keywords和description等标签,这些标签的描述信息中出现的词语是根据某种分类属性关联在一起的。通过对标签进一步分析可以发现,其中的词语又可进而分为分类核心词和分类描述词。其中,分类核心词是分类名称,如“体育”、“阅读”等;分类描述词是对分类核心词的一种描述,如“足球”、“NBA”就是对“体育”的一种描述。0071 举例来说,新浪体育频道页面的标签是:0072 新浪竞技风暴_新浪网0073 0074 0075 而网易体育频道页面的标签是:0076 网易体育_有态度的体育门户0077 0078 0079 可以看。
29、出,上述title、keywords和description等标签的描述信息中的出现的词语是人工选定来描述一个网页主要特征的信息,可以看成是一种天然的人工标注,虽然其不一定能明确地标注出网页所属分类,但可认为所选的词与分类相关,通过所选的词可以间接归纳出隐含的分类。0080 优选地,在本发明的一个或者多个实施方式中,利用预先获得的历史页面描述词语的共现关系获取各个历史页面描述词语对应不同页面类型的类型权值的步骤包括:0081 利用预先获得的历史页面描述词语的共现关系建立词语网络;其中,词语网络为网状拓扑结构;说 明 书CN 103440342 A6/10页90082 根据共现关系获取词语网络中。
30、各历史页面描述词语间的关联强度;0083 遍历词语网络,获取各个历史页面描述词语间的距离;0084 根据预先给每个设定的分类核心词赋予的初始权值、距离、关联强度以及预设的衰减强度,获取各个历史页面描述词语对应不同页面类型的类型权值。其中,分类核心词可以根据实际需要进行设定。0085 优选地,在本发明的一个或者多个实施方式中,根据共现关系获取词语网络中各历史页面描述词语间的关联强度的步骤包括:0086 根据共现关系获取各个历史页面描述词语共同出现的次数;0087 词语间的共现次数越多,关联强度越大,根据如下公式获取各历史页面描述词语间的关联强度:0088 SijCij/Max(C)0089 其中。
31、,Cij是词i与词j的共现次数;Max(C)是词语间的共现次数最大的。0090 优选地,在本发明的一个或者多个实施方式中,根据给每个分类核心词赋予的初始权值、距离、关联强度以及预设的衰减强度,获取各个历史页面描述词语对应不同页面类型的类型权值的步骤包括:0091 利用如下公式获取各个历史页面描述词语对应不同页面类型的类型权值:0092 0093 其中,i和j是词语网络中关联的两个词语节点,Sij是节点i与节点j的关联强度,是预设的衰减强度,di是节点i与分类核心词的距离;wj为待计算的节点j的类型权值,wi为已计算出的节点i的类型权值,当第一次计算时,wi为赋予所述分类核心词的初始权值。009。
32、4 上述类型权值的计算公式是递归使用的,即i仅在第一次计算时才是本页面类型的分类核心词,wi仅在第一计算时才是分类核心词的初始权值,随后的计算过程中使用前次计算出的值。0095 wj、wi的意义根据所对应的页面类型不同而不同;如:若wi为赋予分类核心词i相对第一页面类型的初始权值,则wj为词语j相对于第一页面类型的类型权值。若wi为赋予分类核心词i相对第二页面类型的初始权值,则wj为词语j相对于第二页面类型的类型权值;.以此类推,可以得到各个历史页面描述词语对应不同页面类型的类型权值。0096 在上述实施方式中,为了节省系统消耗,当wj小于某阈值时停止获取类型权值的过程。0097 更具体地,在。
33、本发明的优选实施例中,预先获得历史页面描述词语的步骤可以为:从历史网页的标签(如title、keywords和description等标签)中得到描述信息,随后从描述信息中进行词语抽取以得到历史页面描述词语;其中,历史页面描述词语的抽取可以离线处理,因而可采用较复杂的抽取方式,比如基于统计或语义的分词。0098 在上述实施方式中,获得词语网络后需要进一步确定采用哪些词语建立页面类型的分类。在本发明的一个优选实施例中,将出现在网页标签中的词语分为两种,一种是分类核心词,另一种是分类描述词。对应上述新浪和网易的例子,体育是分类核心词,比分、英超、NBA等是分类描述词。但对于一个网页而言,计算机本身。
34、难以区分分类核心词和分类描述词,本发明通过对大量的网页统计分析可知,分类核心词出现的频次比分类描述词要高,说 明 书CN 103440342 A7/10页10从而通过统计词语出现频率可以区分标签词语中的分类核心词和分类描述词。0099 作为一个具体的实施例,下面是对多个网页的描述信息进行处理后得到的结果(经过分词处理后得到的描述信息中的各词语):0100 网页1:小说,言情,阅读,.0101 网页2:阅读,小说,章节,言情,.0102 网页3:阅读,杂志,.0103 网页4:阅读,穿越,小说,.0104 网页5:愤怒的小鸟,游戏,极品飞车,.0105 网页6:野猪的逆袭,愤怒的小鸟,.0106。
35、 网页7:游戏,植物大战僵尸,.0107 网页8:软件,华军,.0108 网页9:软件,工具,.0109 网页10:汽车,大众,.0110 网页11:汽车,科鲁兹,雪佛兰,.0111 .,0112 根据上述的说明进行处理后得到的词语网络如图2所示,从图2中可以看出,边的权由词语间在不同网页中的共现次数决定,共现次数越多,关联边的权值越大。图2中关联度高的节点,如阅读、游戏、软件、汽车等,可以认为是分类核心词,其他的词是分类描述词。根据图2可以看出,分类核心词与其他词语的关联次数明显高于普通分类描述词,在图中的表现就是节点拥有的边的数目较多,因此通过统计节点的边数即可确定分类核心词。确定分类核心。
36、词后即可以各分类核心词划分各个页面类型,默认情况下各分类核心词的类型权值设为1,以其作为计算各分类描述词类型权值的基础。0113 当然,依靠机器自动计算得到的分类核心词可能并不完美,有时与业务所需的分类并不一一对应,此时可在机器处理结果的基础上进一步调整页面类型,将某些分类核心词划分到更准确的页面类型中,同时指定相应的类型权值(分类核心词在该页面类型下的初始权值)。例如以下是对图2的分类核心词的一种调整方式:0114 0115 当确定了分类核心词的页面类型后,依据分类核心词的类型权值进行页面类型的扩展,其中该页面类型的类型权值会通过关联边的权值进行指数(预设的衰减强度)衰减扩散。这样,每个词根据与分类核心词的关联强度及距离的不同,得到各页面描述词对于各页面类型的类型权值。0116 具体地,利用分类核心词带有的该页面类型的初始类型权值,通过BFS(宽度优说 明 书CN 103440342 A10。