一种兴趣信息的识别方法及装置.pdf

上传人:a2 文档编号:1307477 上传时间:2018-04-14 格式:PDF 页数:15 大小:897.88KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510728431.4

申请日:

2015.10.30

公开号:

CN106649347A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20151030|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京国双科技有限公司

发明人:

郭琦

地址:

100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间

优先权:

专利代理机构:

北京鼎佳达知识产权代理事务所(普通合伙) 11348

代理人:

王伟锋;刘铁生

PDF下载: PDF下载
内容摘要

本发明公开了一种兴趣信息的识别方法及装置,涉及信息技术领域,解决了在域名标签系统中网页域名信息对应的标签信息不完整的条件下,对用户的兴趣信息的识别精度较低的问题。本发明的主要技术方案为:获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。本发明主要用于互联网营销时,对用户兴趣爱好和关注点的识别。

权利要求书

1.一种兴趣信息的识别方法,其特征在于,包括:
获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题
信息;
从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置
存储位置保存有不同网页标题信息分别对应的标签信息;
将所述标签信息配置为所述用户的兴趣信息。
2.根据权利要求1所述的兴趣信息的识别方法,其特征在于,所述获
取用户的页面访问记录信息之前,所述方法还包括:
从各个数据源中分别获取对应的网页标题信息;
将所述网页标题信息划分为不同类别;
为每一类别中的网页标题信息配置与所述类别对应的标签信息;
将各个网页标题信息以及与所述各个网页标题信息分别对应的标签信
息保存在所述预置存储位置。
3.根据权利要求2所述的兴趣信息的识别方法,其特征在于,所述从
各个数据源中分别获取对应的网页标题信息之前,所述方法还包括:
从所述各个数据源中获取符合预置条件的热点数据源;
所述从各个数据源中分别获取对应的网页标题信息包括:
从所述热点数据源中分别获取对应的网页标题信息。
4.根据权利要求2所述的兴趣信息的识别方法,其特征在于,所述从
各个数据源中分别获取对应的网页标题信息包括:
按照预设时间间隔从各个数据源中分别获取对应的网页标题信息。
5.根据权利要求1所述的兴趣信息的识别方法,其特征在于,所述页
面访问记录信息还包括网页域名信息,所述从预置存储位置获取与所述网
页标题信息对应的标签信息之前,还包括:
判断域名标签系统中是否存在所述网页域名信息对应的标签信息,所
述域名标签系统中保存有不同网页域名信息分别对应的标签信息;
所述从预置存储位置获取与所述网页标题信息对应的标签信息包括:
若不存在,则从所述预置存储位置获取与所述网页标题信息对应的标
签信息;
若存在,则从所述域名标签系统中获取与所述网页域名信息对应的标
签信息。
6.一种兴趣信息的识别装置,其特征在于,包括:
获取单元,用于获取用户的页面访问记录信息,所述页面访问记录信
息包括网页标题信息;
所述获取单元,还用于从预置存储位置获取与所述网页标题信息对应
的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签
信息;
配置单元,用于将所述获取单元获取的所述标签信息配置为所述用户
的兴趣信息。
7.根据权利要求6所述的兴趣信息的识别装置,其特征在于,所述获
取单元包括:
获取模块,用于从各个数据源中分别获取对应的网页标题信息;
划分模块,用于将所述获取模块获取的网页标题信息划分为不同类别;
配置模块,用于为所述划分模块划分的每一类别中的网页标题信息配
置与所述类别对应的标签信息;
保存模块,用于将各个网页标题信息以及与所述各个网页标题信息分
别对应的标签信息保存在所述预置存储位置。
8.根据权利要求7所述的兴趣信息的识别装置,其特征在于,
所述获取单元,还用于从所述各个数据源中获取符合预置条件的热点
数据源。
所述获取单元,具体用于从所述热点数据源中分别获取对应的网页标
题信息。
9.根据权利要求7所述的兴趣信息的识别装置,其特征在于,
所述获取单元,具体还用于按照预设时间间隔从各个数据源中分别获
取对应的网页标题信息。
10.根据权利要求6所述的兴趣信息的识别装置,其特征在于,所述
页面访问记录信息还包括网页域名信息,所述装置还包括:判断单元;
所述判断单元,用于判断域名标签系统中是否存在所述网页域名信息
对应的标签信息,所述域名标签系统中保存有不同网页域名信息分别对应
的标签信息;
所述获取单元,具体用于若判断单元判断出域名标签系统中不存在所
述网页域名信息对应的标签信息,则从所述预置存储位置获取与所述网页
标题信息对应的标签信息;
所述获取单元,具体还用于若判断单元判断出域名标签系统中存在所
述网页域名信息对应的标签信息,则从所述域名标签系统中获取与所述网
页域名信息对应的标签信息。

说明书

一种兴趣信息的识别方法及装置

技术领域

本发明涉及信息技术领域,尤其涉及一种兴趣信息识别的方法及装置。

背景技术

随着信息技术的快速发展,用户的兴趣爱好和关注点受到商家越来越
多的关注,通过识别用户的兴趣爱好和关注点标签,可以增加互联网营销
的精准性。通常,由于互联网用户不会主动填写和提交此类信息,只能通
过被动采集互联网用户的行为数据获取用户的兴趣爱好和关注点等兴趣信
息信息。其中,用户的行为数据包括用户访问的访问页URL(Uniform
Resource Locator,URL,即统一资源定位符)、访问页域名、访问页标题等
信息。

目前,通常通过域名标签系统对用户兴趣信息进行识别。具体是通过
从域名标签系统中获取与用户访问的网页域名信息对应的标签信息作为用
户兴趣信息。但是,由于域名标签系统中保存的网页域名信息局限性较大,
无法对所有网页域名信息进行覆盖,从而造成现有兴趣信息的识别精度较
低。

发明内容

有鉴于此,本发明实施例提供一种兴趣信息的识别方法及装置,主要
目的是提高兴趣信息的识别精度。

依据本发明一个方面,提供了一种兴趣信息的识别方法,包括:

获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题
信息;

从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置
存储位置保存有不同网页标题信息分别对应的标签信息;

将所述标签信息配置为所述用户的兴趣信息。

依据本发明一个方面,提供了一种兴趣信息的识别装置,包括:

获取单元,用于获取用户的页面访问记录信息,所述页面访问记录信
息包括网页标题信息;

所述获取单元,还用于从预置存储位置获取与所述网页标题信息对应
的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签
信息

配置单元,用于将所述标签信息配置为所述用户的兴趣信息。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的一种兴趣信息的识别方法及装置,首先获取用户
的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从
预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位
置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为
所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,
本发明通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统
中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣
信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的
技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和
其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于
本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目
的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符
号表示相同的部件。在附图中:

图1为本发明实施例提供的一种兴趣信息的识别方法流程图;

图2为本发明实施例提供的另一种兴趣信息的识别方法流程图;

图3为本发明实施例提供的一种兴趣信息的识别装置的方框图;

图4为本发明实施例提供的另一种兴趣信息的识别装置的方框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显
示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开
而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更
透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术
人员。

本发明实施例提供一种兴趣信息的识别方法,如图1所示,所述方法
包括:

101、获取用户的页面访问记录信息。

其中,所述页面访问记录信息包括网页标题信息,所述网页标题信息
根据用户访问的访问页面获取,网页标题信息可以为电影、新闻、游戏,
本发明实施例不做具体限定。其中,可以通过WD系统(Gridsum Web
Dissector,即在线营销效果优化和用户行为分析系统)获取页面访问记录信
息。例如,用户浏览WD系统监测的某网站,当用户点击新闻图标时,WD
系统自动获取该用户访问的网页标题信息。

对于本发明实施例,所述获取用户的页面访问记录信息具体可以为:
首先,启动WD系统监测用户预访问的网站;其次,WD系统自动获取用
户的页面访问记录信息,其中,用户的页面访问记录信息包含网页标题信
息。例如,WD系统正在监测某电影类网站,用户浏览电影时讯网页时,
WD系统自动对“电影时讯”的网页标题信息进行采集。

102、从预置存储位置获取与所述网页标题信息对应的标签信息。

其中,所述预置存储位置保存有不同网页标题信息分别对应的标签信
息。所述标签信息为可以反应网页标题信息特征的信息。例如,对于电影
购票网页标题信息,标签信息可以为电影。

对于本发明实施例,可以通过预置算法对预置存储位置中的网页标题
信息进行分类,并按类别为网页标题信息配置对应的标签信息。其中,预
置存储位置中保存的分类器模型可以为支持向量机、逻辑回归等分类算法,
本实施例不做具体限定。例如,首先爬取指定类别的网站标题信息:“易车
网”、“51汽车网”,爬取下来的网页标题信息自动配置为“汽车”标签,存
储在预置存储位置中;然后根据已知“汽车”标签的网页标题信息训练分
类器,将训练后的分类器存储在预置存储位置中;当用户访问58二手车时,
将访问的网页标题信息输入已训练好的分类器中,分类器输出“汽车”标
签。

103、将所述标签信息配置为所述用户的兴趣信息。

其中,兴趣信息具体可以为反应用户兴趣爱好和关注点的信息。

进一步地,对于本发明实施例,当将用户访问的所有网页标题信息均
输入分类器分类后获取多个标签,确认最终用户兴趣标签,其中,确认方
法可以根据业务要求决定,包括确认所有标签为用户的兴趣标签,或对标
签出现次数进行排序,确认出现次数最多的为用户兴趣标签,本发明实施
例不做具体限定。例如,从分类器获取的标签包括“汽车”、“家电”、“游
戏”,根据业务要求将所有用户访问的网页标题信息产生的标签均确认为用
户的兴趣标签,则用户的兴趣标签为“汽车”、“家电”、“游戏”。

对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包
括:如关注标签为财经和汽车,如“财经网”、“和讯网”、“网易财经”、“汽
车之家”、“太平洋汽车网”,通过爬虫爬取汽车类网页标题信息和财经类网
页标题信息,通过输入给支持向量机分类器进行训练,建立模型,用户浏
览WD系统监测的网站时,将用户访问的网页标题信息“易车网”、“和讯
网”输入给分类器进行分类,根据业务要求获取所有标签为用户兴趣标签,
确认得到标签为汽车和财经。

本发明实施例提供的一种兴趣信息的识别方法,首先获取用户的页面
访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存
储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存
有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用
户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发明
通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存
的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的
识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

进一步地,本发明实施例提供另一种兴趣信息的识别方法,如图2所
示,所述方法包括:

201、从各个数据源中分别获取对应的网页标题信息。

其中,所述各个数据源为可以包含根据业务要求指定的所有网站。例
如,待关注的标签为视频,则指定数据源为“优酷”、“土豆”、“乐视”。

对于本发明实施例,步骤201之前还可以包括:从所述各个数据源中
获取符合预置条件的热点数据源,其中,预置条件可以为用户使用率较高、
热点新闻量较多,本发明实施例不做限定。例如,预置条件为用户使用率
较高,此时,会从所有数据源中获取用户使用率较高的网站,例如,“土豆”、
“乐视”等作为热点数据源。基于此,步骤201具体可以为:从所述热点数
据源中分别获取对应的网页标题信息,即从“土豆”、“乐视”等热点数据
源中分别获取对应的网页标题信息。对于本发明实施例,通过从热点数据
源中分别获取对应的网页标题信息,可以使得获取的网页标题信息的针对
性更强,可以进一步提升用户的兴趣信息的识别精度。

进一步地,步骤201具体还可以为:按照预设时间间隔从各个数据源
中分别获取对应的网页标题信息,其中,预设时间间隔可以为一天、12小
时、6小时,本发明实施例不做限定。例如,设置预设时间间隔为一天,则
每天从电影网站中爬取电影票选购网页标题信息。对于本发明实施例,通
过每天获取热点数据源下的网页标题信息,可以保证获取到的网页标题信
息为最近的实时信息,从而进一步提高用户兴趣信息的识别精度。

202、将所述网页标题信息划分为不同类别。

其中,所述类别可以为电影类、新闻类、购物类等,本方案实施例不
做限定。具体划分的类别也可以依据数据源的类别进行划分,例如,数据
源中包含“优酷”、“乐视”,这可以将网页标题信息划分为视频。

203、为每一类别中的网页标题信息配置与所述类别对应的标签信息。

其中,所述标签信息为可以反应网页标题信息特征的信息。例如,通
过爬虫爬取网页标题信息分为电影类、新闻类、游戏类的网页标题信息:
“优酷”、“头条”、“7k7k小游戏”,配置的标签信息为视频标签信息、新闻
标签信息、游戏标签信息。例如,预设爬取类别为视频、新闻、购物,爬
取网页标题信息为“优酷”、“土豆”、“头条”、“淘宝”,则将“优酷”、“土
豆”划分为视频类别,“头条”划分为新闻类别,“淘宝”划分为购物类别,
相应地,为“优酷”、“土豆”配置的标签信息为视频,为“头条”比分配
置的标签信息为新闻,为“淘宝”配置的标签信息为购物。

204、将各个网页标题信息以及与所述各个网页标题信息分别对应的标
签信息保存在所述预置存储位置。

其中,所述预置存储位置可以为数据库、分类器等,本发明实施例不
做限定。例如,将新闻类页面标题及对应的新闻标签信息保存在分类器中。

对于本发明实施例,可以通过预置算法对预置存储位置中的网页标题
信息进行分类,并按类别为网页标题信息配置对应的标签信息。预置算法
可以为各种机械学习算法,通过将收集的网页标题信息数据集进行训练分
类,生成各类别对应的标签信息,其中,机械学习算法可以包括支持向量
机算法、神经网络算法等,本发明实施例不做限定。例如,首先爬取指定
类别的网站标题信息:“163邮箱”、“126邮箱”,爬取下来的网页标题信息
自动配置为“邮箱”标签,存储在预置存储位置中;然后根据已知“邮箱”
标签的网页标题信息训练分类器,将训练后的分类器存储在预置存储位置
中;当用户访问“QQ邮箱”时,将访问的网页标题信息输入已训练好的分
类器中,分类器输出“邮箱”标签。

205、获取用户的页面访问记录信息。

其中,所述页面访问记录信息包括网页标题信息,所述网页标题信息
根据用户访问的访问页面获取。其中,可以通过WD系统(Gridsum Web
Dissector,即在线营销效果优化和用户行为分析系统)获取页面访问记录信
息。

对于本发明实施例,所述获取用户的页面访问记录信息具体可以为:
首先,启动WD系统监测用户预访问的网站;其次,WD系统自动获取用
户的页面访问记录信息,其中,用户的页面访问记录信息包含网页标题信
息。例如,WD系统正在监测某游戏类网站,用户浏览单机游戏网页时,
WD系统自动对“单机游戏”的网页标题信息进行采集。

206、从预置存储位置获取与所述网页标题信息对应的标签信息。

其中,所述预置存储位置保存有不同网页标题信息分别对应的标签信
息。

对于本发明实施例,步骤206之前还可以包括判断域名标签系统中是
否存在所述网页域名信息对应的标签信息,所述域名标签系统中保存有不
同网页域名信息分别对应的标签信息。此时,步骤206具体可以包括:若
域名标签系统中不存在所述网页域名信息对应的标签信息,则从所述预置
存储位置获取与所述网页标题信息对应的标签信息;若域名标签系统中存
在所述网页域名信息对应的标签信息,则从所述域名标签系统中获取与所
述网页域名信息对应的标签信息,其中,域名标签系统中包含域名信息配
置成功的标签信息。例如,域名标签系统中含有电影、新闻标签,以及电
影、新闻标签分别对应的网页域名信息www.dianying.com、
www.xinwen.com,此时获取到的用户访问记录信息中的网页域名信息为
www.dianying.com,判断域名标签系统中存在www.dianying.com对应的标
签为电影,则将电影识别为用户的兴趣信息。再如,获取到的用户访问记
录信息中的网页域名信息为www.tiyu.com,判断域名标签系统中不存在该
网页域名信息新闻标签,则根据网页标题信息从预置存储位置中识别用户
的兴趣信息。对于本发明实施例,当域名标签系统中存在网页域名信息对
应的标签信息时,直接通过域名标签系统识别用户的兴趣信息,可以进一
步提升用户兴趣信息的识别效率。

207、将所述标签信息配置为所述用户的兴趣信息。

其中,兴趣信息具体可以为反应用户兴趣爱好和关注点的信息。

进一步地,对于本发明实施例,当将用户访问的所有网页标题信息均
输入分类器分类后获取多个标签,确认最终用户兴趣标签,其中,确认方
法可以根据业务要求决定,包括确认所有标签为用户的兴趣标签,或对标
签出现次数进行排序,确认出现次数最多的为用户兴趣标签,本发明实施
例不做具体限定。

对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包
括:设置热点数据源为新闻,域名标签系统中包含的网页域名信息为
www.dianying.com、www.youxi.com,分别对应的标签为电影和游戏,通过
每天爬取新闻类的网站信息获取网页标题信息:“腾讯新闻”、“搜狐新
闻”,将获取的网页标题信息输入分类器进行训练,将训练好的分类器保存,
WD系统获取用户访问信息,获取用户访问的网页标题信息为腾讯新闻,
网页域名信息为www.tengxunxinwen.com,首先判断域名标签系统中不存在
www.tengxunxinwen.com对应的标签,则将“腾讯新闻”输入已训练好的分
类器,确认得到“腾讯新闻”为新闻标签信息。从而增加了识别用户兴趣
信息的覆盖范围,提高了识别兴趣信息的识别精度。

本发明实施例提供的另一种兴趣信息的识别方法,首先获取用户的页
面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置
存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保
存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述
用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发
明通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保
存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息
的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不
再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例
中的装置能够对应实现前述方法实施例中的全部内容。

进一步地,作为图1所示方法的具体实现,本发明实施例提供一种兴
趣信息的识别装置,如图3所示,所述装置可以包括:获取单元31、配置
单元32。

所述获取单元31,可以用于获取用户的页面访问记录信息,所述页面
访问记录信息包括网页标题信息;

所述获取单元31,还可以用于从预置存储位置获取与所述网页标题信
息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应
的标签信息;

所述配置单元32,可以用于将所述获取单元31获取的所述标签信息配
置为所述用户的兴趣信息。

本发明实施例提供的一种兴趣信息的识别装置,首先获取用户的页面
访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存
储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存
有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用
户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发明
通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存
的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的
识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不
再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例
中的装置能够对应实现前述方法实施例中的全部内容。

进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种
兴趣信息的识别装置,如图4所示,所述装置可以包括:获取单元41、配
置单元42、判断单元43。

所述获取单元41,可以用于获取用户的页面访问记录信息,所述页面
访问记录信息包括网页标题信息;

所述获取单元41,还可以用于从预置存储位置获取与所述网页标题信
息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应
的标签信息;

所述配置单元42,可以用于将所述获取单元41获取的所述标签信息配
置为所述用户的兴趣信息。

进一步地,所述获取单元41具体可以包括:

获取模块4101,可以用于从各个数据源中分别获取对应的网页标题信
息;

划分模块4102,可以用于将所述获取模块4101获取的网页标题信息划
分为不同类别;

配置模块4103,可以用于为所述划分模块4102划分的每一类别中的网
页标题信息配置与所述类别对应的标签信息;

保存模块4104,可以用于将各个网页标题信息以及与所述各个网页标
题信息分别对应的标签信息保存在所述预置存储位置。

进一步地,所述获取单元41,还用于从所述各个数据源中获取符合预
置条件的热点数据源。

进一步地,所述获取单元41,具体用于从所述热点数据源中分别获取
对应的网页标题信息。

进一步地,所述获取单元41,具体还用于按照预设时间间隔从各个数
据源中分别获取对应的网页标题信息。

进一步地,所述装置还可以包括:

判断单元43,可以用于判断域名标签系统中是否存在所述网页域名信
息对应的标签信息,所述域名标签系统中保存有不同网页域名信息分别对
应的标签信息。

进一步地,所述获取单元41,具体用于若判断单元43判断出域名标签
系统中不存在所述网页域名信息对应的标签信息,则从所述预置存储位置
获取与所述网页标题信息对应的标签信息。

进一步地,所述获取单元41,具体还用于若判断单元43判断出域名标
签系统中存在所述网页域名信息对应的标签信息,则从所述域名标签系统
中获取与所述网页域名信息对应的标签信息。

本发明实施例提供的另一种兴趣信息的识别装置,首先获取用户的页
面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置
存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保
存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述
用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本发
明通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保
存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息
的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。

所述一种兴趣信息的识别装置包括处理器和存储器,上述获取单元和
配置单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器
中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可
以设置一个或以上,通过调整内核参数来提高识别兴趣信息的识别精度。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储
器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash
RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,
适于执行初始化有如下方法步骤的程序代码:获取用户的页面访问记录信
息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所
述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题
信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、
或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施
例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个
或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不
限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的
形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序
产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流
程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中
的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专
用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个
机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产
生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方
框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理
设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存
储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个
流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备
上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机
实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现
在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的
功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/
输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储
器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash
RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以
由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结
构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相
变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器
(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可
擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光
盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁
盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,
可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读
介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载
波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技
术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之
内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范
围之内。

一种兴趣信息的识别方法及装置.pdf_第1页
第1页 / 共15页
一种兴趣信息的识别方法及装置.pdf_第2页
第2页 / 共15页
一种兴趣信息的识别方法及装置.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《一种兴趣信息的识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种兴趣信息的识别方法及装置.pdf(15页珍藏版)》请在专利查询网上搜索。

本发明公开了一种兴趣信息的识别方法及装置,涉及信息技术领域,解决了在域名标签系统中网页域名信息对应的标签信息不完整的条件下,对用户的兴趣信息的识别精度较低的问题。本发明的主要技术方案为:获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1