《基于URL中锚文字和周边文本的人口属性分类方法及装置.pdf》由会员分享,可在线阅读,更多相关《基于URL中锚文字和周边文本的人口属性分类方法及装置.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410658093.7 (22)申请日 2014.11.18 G06F 17/30(2006.01) (71)申请人 北京锐安科技有限公司 地址 100044 北京市海淀区中关村南大街乙 56 方圆大厦 9 层 (72)发明人 张岩峰 梁东山 (74)专利代理机构 北京品源专利代理有限公司 11332 代理人 胡彬 路凯 (54) 发明名称 基于 URL 中锚文字和周边文本的人口属性分 类方法及装置 (57) 摘要 本发明公开了一种基于 URL 中锚文字和周边 文本的人口属性分类方法及装置, 其中方法包括 : 获取未知用户预设时间段。
2、内点击的 URL 中的锚文 字和周边文本 ; 根据所述锚文字和周边文本、 预 先建立的第一分类模型将所述 URL 分类到不同的 目录类别中, 所述第一分类模型为利用互联网分 类目录进行分类训练得到的 ; 根据不同目录类别 下的类别特征信息、 预先建立的第二分类模型对 所述未知用户进行人口属性分类预报, 所述第二 分类模型为根据已知用户点击的 URL 所属目录类 别下的类别特征信息和人口属性进行分类训练得 到的。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书10页 附图3页 (10)申请公布号 CN 104462241 A (43)申。
3、请公布日 2015.03.25 CN 104462241 A 1/2 页 2 1.一种基于 URL 中锚文字和周边文本的人口属性分类方法, 其特征在于, 包括 : 获取未知用户预设时间段内点击的 URL 中的锚文字和周边文本 ; 根据所述锚文字和周边文本、 预先建立的第一分类模型将所述 URL 分类到不同的目录 类别中, 所述第一分类模型为利用互联网分类目录进行分类训练得到的 ; 根据不同目录类别下的类别特征信息、 预先建立的第二分类模型对所述未知用户进行 人口属性分类预报, 所述第二分类模型为根据已知用户点击的 URL 所属目录类别下的类别 特征信息和人口属性进行分类训练得到的。 2.根据权。
4、利要求 1 所述的方法, 其特征在于, 所述类别特征信息包含 URL 数量 ; 所述第二分类模型为根据已知用户点击的 URL 所属目录类别下的类别特征信息和人 口属性进行分类训练得到的, 包括 : 将所述已知用户点击的 URL 所属目录类别下的 URL 数量生成特征向量, 利用分类算法 训练得到特征向量和人口属性之间的对应关系 ; 所述根据不同目录类别下的类别特征信息、 预先建立的第二分类模型对所述未知用户 进行人口属性分类预报, 包括 : 将所述不同目录类别下的 URL 数量生成待分类特征向量 ; 确定所述第二分类模型中与 所述待分类特征向量最匹配的特征向量 ; 根据所述最匹配的特征向量确定。
5、待分类特征向量 所对应的人口属性。 3.根据权利要求 2 所述的方法, 其特征在于, 所述分类算法为以下任意一种 : 逻辑递归分类算法、 支持向量机分类算法、 决策树分类算法、 贝叶斯分类算法。 4.根据权利要求13任一项所述的方法, 其特征在于, 所述第一分类模型为利用互联 网分类目录进行分类训练得到的, 包括 : 从互联网上提供的分类服务网站上抓取目录树作为分类, 所述目录树中包含不同的目 录类别 ; 对不同目录类别下的网页包含的文本内容进行训练, 得到第一分类模型。 5.根据权利要求 3 所述的方法, 其特征在于, 所述对不同目录类别下的网页包含的文 本内容进行训练, 包括 : 提取所述。
6、网页内容中的特征词, 构造特征向量 ; 根据特征向量和目录类别采用分类算法对所述网页的 URL 进行分类。 6.一种基于 URL 中锚文字和周边文本的人口属性分类装置, 其特征在于, 包括 : 获取模块, 用于获取未知用户预设时间段内点击的 URL 中的锚文字和周边文本 ; 目录分类模块, 用于根据所述锚文字和周边文本、 预先建立的第一分类模型将所述 URL 分类到不同的目录类别中, 所述第一分类模型为利用互联网分类目录进行分类训练得到 的 ; 人口属性预报模块, 用于根据不同目录类别下的类别特征信息、 预先建立的第二分类 模型对所述未知用户进行人口属性分类预报, 所述第二分类模型为根据已知用。
7、户点击的 URL 所属目录类别下的类别特征信息和人口属性进行分类训练得到的。 7.根据权利要求 6 所述的装置, 其特征在于, 所述类别特征信息包含 URL 数量 ; 所述装置, 还包括 : 第二分类模型建立模块, 用于将所述已知用户点击的 URL 所属目录类别下的 URL 数量 权 利 要 求 书 CN 104462241 A 2 2/2 页 3 生成特征向量, 利用分类算法训练得到特征向量和人口属性之间的对应关系 ; 所述人口属性预报模块, 具体用于将所述不同目录类别下的 URL 数量生成待分类特征 向量 ; 确定所述第二分类模型中与所述待分类特征向量最匹配的特征向量 ; 根据所述最匹 配。
8、的特征向量确定待分类特征向量所对应的人口属性。 8.根据权利要求 7 所述的装置, 其特征在于, 所述分类算法为以下任意一种 : 逻辑递归分类算法、 支持向量机分类算法、 决策树分类算法、 贝叶斯分类算法。 9.根据权利要求 6 8 任一项所述的装置, 其特征在于, 所述装置, 还包括 : 第一分类模型建立模块, 具体用于从互联网上提供的分类服务网站上抓取目录树作为 分类, 所述目录树中包含不同的目录类别, 对不同目录类别下的网页包含的文本内容进行 训练, 得到第一分类模型。 10.根据权利要求 8 所述的装置, 其特征在于, 所述第一分类模型建立模块, 具体用于 提取所述网页内容中的特征词,。
9、 构造特征向量, 根据特征向量和目录类别采用分类算法对 所述网页的 URL 进行分类。 权 利 要 求 书 CN 104462241 A 3 1/10 页 4 基于 URL 中锚文字和周边文本的人口属性分类方法及装置 技术领域 0001 本发明涉及数据挖掘技术领域, 尤其涉及一种基于 URL 中锚文字和周边文本的人 口属性分类方法及装置。 背景技术 0002 人的人口学属性包括但不限于年龄、 性别、 家庭收入、 职业类别、 教育级别、 人生阶 段等。洞察人的人口学属性对于个人化 Web 应用、 个人化广告投放等具有重要的现实应用 意义, 例如, 可以帮助网站管理者通过统计洞察访问者的人口属性,。
10、 并针对目标人群对网站 内容和表现形式进行优化。 0003 现有的人口属性分类方法, 大都是根据用户浏览的Web页面, 获取Web页面中的文 本特征, 根据文本特征查找预先建立的人口属性分类模型, 从而完成对用户的人口属性的 分类。其中, 人口属性分类模型是使用已知用户的人口属性信息和浏览的 Web 页面包含的 文本特征作为样本数据训练得到的。 0004 但是, 上述方法需要获取用户浏览Web网页中的关键字信息, 而Web网页的信息量 是巨大的, 干扰因素较多, 不能够直接反映用户的点击目的。 且上述方法中的人口属性分类 模型是根据已知用户的样本信息建立的, 而已知用户的样本数量有限, 浏览 。
11、Web 网页的文 本特征具有很强的稀疏性。 发明内容 0005 有鉴于此, 本发明的目的在于提出一种基于 URL 中锚文字和周边文本的人口属性 分类方法及装置, 能够快速准确的对用户进行人口属性分类。 0006 为达此目的, 本发明采用以下技术方案 : 0007 本发明提供一种基于 URL 中锚文字和周边文本的人口属性分类方法, 包括 : 0008 获取未知用户预设时间段内点击的 URL 中的锚文字和周边文本 ; 0009 根据所述锚文字和周边文本、 预先建立的第一分类模型将所述 URL 分类到不同的 目录类别中, 所述第一分类模型为利用互联网分类目录进行分类训练得到的 ; 0010 根据不同。
12、目录类别下的类别特征信息、 预先建立的第二分类模型对所述未知用户 进行人口属性分类预报, 所述第二分类模型为根据已知用户点击的 URL 所属目录类别下的 类别特征信息和人口属性进行分类训练得到的。 0011 进一步的, 所述类别特征信息包含 URL 数量 ; 0012 所述第二分类模型为根据已知用户点击的 URL 所属目录类别下的类别特征信息 和人口属性进行分类训练得到的, 包括 : 0013 将所述已知用户点击的 URL 所属目录类别下的 URL 数量生成特征向量, 利用分类 算法训练得到特征向量和人口属性之间的对应关系 ; 0014 所述根据不同目录类别下的类别特征信息、 预先建立的第二分。
13、类模型对所述未知 用户进行人口属性分类预报, 包括 : 说 明 书 CN 104462241 A 4 2/10 页 5 0015 将所述不同目录类别下的 URL 数量生成待分类特征向量 ; 确定所述第二分类模型 中与所述待分类特征向量最匹配的特征向量 ; 根据所述最匹配的特征向量确定待分类特征 向量所对应的人口属性。 0016 进一步的, 所述分类算法为以下任意一种 : 0017 逻辑递归分类算法、 支持向量机分类算法、 决策树分类算法、 贝叶斯分类算法。 0018 进一步的, 所述第一分类模型为利用互联网分类目录进行分类训练得到的, 包 括 : 0019 从互联网上提供的分类服务网站上抓取目。
14、录树作为分类, 所述目录树中包含不同 的目录类别 ; 0020 对不同目录类别下的网页包含的文本内容进行训练, 得到第一分类模型。 0021 进一步的, 所述对不同目录类别下的网页包含的文本内容进行训练, 包括 : 0022 提取所述网页内容中的特征词, 构造特征向量 ; 0023 根据特征向量和目录类别采用分类算法对所述网页的 URL 进行分类。 0024 本发明还提供一种基于 URL 中锚文字和周边文本的人口属性分类装置, 包括 : 0025 获取模块, 用于获取未知用户预设时间段内点击的 URL 中的锚文字和周边文本 ; 0026 目录分类模块, 用于根据所述锚文字和周边文本、 预先建立。
15、的第一分类模型将所 述 URL 分类到不同的目录类别中, 所述第一分类模型为利用互联网分类目录进行分类训练 得到的 ; 0027 人口属性预报模块, 用于根据不同目录类别下的类别特征信息、 预先建立的第二 分类模型对所述未知用户进行人口属性分类预报, 所述第二分类模型为根据已知用户点击 的 URL 所属目录类别下的类别特征信息和人口属性进行分类训练得到的。 0028 进一步的, 所述类别特征信息包含 URL 数量 ; 0029 所述装置, 还包括 : 0030 第二分类模型建立模块, 用于将所述已知用户点击的 URL 所属目录类别下的 URL 数量生成特征向量, 利用分类算法训练得到特征向量和。
16、人口属性之间的对应关系 ; 0031 所述人口属性预报模块, 具体用于将所述不同目录类别下的 URL 数量生成待分类 特征向量 ; 确定所述第二分类模型中与所述待分类特征向量最匹配的特征向量 ; 根据所述 最匹配的特征向量确定待分类特征向量所对应的人口属性。 0032 进一步的, 所述分类算法为以下任意一种 : 0033 逻辑递归分类算法、 支持向量机分类算法、 决策树分类算法、 贝叶斯分类算法。 0034 进一步的, 所述装置, 还包括 : 0035 第一分类模型建立模块, 具体用于从互联网上提供的分类服务网站上抓取目录树 作为分类, 所述目录树中包含不同的目录类别, 对不同目录类别下的网页。
17、包含的文本内容 进行训练, 得到第一分类模型。 0036 进一步的, 所述第一分类模型建立模块, 具体用于提取所述网页内容中的特征词, 构造特征向量, 根据特征向量和目录类别采用分类算法对所述网页的 URL 进行分类。 0037 本发明通过未知用户点击的 URL 链接的锚文字和周边文本作为分类标准, 而 URL 链接的锚文字和周边文本相对于用户浏览的网页, 具有短小精悍、 噪音少的特点, 能够直接 反映用户的点击目的, 使得人口属性预报更加准确。 另外, 本发明实施例在对未知用户进行 说 明 书 CN 104462241 A 5 3/10 页 6 人口预报时首先采用第一分类模型对用户点击的 U。
18、RL 进行分类, 而第一分类模型是利用互 联网目录通过训练得到的, 而不是根据已知用户点击的 URL 进行训练得到的, 因此第一分 类模型覆盖面广, 分类较齐全, 克服了上述采用有限的已知用户作为训练样本而带来的稀 疏性问题。 附图说明 0038 图 1 是本发明具体实施方式 1 提供的基于 URL 中锚文字和周边文本的人口 属性 分类方法流程示意图 ; 0039 图 2 是本发明具体实施方式 1 提供的第一分类模型建立方法流程示意图 ; 0040 图 3 是本发明具体实施方式 1 提供的第二分类模型建立方法流程示意图 ; 0041 图 4 是本发明具体实施方式 2 提供的基于 URL 中锚文。
19、字和周边文本的人口属性分 类装置结构示意图 ; 0042 图 5 是本发明具体实施方式 3 提供的基于 URL 中锚文字和周边文本的人口属性分 类装置结构示意图 ; 0043 图 6 是本发明具体实施方式 4 提供的基于 URL 中锚文字和周边文本的人口属性分 类装置结构示意图。 具体实施方式 0044 下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。 可以理解的 是, 此处所描述的具体实施例仅仅用于解释本发明, 而非对本发明的限定。 另外还需要说明 的是, 为了便于描述, 附图中仅示出了与本发明相关的部分而非全部内容。 0045 图 1 是本发明具体实施方式 1 提供的基于 UR。
20、L 中锚文字和周边文本的人口属性分 类方法流程示意图, 如图 1 所示, 包括如下步骤 : 0046 S101、 获取未知用户预设时间段内点击的 URL 中的锚文字和周边文本。 0047 具体的, 在对未知用户进行人口属性分类预报时, 首先获取该用户预设时间段内 点击的 URL 中的锚文字和周边文本信息。其中, 预设时间段可以根据实际情况来确定, 例如 可以为一周、 几周、 一个月或几个月, 这里不作具体限定。 锚文字(Anchor Text)这里指URL 链接文字, 即网页 URL 链接中可以点击的文字, 体现了当前页面及被指向的页面主题 ; 周边 文字是指 URL 链接周边的描述性文 本,。
21、 与锚文字在同一网页的同一文本段落内, 用以辅助 说明该 URL。URL 链接的锚文字和周边文本又统称为该链接的上下文信息。具体的, 跟踪用 户在一定时期内的点击数据流, 通过分析被点击数据流的 URL 链接所在的网页结构, 从而 提取用户点击的 URL 链接的锚文字和周边文本, 关于提取 URL 链接的锚文字和周边文本的 方法可以采用现有技术, 这里不做具体限定。 0048 S102、 根据锚文字和周边文本、 预先建立的第一分类模型将 URL 分类到不同的目 录类别中, 第一分类模型为利用互联网分类目录进行分类训练得到的。 0049 具体的, 锚文字和周边文字相对应于 URL 连接对应的网页。
22、内容, 采用锚文字和周 边文字能够直接反应用户的点击意图。通过提取锚文字和周边文本中的特征词信息, 将特 征词组成特征向量, 根据预先建立的第一分类模型, 采用匹配算法将该特征词对应的 URL 分类到模型中不同目录类别中。具体的, 将根据锚文字和周边文本中的特征词生成的特征 说 明 书 CN 104462241 A 6 4/10 页 7 向量与第一分类模型中的特征向量进行匹配, 确定模型中与锚文字和周边文本对应特征向 量最匹配的特征向量, 则该最匹配的特征向量对应的目录类别即为该锚文字和周边文本对 应的目录类别, 则将该锚文字和周边文本对应的 URL 分类至该目录类别下。其中, 第一分类 模型。
23、为利用互联网分类目录进行分类训练得到的, 关于第一分类模型的建立参见下述图 2 所述实施例。 0050 S103、 根据不同目录类别下的类别特征信息、 预先建立的第二分类模型对所述未 知用户进行人口属性分类预报, 所述第二分类模型为根据已知用户点击的 URL 所属目录类 别下的类别特征信息和人口属性进行分类训练得到的。 0051 具体的, 第二分类模型是根据已知用户点击的 URL 所属目录类别下的类别特征信 息和人口属性进行分类训练得到的, 在模型中已经建立了各目录类别下的类别特征信息和 人口属性之间的对应关系。 其中, 人口属性包括但不限于一 下特征 : 年龄、 性别、 职业、 文化 水平、。
24、 从事行业 ( 例如 IT、 法律、 农业、 医药、 加工、 公务、 非盈利等 )、 家庭收入水平, 人生阶 段 ( 例如学生、 求职、 适婚阶段、 孕产时期、 育儿时期、 事业成熟期、 老年时期 )、 居住地域等。 0052 具体的。在对未知用户的 URL 分类到第一分类模型中不同目录类别之后, 统计不 同目录类别下 URL 的数量即类别特征信息, 将不同目录类别下 URL 的数量生成待分类特征 向量, 根据该待分类特征向量、 预先建立的第二分类模型对未知用户进行人口属性分类预 报。其中, 第二分类模型中已经建立了将所述已知用户对应的特征向量和人口属性之间的 对应关系, 只需将该未知用户对应。
25、的待分类特征向量输入第二分类模型, 在模型中查找与 该待分类特征向量最匹配的特征向量, 然后根据所述最匹配的特征向量确定待分类特征向 量所对应的人口属性, 该人口属性即为未知用户的人口属性。例如, 对于某一未知用户, 假 设获取到该未知用户最近时间段内点击的URL总量为100, 提取该100个URL中的锚文字和 周边文本中包含的特征词, 利用第一分类模型, 将该 100 个 URL 分到了不同的目录类别下, 假设在目录 A 下有 10 个、 目录 B 下有 50 个、 目录 C 下有 40 个, 那么将目录 A、 目录 B、 目录 C 下对应的 URL 数量 10、 50、 40 生成特征向量。
26、 105040, 将该特征向量 105040 与第二分 类模型中建立的目录 A、 目录 B、 目录 C 所组成的所有特征向量进行匹配, 或者, 将该特征向 量进行归一化, 将归一化后的特征向量与第二分类模型中建立的目录A、 目录B、 目录C所组 成的所有特征向量进行匹配, 例如可以采用计算最短欧氏距离法, 确定模型中与该特征向 量最接近的特征向量, 则最接近的特征向量对应的人口属性即为该特征向量对应的人口属 性, 从而也为该未知用户的人口属性。另外, 关于第二分类模型的建立, 具体参见图 3 所述 的实施例。 0053 本发明实施例通过未知用户点击的 URL 链接的锚文字和周边文本作为分类 标。
27、 准, 而 URL 链接的锚文字和周边文本相对于用户浏览的网页, 具有短小精悍、 噪音少的特 点, 能够直接反映用户的点击目的, 使得人口属性预报更加准确。另外, 本发明实施例在对 未知用户进行人口预报时首先采用第一分类模型对用户点击的 URL 进行分类, 而第一分类 模型是利用互联网目录通过训练得到的, 而不是根据已知用户点击的 URL 进行训练得到 的, 因此第一分类模型覆盖面广, 分类较齐全, 克服了上述采用有限的已知用户作为训练样 本而带来的稀疏性问题。 0054 图 2 是本发明具体实施方式 1 提供的第一分类模型建立方法流程示意图, 如图 2 所示, 包括如下步骤 : 说 明 书 。
28、CN 104462241 A 7 5/10 页 8 0055 S201、 从互联网上提供的分类服务网站上抓取目录树作为分类, 该目录树中包含 不同的目录类别。 0056 具体的, 由于已知用户的数量有限, 其浏览的 URL 对应的网页内容的文本特征具 有明显的稀疏特性, 因此这里采用互联网分类目录训练第一分类模型。 例如, 可以从互联网 上提供的分类服务网站上抓取目录树作为分类, 如下表 1 所示, 从分类网站 http:/dmoz. org,http:/ 为此分类网站的一级目录类别和二 级目录类别示例。 其中, 一级目录类别包括商业经济和生活服务, 在商业经济目录下包含二 级目录类别, 例如。
29、农林牧渔、 能源化工、 机械电子、 建筑环境等, 在生活服务目录下包含二级 目录类别, 例如服装鞋帽、 餐饮美食、 房产家庭、 宾馆旅游、 交通物流等。 0057 表 1 0058 0059 0060 S202、 抓取目录树中不同目录类别下的网页, 并进行目录类别筛选。 0061 具体的, 在从分类服务网站上抓取目录树之后, 然后抓取对不同类别下对应的网 页, 例如可以利用爬虫技术进行抓取。这里, 为了提供足够的类别特征用于人口属性预报, 需要抓取二级甚至三级目录类别下的网页, 并且为了保证有足够的网页内容进行训练, 每 个目录类别下的网页的数量少于预设阈值数量的都被删除。例如, 预设阈值数量。
30、可以设为 20, 这样通过上述处理基本可以获取数量10002000左右的目录分类类别, 以及每个目录 类别下数量不少于 20 个网页的训练样本。 0062 S203、 对不同目录类别下的网页包含的文本内容进行训练, 得到第一分类模型。 0063 具体的, 提取网页内容中的特征词, 构造特征向量, 根据特征向量和目录类别采用 分类算法对网页的 URL 进行分类。具体的, 在获得不同目录类别以及不同目录类别下的网 页内容, 建立基于文本特征的分类模型。例如可以采用以下方法实现 : 0064 步骤 A, 提取不同目录类别下各网页的文本内容, 形成不同的文档。 0065 具体的, 通过分词工具对文档中。
31、的中文内容进行分词, 并通过查找停用词列表, 清 除分词后的词项中的停用词, 对于网页中的英文内容, 通过查找英文停用词列表去除停用 词, 采用 Porter 词根算法, 将每个词转化为它的词根。然后通过文本特征提取算法从分词 后的各文档中提取特征词, 形成包含特征词的新文档。 例如, 特征提取算法可以为以下算法 中的任意一种 : 信息增益、 互信息、 词频、 Chi-square 等算法。例如, 不同目录类别下网页总 数为10000, 则通 过上述分词、 特征提取处理, 则可形成10000个文档, 即每个网页对应1个 说 明 书 CN 104462241 A 8 6/10 页 9 文档。 0。
32、066 步骤 B, 将文档中的特征词生成特征向量。 0067 具体的, 通过步骤 A 提取的特征词的数量应当在万级以上, 将每个文档中包含的 特征词组成特征向量, 所有的文档的特征向量则组成一个特征向量集 A_mn (a_ij), 其 中, m 和 n 分别是特征词和文档的总数, 行表示特征词, 列表示文档, a_ij 表示第 i 个特征词 (0 i m-1) 在第 j 个文档 (0 j n-1) 上的权重值, 这里可以采用 TF-IDF 算法进行 权重计算。 在计算权重之后再对权重进行归一化处理, 例如, 可以采用如下公式进行归一化 权重计算 : 0068 0069 其中是特征词 i 在文档。
33、中出现的频数, n 表示文档的总数, n(t) 表示包 含特征词 i 的文档数, 称之为文档频数, IDF log2(n/n(t) 表示反文档频度。而在 A_mn (a_ij) 矩阵中, 只考虑了特征词的信息, 把特征词当作互相独立、 正交的特征, 而没有考 虑特征词和特征词之间在语义上的联系。事实上, 文本中特征词的共现情况和内在的语义 结构也是重要的信息, 潜在语义索引(latent semantic indexing,LSI)就是一种根据特征 词的共现信息探查特征词之间内在的语义联系的方法。 通过对文档矩阵进行特殊的矩阵分 解, 将矩阵近似地映射到一个 K 维潜在语义空间上, 其中, K。
34、 为选择的最大的奇异值个数, 映 射之后的奇异值向量能最大限度的反映出特征词和文档之间的依存关系。潜在语义空间 实际上是把同现的特征词映射到同一维空间上, 而非同现的特征词映射到不同的空间上, 这样使得潜在语义空间相比原来的空间维数要小的多, 达到降维的 目的。 经过上述映射之 后, 原来不包含或包含很少相同特征词信息的文档之间也可能因为特征词的共现关系而有 较大的相似度。这里采用奇异值分解的方法将上述矩阵 A_mn 实现 LSI, 使用 LSI 方法能够 得到较好的分解效果, 且具备较强的扩展性能。奇异值分解是将特征词文档矩阵 A_mn 分 解为 3 个矩阵的乘积形式, 即 A_mn T _。
35、maS_aa(D_na) T, 其中, m 为特征词总数即原特征空间 的维数, n 为文档总数, a min(m,n), T 和 D 都是正交矩阵, S 为对角矩阵, 其对角线的值为 从大到小排列的非负实数。实际上 S 的对角线上的值为 ATA 的特征值。取矩阵 T、 S、 D 的前 k 列, 得到 A 的近似矩阵 A_mn T _mkS_kk(D_nk) T, 这样就可以得到 A 降维后的矩阵 B_ kn, 使 特征空间从 t 维降为 k 维 : B_kn S _kk(D_nk) T。 0070 C、 利用特征向量和目录类别采用分类算法得到第一分类模型。 0071 具体的, 通过步骤 B, 。
36、可以利用降维后的特征向量和和目录类别采用分类算法得 到第一分类模型。可以实现的分类算法有很多, 比如支持向量机分类算法、 逻辑递归分类 算法、 贝叶斯分类算法、 k 最近邻分类算法、 神经网络分类算法、 随机森林分类算法 ( 例如 adaboost 决策树分类算法等 )。 0072 本发明实施例在训练第一分类模型时, 利用互联网目录进行训练, 而不是根据已 知用户点击的 URL 进行训练, 第一分类模型覆盖面广, 分类较齐全, 克服了现有技术中采用 有限的已知用户作为训练样本而带来的稀疏性问题。 0073 图 3 是本发明具体实施方式 1 提供的第二分类模型建立方法流程示意图, 如图 3 说 。
37、明 书 CN 104462241 A 9 7/10 页 10 所示, 包括如下步骤 : 0074 S301、 获取已知用户的人口属性信息。 0075 具体的, 在训练第二分类模型之前, 实现采集训练数据, 训练数据已知用户的人口 属性信息和该部分用户的历史浏览 URL 记录。其中人口属性信息可以通过离线问卷、 在线 调查、 或者获取用户的注册数据等方式获取, 这部分用户 的 URL 访问记录可以通过在该用 户的本地计算机内安装代理软件或者浏览器的 Cookies、 或者通过在路由机制内截取用户 流量通过协议解析获取。例如, 可以获取如表 2 所示的人口属性信息, 并对其进行分类定 义。 007。
38、6 表 2 人口属性示例及其属性分类定义 0077 0078 表 2 中包括年龄, 性别, 职业, 教育等, 但不限于这些, 还可以扩大到其他方面, 比 如行业种类(例如IT、 法律、 农业、 医药、 加工、 公务、 非盈利等), 家庭的月收入划分、 人生阶 段 ( 例如学生时代、 工作求职、 适婚阶段、 孕产时期、 育儿时期、 事业成熟期、 老年时期 )、 居 住地域等。 表3为一个具体的人口属性调查实例, 如下表3所示, 为了保护被调查者的隐私, 每个人都采用一个 32 位的随机 ID 表示。然后在被调查者允许的情况下, 通过软件代理或 者 Cookie, 对一段时间内上述用户访问的 UR。
39、L 进行记录, 记录以用户的 ID 和记录起始时间 作为文件名, 具体的记录结果如下表 4 所示。 0079 表 3 0080 “7F64F0CAB28DDE6781F430FCCFF09F3D2” , ” 女” ,“1982” “大学本科” ,“职员” ,” 2001 3000 元” ,“天津” ,“宝坻” ,“城郊” “6A64W3CAB24GD96A81F530FCH6FY7E4BE” , ” 女” ,“1970” “大学本科” ,“管理者” ,” 8001 13000 元” ,“安徽” ,“阜阳” ,“城市” “CE6ABB45B97FVE6781F430F9D3ED46E5B” , 。
40、” 男” ,“1974” “高中 / 中转 / 技校” ,“职员” ,” 3001 5000 元” ,“河南” ,“洛阳” ,“城市” 0081 表 4 0082 P360chrome.exe I3492 U P360chrome.exe I3492 U P360chrome.exe I3492 Uhttp:/ ? b08abh1 0083 S302、 获取已知用户点击的 URL 的锚文字和周边文本。 0084 S303、 根据锚文字和周边文本、 预先建立的第一分类模型将 URL 分类到不同的目 录类别中。 0085 S304、 将已知用户点击的URL所属目录类别下的URL数量生成特征向量, 。
41、利用分类 算法训练得到特征向量和人口属性之间的对应关系。 0086 具体的, 这里采用的分类算法为以下任意一种 : 逻辑递归分类算法、 支持向量机分 类算法、 决策树分类算法、 贝叶斯分类算法。关于 S302 S304 的详细描述请参见图 1 和图 说 明 书 CN 104462241 A 10 8/10 页 11 2 所述实施例的相关描述。 0087 图 4 是本发明具体实施方式 2 提供的基于 URL 中锚文字和周边文本的人口属性分 类装置结构示意图, 如图 4 所示, 包括 : 获取模块 11、 目录分类模块 12 和人口属性预报模块 13。其中, 0088 获取模块 11, 用于获取未。
42、知用户预设时间段内点击的 URL 中的锚文字和周边文 本 ; 0089 具体的, 在对未知用户进行人口属性分类预报时, 首先通过获取模块 11 获取该用 户预设时间段内点击的 URL 中的锚文字和周边文本信息。其中, 预设时间段可以根据实际 情况来确定, 例如可以为一周、 几周、 一个月或几个月, 这里不作具体限定。锚文字 (Anchor Text) 这里指 URL 链接文字, 即网页 URL 链接中可以点击的文字, 体现了当前页面及被指向 的页面主题 ; 周边文字是指 URL 链接周边的描述性文本, 与锚文字在同一网页的同一文本 段落内, 用以辅助说明该 URL。URL 链接的锚文字和周边文。
43、本又统称为该链接的上下文信 息。 0090 目录分类模块 12, 用于根据锚文字和周边文本、 预先建立的第一分类模型将所述 URL 分类到不同的目录类别中, 所述第一分类模型为利用互联网分类目录进行分类训练得 到的 ; 0091 具体的, 锚文字和周边文字相对应于 URL 连接对应的网页内容, 采用锚文 字和周 边文字能够直接反应用户的点击意图。目录分类模块 12 通过提取锚文字和周边文本中的 特征词信息, 将特征词组成特征向量, 根据预先建立的第一分类模型, 采用匹配算法将该特 征词对应的 URL 分类到模型中不同目录类别中。 0092 人口属性预报模块 13, 用于根据不同目录类别下的类别。
44、特征信息、 预先建立的第 二分类模型对所述未知用户进行人口属性分类预报, 所述第二分类模型为根据已知用户点 击的 URL 所属目录类别下的类别特征信息和人口属性进行分类训练得到的。 0093 具体的, 第二分类模型是根据已知用户点击的 URL 所属目录类别下的类别特征信 息和人口属性进行分类训练得到的, 在模型中已经建立了各目录类别下的类别特征信息和 人口属性之间的对应关系。其中, 人口属性包括但不限于一下特征 : 年龄、 性别、 职业、 文化 水平、 从事行业 ( 例如 IT、 法律、 农业、 医药、 加工、 公务、 非盈利等 )、 家庭收入水平, 人生阶 段 ( 例如学生、 求职、 适婚阶。
45、段、 孕产时期、 育儿时期、 事业成熟期、 老年时期 )、 居住地域等。 具体的。在目录分类模块 12 对未知用户的 URL 分类到第一分类模型中不同目录类别之后, 统计不同目录类别下 URL 的数量即类别特征信息, 将不同目录类别下 URL 的数量生成待分 类特征向量, 将该待分类特征向量输入人口属性预报模块 13, 人口属性预报模块 13 根据该 待分类特征向量、 预先建立的第二分类模型对未知用户进行人口属性分类预报。 其中, 第二 分类模型中已经建立了将所述已知用户对应的特征向量和人口属性之间的对应关系, 只需 将该未知用户对应的待分类特征向量输入第二分类模型, 在模型中查找与该待分类特。
46、征向 量最匹配的特征向量, 然后根据所述最匹配的特征向量确定待分类特征向量所对应的人口 属性, 该人口属性即为未知用户的人口属性。 0094 本实施例所述的装置用于执行如图 1 所示的基于 URL 中锚文字和周边文本 的人 口属性分类方法步骤, 其技术原理和产生的技术效果类似, 具体参见如图 1 所示实施例的 相关描述。 说 明 书 CN 104462241 A 11 9/10 页 12 0095 图 5 是本发明具体实施方式 3 提供的基于 URL 中锚文字和周边文本的人口属性分 类装置结构示意图, 如图 5 所示, 包括 : 获取模块 21、 目录分类模块 22 和人口属性预报模块 23。。
47、其中, 0096 获取模块 21, 用于获取未知用户预设时间段内点击的 URL 中的锚文字和周边文 本 ; 0097 目录分类模块 22, 用于根据所述锚文字和周边文本、 预先建立的第一分类模型将 所述 URL 分类到不同的目录类别中, 所述第一分类模型为利用互联网分类目录进行分类训 练得到的 ; 0098 人口属性预报模块 23, 用于根据不同目录类别下的类别特征信息、 预先建立的第 二分类模型对所述未知用户进行人口属性分类预报, 所述第二分类模型为根据已知用户点 击的 URL 所属目录类别下的类别特征信息和人口属性进行分类训练得到的。 0099 进一步的, 上述装置, 还包括 : 0100。
48、 第一分类模型建立模块 24, 具体用于从互联网上提供的分类服务网站上抓取目录 树作为分类, 所述目录树中包含不同的目录类别, 对不同目录类别下的网页包含的文本内 容进行训练, 得到第一分类模型。 0101 进一步的, 上述第一分类模型建立模块, 具体用于提取所述网页内容中的特征词, 构造特征向量, 根据特征向量和目录类别采用分类算法对所述网页的 URL 进行分类。 0102 本实施例所述的装置用于执行如图 1 和图 2 所示的基于 URL 中锚文字和周边文本 的人口属性分类方法步骤, 其技术原理和产生的技术效果类似, 具体参 见如图 1 和图 2 所 示实施例的相关描述。 0103 图 6 是本发明具体实施方式 4 提供的基于 URL 中锚文字和周边文本的人口属性分 类装置结构示意图, 如图 6 所示, 包括 : 获取模块 31、 目录分类模块 32 和人口属性预报模块 33。其中, 0104 获取模块 31, 用于获取未知用户预设时间段内点击的 URL 中的锚文字和周边文 本 ; 0105 目录分类模块 32, 用于根据所述锚文字和周边文本、 。