一种基于偏好度的网页文本内容管控方法.pdf

上传人:1520****312 文档编号:4247390 上传时间:2018-09-12 格式:PDF 页数:10 大小:479.11KB
返回 下载 相关 举报
摘要
申请专利号:

CN201210014032.8

申请日:

2012.01.17

公开号:

CN102436512A

公开日:

2012.05.02

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):G06F 17/30申请日:20120117授权公告日:20130508终止日期:20160117|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120117|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

电子科技大学

发明人:

佘堃; 敬思远; 吴娱

地址:

611731 四川省成都市高新区(西区)西源大道2006号

优先权:

专利代理机构:

电子科技大学专利中心 51203

代理人:

周永宏

PDF下载: PDF下载
内容摘要

本发明公开了一种基于偏好度的网页文本内容管控方法。本发明的方法包括通过分析用户感兴趣的网页信息生成用户偏好网页库,利用文本智能分析技术计算出待管控网页的偏好度,依据此偏好度进行对网页的管控,同时用户根据管控结果进行反馈,更新偏好网页库。本发明的方法通过这种循环反馈式的增强学习,使得偏好库中的用户偏好信息将得到持续修正,不断逼近用户“真实”的偏好,最终加强对网页管控能力。本发明的方法不仅能实现对网络不良信息过滤,维护网络信息的健康,而且能过滤掉网络上大量对用户而言无用的信息,为用户推送与其密切相关的信息。

权利要求书

1: 一种基于偏好度的网页文本内容管控方法, 其特征在于, 包括网页库生成步骤、 网页 库分析步骤和用户信息反馈步骤, 其中, 网页库生成步骤包括如下分步骤 : S11. 对网页文本信息分别进行分词, 并且利用停用词表, 除去分词里面的常用停用词, 得到特征值 fi ; S1
2: 计算每个词汇的 M 个特征值, 统计值, 按照 对词汇进行降序排序, 选出与分类最相关的 表示特征值为 fi 的 统计值, 具体计算公式如下 : 其中, A1 表示属于 cj 类别并且含有特征值 fi 的网页数量, A2 表示属于 A3 表示不属于 cj 类别并且含有特征值 fi 的网页数 cj 类别并且不含特征值 fi 的网页数量, 量, A4 表示不属于 cj 类别并且不含特征值 fi 的网页数量, N 表示所有的网页数量。 S1
3: 根据以下公式计算出每个特征值 fi 的条件概率值 p(F = fi|C = cj), 其中, nij 为特征值 fi 在 cj 类别网页中出现的次数, Num(cj) 为 cj 类别的网页总数, preference 表示用户感兴趣的分类, non-preference 表示用户不感兴趣的分类 ; S1
4: 将提取出来的特征值和相对应的概率值, 以及每个类别的网页总数记录下来, 构 成偏好网页库 ; 网页库分析步骤包括如下分步骤 : S21. 计算出当前待分析网页文本 d = {f1, f3, ..., fn} 的偏好度 p(C = preference|d), 其中, Num(page) 为所有网页的数量, Num(cj) 为属于 cj 类的网页数量, p(F = fi|C = cj) 为网页库生成阶段计算出来的概率值 ; S22. 将计算出的偏好度 p(C = preference|d) 与用户初始设定的阈值进行比较, 如果 此偏好度大于阈值, 则将该网页标记为用户所关心的网页。 用户信息反馈步骤包括如下分步骤 : S31. 提取用户当前网页的特征值, 以及计算特征值在网页中出现的频率 fni ; S32. 如果是一个没有推荐给用户的网页是用户所关心的, 则执行步骤 S33, 如果是一 个推送给用户的网页是用户所不关心的, 则执行步骤 S34 ; * S33. 计算每一个特征词的概率值 p (F = fi|C = preference) 2 Num*(preference) = Num(preference)+2 其 中, npreference 为 该 特 征 词 在 用 户 关 心 的 网 页 中 出 现 的 次 数。 用 p*(F = fi|C = preference) 替换该特征值原有的概率值 p(F = fi|C = preference), 用 Num*(preference) 替换 Num(preference), 更新偏好网页库 ; S34. 计算每一个特征词的概率值 p*(F = fi|C = non-preference) Num*(non-preference) = Num(non-preference)+2 其中, nnon-preference 为该特征词在用户不关心的网页中出现的次数, 用 p*(F = fi|C = non-preference) 替 换 该 特 征 值 原 有 的 概 率 值 p(F = fi|C = non-preference), 用 * Num (non-preference) 替换 Num(non-preference), 更新偏好网页库。 2. 根据权利要求 1 所述的网页文本内容管控方法, 其特征在于, S11 所述的分词具体采 用分词工具 ICTCLAS3.0 进行。

说明书


一种基于偏好度的网页文本内容管控方法

    【技术领域】
     本发明属于计算机人工智能技术领域, 具体涉及网页文本内容管控方法。背景技术
     在网络和通信技术迅速发展的今天, Internet 已经发展为当今世界上最大的信息 库和全球范围内传播信息最主要的渠道, 人们越来越感受到了信息的冲击, 然而因特网给 人类带来巨大便利的同时, 也带来了许多问题。如网络信息混杂无序, 垃圾信息充斥其中, 而且网络信息呈海量发展, 一般的检索方法难以满足用户的信息需求。发明内容
     本发明的目的是为了解决现有的网页文本内容管控方法存在的上述问题, 提出了 一种基于偏好度的网页文本内容管控方法。 本发明的技术方案是 : 一种基于偏好度的网页文本内容管控方法, 包括网页库生 成步骤、 网页库分析步骤和用户信息反馈步骤, 其中,
     网页库生成步骤包括如下分步骤 :
     S11. 对网页文本信息分别进行分词, 并且利用停用词表, 除去分词里面的常用停 用词, 得到特征值 fi ;
     S12. 计算每个词汇的统计值, 按照对词汇进行降序排序, 选出与分类最相 统计值, 具体计算公式如下 :关的 M 个特征值,
     表示特征值为 fi 的其中,A1 表示属于 cj 类别并且含有特征值 fi 的网页数量, A2 表示属于 cj 类别并且不含特征值 fi 的网页数量, A3 表示不属于 cj 类别并且含有特征值 fi 的网 页数量, A4 表示不属于 cj 类别并且不含特征值 fi 的网页数量, N 表示所有的网页数量。
     S13. 根据以下公式计算出每个特征值 fi 的条件概率值 p(F = fi|C = cj),
     其中, nij 为特征值 fi 在 cj 类别网页中出现的次数, Num(cj) 为 cj 类别的网页总 数, preference 表示用户感兴趣的分类, non-preference 表示用户不感兴趣的分类 ;
     S14. 将提取出来的特征值和相对应的概率值, 以及每个类别的网页总数记录下 来, 构成偏好网页库 ;
     网页库分析步骤包括如下分步骤 :
     S21. 计 算 出 当 前 待 分 析 网 页 文 本 d = {f1, f2, ..., fn} 的 偏 好 度 p(C = preference|d),
     其中, Num(page) 为所有网页的数量, Num(cj) 为属于 cj 类的网页数量, p(F = fi|C = cj) 为网页库生成阶段计算出来的概率值 ;
     S22. 将计算出的偏好度 p(C = preference|d) 与用户初始设定的阈值进行比较, 如果此偏好度大于阈值, 则将该网页标记为用户所关心的网页。
     用户信息反馈步骤包括如下分步骤 :
     S31. 提取用户当前网页的特征值, 以及计算特征值在网页中出现的频率 fni ;
     S32. 如果是一个没有推荐给用户的网页是用户所关心的, 则执行步骤 S33, 如果 是一个推送给用户的网页是用户所不关心的, 则执行步骤 S34 ; *
     S33. 计算每一个特征词的概率值 p (F = fi|C = preference)
     Num*(preference) = Num(preference)+2
     其中, npreference 为该特征词在用户关心的网页中出现的次数。用 p*(F = fi|C = preference) 替换该特征值原有的概率值 p(F = fi|C = preference), 用 Num*(preference) 替换 Num(preference), 更新偏好网页库 ;
     S34. 计算每一个特征词的概率值 p*(F = fi|C = non-preference)
     Num*(non-preference) = Num(non-preference)+2
     其中, nnon-preference 为该特征词在用户不关心的网页中出现的次数, 用 p*(F = fi|C = non-preference) 替 换 该 特 征 值 原 有 的 概 率 值 p(F = fi|C = non-preference), 用 * Num (non-preference) 替换 Num(non-preference), 更新偏好网页库。
     本发明的有益效果 : 本发明的方法包括通过分析用户感兴趣的网页信息生成用户 偏好网页库, 利用文本智能分析技术计算出待管控网页的偏好度, 依据此偏好度进行对网 页的管控, 同时用户根据管控结果进行反馈, 更新偏好网页库。 本发明的方法通过这种循环 反馈式的增强学习, 使得偏好库中的用户偏好信息将得到持续修正, 不断逼近用户 “真实” 的偏好, 最终加强对网页管控能力。 本发明的方法不仅能实现对网络不良信息过滤, 维护网
     络信息的健康, 而且能过滤掉网络上大量对用户而言无用的信息, 为用户推送与其密切相 关的信息。 附图说明
     图 1 本发明的基于偏好度的网页内容管控方法的流程示意图。 具体实施方式下面结合附图和具体的实施方式对本发明作进一步的阐述。
     本发明方法针对网络信息混杂的问题, 利用文本智能分析技术, 实现基于用户个 人偏好对网页内容的管控, 管控主要包含两个方面 : 一是过滤网络不良信息, 主要目的在于 维护网络信息的健康, 净化网络环境, 称之为不良信息管控 ; 二是过滤掉网络上大量对用户 而言无用、 不相关的信息, 主要目的在于获取与用户需求密切相关的信息, 称之为相关信息 管控。
     本发明通过文本智能分析技术实现基于用户偏好对网页内容的管控, 从海量网络 数据中过滤不良信息, 及时获取与用户需求相关的信息, 其技术具体主要涉及到文本分类 技术、 中文分词技术、 特征选择方法等几个方面。
     1. 文本分类技术描述
     文本分类的任务是 : 在给定的类别体系下, 根据文本的内容, 将其自动映射到指定 的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导, 即 一定数量的已分类好的训练文本或者实例, 分类系统从训练文本中获取必要的信息, 构造 分类器。
     在文本处理领域, 通常采用向量空间模型 (Vector Space Model, VSM) 表示文本, 一篇文本可以表示为一个 n 维向量 (w1, w2, ..., wn), 其中 wi(i = 1, 2, ..., n) 表示第 i 个 特征项 (Feature) 的权重, n 是特征项的个数, 特征项可以是字、 词、 短语或者某种概念, 本 发明实施例中采用词作为特征项, 故称为特征词或特征值。
     权重有多种计算方法, 最简单的是布尔权重, 即权重为 1( 该特征词在文本中出 现 ) 或者 0( 该特征词没有在文本中出现 )。在本发明中, VSM 中的权重计算采用词频来表 示, 即用该特征词在文本中出现的次数来表示权重。
     文本分类抽象为一般的描述 : 设类别总数为 |C|, cj 表示第 j(j = 1, 2, ..., |C|) 类, 提供给分类器的训练集 ( 训练集中的文本都已经过人工分类 ) 包含 |D| 篇文本, 特征空 间 (f1, f2, ..., fn), n 为特征数量, 每篇文本表示为 di = (wi1, wi2, ..., win), i = 1, 2, ..., |D|。一篇待分类文本泛化表示为 dx = (wx1, wx2, ..., wxn), 任务是将 dx 分到相应的类别中 去。
     文本分类算法常用的主要有 : 贝叶斯分类算法、 k 近邻算法、 决策树算法、 支持向 量机方法。
     2. 中文分词技术
     中文自动分词是中文信息处理技术中最关键的一个环节。所谓分词, 就是把一个 句子中的词汇按照使用时的意义切分出来。在英语中单词与单词之间有显式的分割符, 而 在中文里, 只有段与段之间、 句子与句子间有明显分割, 而单词之间不存在这种分界符, 因 此中文词汇的分割要复杂困难得多。随着汉语自动分词系统的关注度不断提高, 各种分词 系统也不断建立, 分词系统在运行速度、 准确度等方面都已经具有了研究应用的价值, 其中 最有代表性为中科院的分词工具 ICTCLAS。ICTCLAS 分词工具基于 PDAT 大规模知识库管理 技术, 分词速度单机 996KB/s, 分词精度 98.45%, 本发明实施例中采用了 ICTCLAS3.0 对网 页文本进行分词处理。
     3. 特征选择方法
     网页中包含了大量的词汇, 如果把这些词都作为特征词, 将带来一系列问题。 首先是向量的维数太大, 给计算带来了非常大的压力, 存储空间大、 处理速度慢 ; 其次是这些词 中实际上有很大一部分是与类别无关的, 对分类作用不大。因此要降低向量的维数, 选择 那些有代表意义的词作为特征。先对文本进行预处理, 去掉那些常用的对分类用处不大的 词 ( 停用词, stop word), 然后采用某种特征选择方法对所有的词排序, 选出排在前面的一 定数量的词作为特征词。常用的特征选择方法有 : 文档频次 (DF), 互信息 (MI), 信息增益 2 2 (IG), χ 统计量、 相对熵 (CE)。本发明的特征值提取采用 χ 统计量方法, 因此下面将详细 2 介绍 χ 统计量方法 :
     χ2 统计量度量词汇和类别独立性的缺乏程度, χ2 越大, 独立性越小, 相关性越 2 大。χ 统计量的计算公式如下 :
     其中, A1、 A2、 A 3、 A4、 N 均表示文本数量, 且 N = A1+A2+A3+A4, A1 表示属于 ci 类别并 且含有词汇 t 的网页数量, A2 表示属于 ci 类别并且不含词汇 t 的网页数量, A3 表示不属于 ci 类别并且含有词汇 t 的网页数量, A4 表示不属于 ci 类别并且不含词汇 t 的网页数量, N表 示所有的网页数量。
     表示对所有类别的平均统计量, 计算公式如下 :本发明中将采用 χ2 统计量方法进行文本特征值提取, 求出网页中每一个词汇的 的值, 再将词汇按照降序排列, 选出对于网页内容分析影响重要的词汇作为平均统计量特征值。
     4. 贝叶斯分类算法
     贝叶斯分类是一类常用的分类器, 最基本的形式是简单贝叶斯分类器。其原理 是计算文本 dx 属于某个类别的概率 p(cj|dx), 将文本分到概率最大的类别中去。计算 p(cj|dx) 时, 利用了贝叶斯公式 : 其中, p(cj) 表示类的先验概率,p(dx|cj) 表示类的条件概率, 对同一篇文本, p(dx) 不变。
     设 dx 表示为特征集合 (f1, f2, ..., fn), n 为特征个数, 假设特征之间相互独立, 则 有:
     p(cj) 和 p(fi|cj) 都可以利用训练集估计。
     本发明的基于偏好度的网页文本内容管控方法, 包括网页库生成步骤、 网页库分 析步骤和用户信息反馈步骤, 其中,
     网页库生成步骤包括如下分步骤 :
     S11. 对网页文本信息分别进行分词, 并且利用停用词表, 除去分词里面的常用停 用词, 得到特征值 fi ;
     S12. 计算每个词汇的统计值, 按照7对词汇进行降序排序, 选出与分类最相102436512 A CN 102436519说明书统计值, 具体计算公式如下 :5/6 页关的前 M 个特征值,
     表示特征值为 fi 的其中,A1 表示属于 cj 类别并且含有特征值 fi 的网页数量, A2 表示A3 表示不属于 cj 类别并且含有特征值 fi 的网 属于 cj 类别并且不含特征值 fi 的网页数量, 页数量, A4 表示不属于 cj 类别并且不含特征值 fi 的网页数量, N 表示所有的网页数量。
     这里的 M 可以由用户预先设定。
     S13. 根据以下公式计算出每个特征值 fi 的条件概率值 p(F = fi|C = cj),
     其中, nij 为特征值 fi 在 cj 类别网页中出现的次数, Num(cj) 为 cj 类别的网页总 数, preference 表示用户感兴趣的分类, non-preference 表示用户不感兴趣的分类。这里, 条件概率式子 p(Fi = fi|C = cj) 指的是特征值 fi 在 cj 类别网页中出现的概率 ;
     S14. 将提取出来的特征值和相对应的概率值, 以及每个类别的网页总数记录下 来, 构成偏好网页库 ;
     这里, 步骤 S11-S14 可以看作为文本信息预处理的过程。
     网页库分析步骤包括如下分步骤 :
     S21. 计 算 出 当 前 待 分 析 网 页 文 本 d = {f1, f2, ..., fn} 的 偏 好 度 p(C = preference|d),
     其中, Num(page) 为所有网页的数量, Num(cj) 为属于 cj 类的网页数量, p(Fi = fi|C = cj) 为网页库生成阶段计算出来的概率值。
     S22. 将计算出的偏好度 p(C = preference|d), 与用户初始设定的阈值进行比较, 如果此偏好度大于阈值, 则将该网页标记为用户所关心的网页。
     用户信息反馈步骤包括如下分步骤 :
     S31. 提取用户当前网页的特征值, 以及计算特征值在网页中出现的频率 fni ;
     S32. 如果是一个没有推荐给用户的网页是用户所关心的, 则执行步骤 S33, 如果 是一个推送给用户的网页是用户所不关心的, 则执行步骤 S34 ; *
     S33. 计算每一个特征词的概率值 p (F = fi|C = preference)
     Num*(preference) = Num(preference)+2
     其中, npreference 为该特征词在用户关心的网页中出现的次数。用 p*(F = fi|C = preference) 替换该特征值原有的概率值 p(F = fi|C = preference), 用 Num*(preference)
     替换 Num(preference), 更新偏好网页库。
     S34. 计算每一个特征词的概率值 p*(F = fi|C = non-preference)
     Num*(non-preference) = Num(non-preference)+2
     其中, nnon-preference 为该特征词在用户不关心的网页中出现的次数, 用 p*(F = fi|C = non-preference) 替 换 该 特 征 值 原 有 的 概 率 值 p(F = fi|C = non-preference), 用 * Num (non-preference) 替换 Num(non-preference), 更新偏好网页库, 这里, 条件概率公式 * p (F = fi|C = preference) 指的是特征值 fi 在用户偏好的网页类中的概率, 条件概率公 * 式 p (F = fi|C = non-preference) 指的是特征值 fi 在用户不偏好的网页类中的概率。
     本发明的方法通过文本分析技术对网页文本内容的分析, 计算出网页偏好度, 判 断网页是否是非法网页、 是否是用户关心的网页, 并根据分析结果对网页实施相应的管控 措施。本发明一方面可以过滤网络不良信息, 维护网络信息的健康, 净化网络环境, 为未成 年人绿色上网保驾护航 ; 另一方面还可以应用到电子商务系统中, 利用生成的用户偏好信 息, 帮助企业发现潜在的客户, 进行个性化推荐和广告。
     本领域的普通技术人员将会意识到, 这里所述的实施例是为了帮助读者理解本发 明的原理, 应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的 普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各 种具体变形和组合, 这些变形和组合仍然在本发明的保护范围内。
    

一种基于偏好度的网页文本内容管控方法.pdf_第1页
第1页 / 共10页
一种基于偏好度的网页文本内容管控方法.pdf_第2页
第2页 / 共10页
一种基于偏好度的网页文本内容管控方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《一种基于偏好度的网页文本内容管控方法.pdf》由会员分享,可在线阅读,更多相关《一种基于偏好度的网页文本内容管控方法.pdf(10页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102436512 A (43)申请公布日 2012.05.02 C N 1 0 2 4 3 6 5 1 2 A *CN102436512A* (21)申请号 201210014032.8 (22)申请日 2012.01.17 G06F 17/30(2006.01) (71)申请人电子科技大学 地址 611731 四川省成都市高新区(西区)西 源大道2006号 (72)发明人佘堃 敬思远 吴娱 (74)专利代理机构电子科技大学专利中心 51203 代理人周永宏 (54) 发明名称 一种基于偏好度的网页文本内容管控方法 (57) 摘要 本发明公开了一种基于偏好度的网页文。

2、本内 容管控方法。本发明的方法包括通过分析用户感 兴趣的网页信息生成用户偏好网页库,利用文本 智能分析技术计算出待管控网页的偏好度,依据 此偏好度进行对网页的管控,同时用户根据管控 结果进行反馈,更新偏好网页库。本发明的方法通 过这种循环反馈式的增强学习,使得偏好库中的 用户偏好信息将得到持续修正,不断逼近用户“真 实”的偏好,最终加强对网页管控能力。本发明的 方法不仅能实现对网络不良信息过滤,维护网络 信息的健康,而且能过滤掉网络上大量对用户而 言无用的信息,为用户推送与其密切相关的信息。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页。

3、 说明书 6 页 附图 1 页 CN 102436519 A 1/2页 2 1.一种基于偏好度的网页文本内容管控方法,其特征在于,包括网页库生成步骤、网页 库分析步骤和用户信息反馈步骤,其中, 网页库生成步骤包括如下分步骤: S11.对网页文本信息分别进行分词,并且利用停用词表,除去分词里面的常用停用词, 得到特征值f i ; S12.计算每个词汇的统计值,按照对词汇进行降序排序,选出与分类最相关的 M个特征值,表示特征值为f i 的统计值,具体计算公式如下: 其中,A 1 表示属于c j 类别并且含有特征值f i 的网页数量,A 2 表示属于 c j 类别并且不含特征值f i 的网页数量,A。

4、 3 表示不属于c j 类别并且含有特征值f i 的网页数 量,A 4 表示不属于c j 类别并且不含特征值f i 的网页数量,N表示所有的网页数量。 S13.根据以下公式计算出每个特征值fi的条件概率值p(Ffi|Cc j ), 其中,n ij 为特征值fi在c j 类别网页中出现的次数,Num(c j )为c j 类别的网页总数, preference表示用户感兴趣的分类,non-preference表示用户不感兴趣的分类; S14.将提取出来的特征值和相对应的概率值,以及每个类别的网页总数记录下来,构 成偏好网页库; 网页库分析步骤包括如下分步骤: S21.计算出当前待分析网页文本df 。

5、1 ,f 3 ,.,f n 的偏好度p(Cpreference|d), 其中,Num(page)为所有网页的数量,Num(c j )为属于c j 类的网页数量,p(Ffi|C c j )为网页库生成阶段计算出来的概率值; S22.将计算出的偏好度p(Cpreference|d)与用户初始设定的阈值进行比较,如果 此偏好度大于阈值,则将该网页标记为用户所关心的网页。 用户信息反馈步骤包括如下分步骤: S31.提取用户当前网页的特征值,以及计算特征值在网页中出现的频率fn i ; S32.如果是一个没有推荐给用户的网页是用户所关心的,则执行步骤S33,如果是一 个推送给用户的网页是用户所不关心的,。

6、则执行步骤S34; S33.计算每一个特征词的概率值p * (Ffi|Cpreference) 权 利 要 求 书CN 102436512 A CN 102436519 A 2/2页 3 Num * (preference)Num(preference)+2 其中,n preference 为该特征词在用户关心的网页中出现的次数。用p * (Ffi|C preference)替换该特征值原有的概率值p(Ffi|Cpreference),用Num * (preference) 替换Num(preference),更新偏好网页库; S34.计算每一个特征词的概率值p * (Ffi|Cnon-pre。

7、ference) Num * (non-preference)Num(non-preference)+2 其中,n non-preference 为该特征词在用户不关心的网页中出现的次数,用p * (Ffi|C non-preference)替换该特征值原有的概率值p(Ffi|Cnon-preference),用 Num * (non-preference)替换Num(non-preference),更新偏好网页库。 2.根据权利要求1所述的网页文本内容管控方法,其特征在于,S11所述的分词具体采 用分词工具ICTCLAS3.0进行。 权 利 要 求 书CN 102436512 A CN 10。

8、2436519 A 1/6页 4 一种基于偏好度的网页文本内容管控方法 技术领域 0001 本发明属于计算机人工智能技术领域,具体涉及网页文本内容管控方法。 背景技术 0002 在网络和通信技术迅速发展的今天,Internet已经发展为当今世界上最大的信息 库和全球范围内传播信息最主要的渠道,人们越来越感受到了信息的冲击,然而因特网给 人类带来巨大便利的同时,也带来了许多问题。如网络信息混杂无序,垃圾信息充斥其中, 而且网络信息呈海量发展,一般的检索方法难以满足用户的信息需求。 发明内容 0003 本发明的目的是为了解决现有的网页文本内容管控方法存在的上述问题,提出了 一种基于偏好度的网页文本。

9、内容管控方法。 0004 本发明的技术方案是:一种基于偏好度的网页文本内容管控方法,包括网页库生 成步骤、网页库分析步骤和用户信息反馈步骤,其中, 0005 网页库生成步骤包括如下分步骤: 0006 S11.对网页文本信息分别进行分词,并且利用停用词表,除去分词里面的常用停 用词,得到特征值f i ; 0007 S12.计算每个词汇的统计值,按照对词汇进行降序排序,选出与分类最相 关的M个特征值,表示特征值为f i 的统计值,具体计算公式如下: 0008 0009 其中,A 1 表示属于c j 类别并且含有特征值f i 的网页数量,A 2 表示 属于c j 类别并且不含特征值f i 的网页数量。

10、,A 3 表示不属于c j 类别并且含有特征值f i 的网 页数量,A 4 表示不属于c j 类别并且不含特征值f i 的网页数量,N表示所有的网页数量。 0010 S13.根据以下公式计算出每个特征值fi的条件概率值p(Ffi|Cc j ), 0011 0012 其中,n ij 为特征值fi在c j 类别网页中出现的次数,Num(c j )为c j 类别的网页总 数,preference表示用户感兴趣的分类,non-preference表示用户不感兴趣的分类; 0013 S14.将提取出来的特征值和相对应的概率值,以及每个类别的网页总数记录下 来,构成偏好网页库; 0014 网页库分析步骤包。

11、括如下分步骤: 0015 S21.计算出当前待分析网页文本df 1 ,f 2 ,.,f n 的偏好度p(C preference|d), 说 明 书CN 102436512 A CN 102436519 A 2/6页 5 0016 0017 0018 其中,Num(page)为所有网页的数量,Num(c j )为属于c j 类的网页数量,p(Ffi|C c j )为网页库生成阶段计算出来的概率值; 0019 S22.将计算出的偏好度p(Cpreference|d)与用户初始设定的阈值进行比较, 如果此偏好度大于阈值,则将该网页标记为用户所关心的网页。 0020 用户信息反馈步骤包括如下分步骤:。

12、 0021 S31.提取用户当前网页的特征值,以及计算特征值在网页中出现的频率fn i ; 0022 S32.如果是一个没有推荐给用户的网页是用户所关心的,则执行步骤S33,如果 是一个推送给用户的网页是用户所不关心的,则执行步骤S34; 0023 S33.计算每一个特征词的概率值p * (Ffi|Cpreference) 0024 0025 Num * (preference)Num(preference)+2 0026 其中,n preference 为该特征词在用户关心的网页中出现的次数。用p * (Ffi|C preference)替换该特征值原有的概率值p(Ffi|Cpreferen。

13、ce),用Num * (preference) 替换Num(preference),更新偏好网页库; 0027 S34.计算每一个特征词的概率值p * (Ffi|Cnon-preference) 0028 0029 Num * (non-preference)Num(non-preference)+2 0030 其中,n non-preference 为该特征词在用户不关心的网页中出现的次数,用p * (Ffi|C non-preference)替换该特征值原有的概率值p(Ffi|Cnon-preference),用 Num * (non-preference)替换Num(non-prefer。

14、ence),更新偏好网页库。 0031 本发明的有益效果:本发明的方法包括通过分析用户感兴趣的网页信息生成用户 偏好网页库,利用文本智能分析技术计算出待管控网页的偏好度,依据此偏好度进行对网 页的管控,同时用户根据管控结果进行反馈,更新偏好网页库。本发明的方法通过这种循环 反馈式的增强学习,使得偏好库中的用户偏好信息将得到持续修正,不断逼近用户“真实” 的偏好,最终加强对网页管控能力。本发明的方法不仅能实现对网络不良信息过滤,维护网 络信息的健康,而且能过滤掉网络上大量对用户而言无用的信息,为用户推送与其密切相 关的信息。 附图说明 0032 图1本发明的基于偏好度的网页内容管控方法的流程示意。

15、图。 具体实施方式 说 明 书CN 102436512 A CN 102436519 A 3/6页 6 0033 下面结合附图和具体的实施方式对本发明作进一步的阐述。 0034 本发明方法针对网络信息混杂的问题,利用文本智能分析技术,实现基于用户个 人偏好对网页内容的管控,管控主要包含两个方面:一是过滤网络不良信息,主要目的在于 维护网络信息的健康,净化网络环境,称之为不良信息管控;二是过滤掉网络上大量对用户 而言无用、不相关的信息,主要目的在于获取与用户需求密切相关的信息,称之为相关信息 管控。 0035 本发明通过文本智能分析技术实现基于用户偏好对网页内容的管控,从海量网络 数据中过滤不良。

16、信息,及时获取与用户需求相关的信息,其技术具体主要涉及到文本分类 技术、中文分词技术、特征选择方法等几个方面。 0036 1.文本分类技术描述 0037 文本分类的任务是:在给定的类别体系下,根据文本的内容,将其自动映射到指定 的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导,即 一定数量的已分类好的训练文本或者实例,分类系统从训练文本中获取必要的信息,构造 分类器。 0038 在文本处理领域,通常采用向量空间模型(Vector Space Model,VSM)表示文本, 一篇文本可以表示为一个n维向量(w 1 ,w 2 ,.,w n ),其中w i (i1,2,.,。

17、n)表示第i个 特征项(Feature)的权重,n是特征项的个数,特征项可以是字、词、短语或者某种概念,本 发明实施例中采用词作为特征项,故称为特征词或特征值。 0039 权重有多种计算方法,最简单的是布尔权重,即权重为1(该特征词在文本中出 现)或者0(该特征词没有在文本中出现)。在本发明中,VSM中的权重计算采用词频来表 示,即用该特征词在文本中出现的次数来表示权重。 0040 文本分类抽象为一般的描述:设类别总数为|C|,c j 表示第j(j1,2,.,|C|) 类,提供给分类器的训练集(训练集中的文本都已经过人工分类)包含|D|篇文本,特征空 间(f 1 ,f 2 ,.,f n ),n。

18、为特征数量,每篇文本表示为d i (w i1 ,w i2 ,.,w in ),i1,2,., |D|。一篇待分类文本泛化表示为d x (w x1 ,w x2 ,.,w xn ),任务是将d x 分到相应的类别中 去。 0041 文本分类算法常用的主要有:贝叶斯分类算法、k近邻算法、决策树算法、支持向 量机方法。 0042 2.中文分词技术 0043 中文自动分词是中文信息处理技术中最关键的一个环节。所谓分词,就是把一个 句子中的词汇按照使用时的意义切分出来。在英语中单词与单词之间有显式的分割符,而 在中文里,只有段与段之间、句子与句子间有明显分割,而单词之间不存在这种分界符,因 此中文词汇的分。

19、割要复杂困难得多。随着汉语自动分词系统的关注度不断提高,各种分词 系统也不断建立,分词系统在运行速度、准确度等方面都已经具有了研究应用的价值,其中 最有代表性为中科院的分词工具ICTCLAS。ICTCLAS分词工具基于PDAT大规模知识库管理 技术,分词速度单机996KB/s,分词精度98.45,本发明实施例中采用了ICTCLAS3.0对网 页文本进行分词处理。 0044 3.特征选择方法 0045 网页中包含了大量的词汇,如果把这些词都作为特征词,将带来一系列问题。首先 说 明 书CN 102436512 A CN 102436519 A 4/6页 7 是向量的维数太大,给计算带来了非常大的。

20、压力,存储空间大、处理速度慢;其次是这些词 中实际上有很大一部分是与类别无关的,对分类作用不大。因此要降低向量的维数,选择 那些有代表意义的词作为特征。先对文本进行预处理,去掉那些常用的对分类用处不大的 词(停用词,stop word),然后采用某种特征选择方法对所有的词排序,选出排在前面的一 定数量的词作为特征词。常用的特征选择方法有:文档频次(DF),互信息(MI),信息增益 (IG), 2 统计量、相对熵(CE)。本发明的特征值提取采用 2 统计量方法,因此下面将详细 介绍 2 统计量方法: 0046 2 统计量度量词汇和类别独立性的缺乏程度, 2 越大,独立性越小,相关性越 大。 2 。

21、统计量的计算公式如下: 0047 0048 其中,A 1 、A 2 、A 3 、A 4 、N均表示文本数量,且NA 1 +A 2 +A 3 +A 4 ,A 1 表示属于c i 类别并 且含有词汇t的网页数量,A 2 表示属于c i 类别并且不含词汇t的网页数量,A 3 表示不属于 c i 类别并且含有词汇t的网页数量,A 4 表示不属于c i 类别并且不含词汇t的网页数量,N表 示所有的网页数量。 0049 表示对所有类别的平均统计量,计算公式如下: 0050 0051 本发明中将采用 2 统计量方法进行文本特征值提取,求出网页中每一个词汇的 平均统计量的值,再将词汇按照降序排列,选出对于网页。

22、内容分析影响重要的词汇作为 特征值。 0052 4.贝叶斯分类算法 0053 贝叶斯分类是一类常用的分类器,最基本的形式是简单贝叶斯分类器。其原理 是计算文本dx属于某个类别的概率p(c j |dx),将文本分到概率最大的类别中去。计算 p(c j |dx)时,利用了贝叶斯公式:其中,p(c j )表示类的先验概率, p(d x |c j )表示类的条件概率,对同一篇文本,p(d x )不变。 0054 设d x 表示为特征集合(f 1 ,f 2 ,.,f n ),n为特征个数,假设特征之间相互独立,则 有: 0055 0056 p(c j )和p(f i |c j )都可以利用训练集估计。 。

23、0057 本发明的基于偏好度的网页文本内容管控方法,包括网页库生成步骤、网页库分 析步骤和用户信息反馈步骤,其中, 0058 网页库生成步骤包括如下分步骤: 0059 S11.对网页文本信息分别进行分词,并且利用停用词表,除去分词里面的常用停 用词,得到特征值f i ; 0060 S12.计算每个词汇的统计值,按照对词汇进行降序排序,选出与分类最相 说 明 书CN 102436512 A CN 102436519 A 5/6页 8 关的前M个特征值,表示特征值为f i 的统计值,具体计算公式如下: 0061 0062 其中,A 1 表示属于c j 类别并且含有特征值f i 的网页数量,A 2 。

24、表示 属于c j 类别并且不含特征值f i 的网页数量,A 3 表示不属于c j 类别并且含有特征值f i 的网 页数量,A 4 表示不属于c j 类别并且不含特征值f i 的网页数量,N表示所有的网页数量。 0063 这里的M可以由用户预先设定。 0064 S13.根据以下公式计算出每个特征值fi的条件概率值p(Ffi|Cc j ), 0065 0066 其中,n ij 为特征值fi在c j 类别网页中出现的次数,Num(c j )为c j 类别的网页总 数,preference表示用户感兴趣的分类,non-preference表示用户不感兴趣的分类。这里, 条件概率式子p(Fifi|Cc 。

25、j )指的是特征值fi在c j 类别网页中出现的概率; 0067 S14.将提取出来的特征值和相对应的概率值,以及每个类别的网页总数记录下 来,构成偏好网页库; 0068 这里,步骤S11-S14可以看作为文本信息预处理的过程。 0069 网页库分析步骤包括如下分步骤: 0070 S21.计算出当前待分析网页文本df 1 ,f 2 ,.,f n 的偏好度p(C preference|d), 0071 0072 0073 其中,Num(page)为所有网页的数量,Num(c j )为属于c j 类的网页数量,p(Fi fi|Cc j )为网页库生成阶段计算出来的概率值。 0074 S22.将计算。

26、出的偏好度p(Cpreference|d),与用户初始设定的阈值进行比较, 如果此偏好度大于阈值,则将该网页标记为用户所关心的网页。 0075 用户信息反馈步骤包括如下分步骤: 0076 S31.提取用户当前网页的特征值,以及计算特征值在网页中出现的频率fn i ; 0077 S32.如果是一个没有推荐给用户的网页是用户所关心的,则执行步骤S33,如果 是一个推送给用户的网页是用户所不关心的,则执行步骤S34; 0078 S33.计算每一个特征词的概率值p * (Ffi|Cpreference) 0079 0080 Num * (preference)Num(preference)+2 008。

27、1 其中,n preference 为该特征词在用户关心的网页中出现的次数。用p * (Ffi|C preference)替换该特征值原有的概率值p(Ffi|Cpreference),用Num * (preference) 说 明 书CN 102436512 A CN 102436519 A 6/6页 9 替换Num(preference),更新偏好网页库。 0082 S34.计算每一个特征词的概率值p * (Ffi|Cnon-preference) 0083 0084 Num * (non-preference)Num(non-preference)+2 0085 其中,n non-pref。

28、erence 为该特征词在用户不关心的网页中出现的次数,用p * (Ffi|C non-preference)替换该特征值原有的概率值p(Ffi|Cnon-preference),用 Num * (non-preference)替换Num(non-preference),更新偏好网页库,这里,条件概率公式 p * (Ffi|Cpreference)指的是特征值fi在用户偏好的网页类中的概率,条件概率公 式p * (Ffi|Cnon-preference)指的是特征值fi在用户不偏好的网页类中的概率。 0086 本发明的方法通过文本分析技术对网页文本内容的分析,计算出网页偏好度,判 断网页是否是。

29、非法网页、是否是用户关心的网页,并根据分析结果对网页实施相应的管控 措施。本发明一方面可以过滤网络不良信息,维护网络信息的健康,净化网络环境,为未成 年人绿色上网保驾护航;另一方面还可以应用到电子商务系统中,利用生成的用户偏好信 息,帮助企业发现潜在的客户,进行个性化推荐和广告。 0087 本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发 明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的 普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各 种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。 说 明 书CN 102436512 A CN 102436519 A 1/1页 10 图1 说 明 书 附 图CN 102436512 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1