一种基于偏好度的网页文本内容管控方法 【技术领域】
本发明属于计算机人工智能技术领域, 具体涉及网页文本内容管控方法。背景技术
在网络和通信技术迅速发展的今天, Internet 已经发展为当今世界上最大的信息 库和全球范围内传播信息最主要的渠道, 人们越来越感受到了信息的冲击, 然而因特网给 人类带来巨大便利的同时, 也带来了许多问题。如网络信息混杂无序, 垃圾信息充斥其中, 而且网络信息呈海量发展, 一般的检索方法难以满足用户的信息需求。发明内容
本发明的目的是为了解决现有的网页文本内容管控方法存在的上述问题, 提出了 一种基于偏好度的网页文本内容管控方法。 本发明的技术方案是 : 一种基于偏好度的网页文本内容管控方法, 包括网页库生 成步骤、 网页库分析步骤和用户信息反馈步骤, 其中,
网页库生成步骤包括如下分步骤 :
S11. 对网页文本信息分别进行分词, 并且利用停用词表, 除去分词里面的常用停 用词, 得到特征值 fi ;
S12. 计算每个词汇的统计值, 按照对词汇进行降序排序, 选出与分类最相 统计值, 具体计算公式如下 :关的 M 个特征值,
表示特征值为 fi 的其中,A1 表示属于 cj 类别并且含有特征值 fi 的网页数量, A2 表示属于 cj 类别并且不含特征值 fi 的网页数量, A3 表示不属于 cj 类别并且含有特征值 fi 的网 页数量, A4 表示不属于 cj 类别并且不含特征值 fi 的网页数量, N 表示所有的网页数量。
S13. 根据以下公式计算出每个特征值 fi 的条件概率值 p(F = fi|C = cj),
其中, nij 为特征值 fi 在 cj 类别网页中出现的次数, Num(cj) 为 cj 类别的网页总 数, preference 表示用户感兴趣的分类, non-preference 表示用户不感兴趣的分类 ;
S14. 将提取出来的特征值和相对应的概率值, 以及每个类别的网页总数记录下 来, 构成偏好网页库 ;
网页库分析步骤包括如下分步骤 :
S21. 计 算 出 当 前 待 分 析 网 页 文 本 d = {f1, f2, ..., fn} 的 偏 好 度 p(C = preference|d),
其中, Num(page) 为所有网页的数量, Num(cj) 为属于 cj 类的网页数量, p(F = fi|C = cj) 为网页库生成阶段计算出来的概率值 ;
S22. 将计算出的偏好度 p(C = preference|d) 与用户初始设定的阈值进行比较, 如果此偏好度大于阈值, 则将该网页标记为用户所关心的网页。
用户信息反馈步骤包括如下分步骤 :
S31. 提取用户当前网页的特征值, 以及计算特征值在网页中出现的频率 fni ;
S32. 如果是一个没有推荐给用户的网页是用户所关心的, 则执行步骤 S33, 如果 是一个推送给用户的网页是用户所不关心的, 则执行步骤 S34 ; *
S33. 计算每一个特征词的概率值 p (F = fi|C = preference)
Num*(preference) = Num(preference)+2
其中, npreference 为该特征词在用户关心的网页中出现的次数。用 p*(F = fi|C = preference) 替换该特征值原有的概率值 p(F = fi|C = preference), 用 Num*(preference) 替换 Num(preference), 更新偏好网页库 ;
S34. 计算每一个特征词的概率值 p*(F = fi|C = non-preference)
Num*(non-preference) = Num(non-preference)+2
其中, nnon-preference 为该特征词在用户不关心的网页中出现的次数, 用 p*(F = fi|C = non-preference) 替 换 该 特 征 值 原 有 的 概 率 值 p(F = fi|C = non-preference), 用 * Num (non-preference) 替换 Num(non-preference), 更新偏好网页库。
本发明的有益效果 : 本发明的方法包括通过分析用户感兴趣的网页信息生成用户 偏好网页库, 利用文本智能分析技术计算出待管控网页的偏好度, 依据此偏好度进行对网 页的管控, 同时用户根据管控结果进行反馈, 更新偏好网页库。 本发明的方法通过这种循环 反馈式的增强学习, 使得偏好库中的用户偏好信息将得到持续修正, 不断逼近用户 “真实” 的偏好, 最终加强对网页管控能力。 本发明的方法不仅能实现对网络不良信息过滤, 维护网
络信息的健康, 而且能过滤掉网络上大量对用户而言无用的信息, 为用户推送与其密切相 关的信息。 附图说明
图 1 本发明的基于偏好度的网页内容管控方法的流程示意图。 具体实施方式下面结合附图和具体的实施方式对本发明作进一步的阐述。
本发明方法针对网络信息混杂的问题, 利用文本智能分析技术, 实现基于用户个 人偏好对网页内容的管控, 管控主要包含两个方面 : 一是过滤网络不良信息, 主要目的在于 维护网络信息的健康, 净化网络环境, 称之为不良信息管控 ; 二是过滤掉网络上大量对用户 而言无用、 不相关的信息, 主要目的在于获取与用户需求密切相关的信息, 称之为相关信息 管控。
本发明通过文本智能分析技术实现基于用户偏好对网页内容的管控, 从海量网络 数据中过滤不良信息, 及时获取与用户需求相关的信息, 其技术具体主要涉及到文本分类 技术、 中文分词技术、 特征选择方法等几个方面。
1. 文本分类技术描述
文本分类的任务是 : 在给定的类别体系下, 根据文本的内容, 将其自动映射到指定 的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导, 即 一定数量的已分类好的训练文本或者实例, 分类系统从训练文本中获取必要的信息, 构造 分类器。
在文本处理领域, 通常采用向量空间模型 (Vector Space Model, VSM) 表示文本, 一篇文本可以表示为一个 n 维向量 (w1, w2, ..., wn), 其中 wi(i = 1, 2, ..., n) 表示第 i 个 特征项 (Feature) 的权重, n 是特征项的个数, 特征项可以是字、 词、 短语或者某种概念, 本 发明实施例中采用词作为特征项, 故称为特征词或特征值。
权重有多种计算方法, 最简单的是布尔权重, 即权重为 1( 该特征词在文本中出 现 ) 或者 0( 该特征词没有在文本中出现 )。在本发明中, VSM 中的权重计算采用词频来表 示, 即用该特征词在文本中出现的次数来表示权重。
文本分类抽象为一般的描述 : 设类别总数为 |C|, cj 表示第 j(j = 1, 2, ..., |C|) 类, 提供给分类器的训练集 ( 训练集中的文本都已经过人工分类 ) 包含 |D| 篇文本, 特征空 间 (f1, f2, ..., fn), n 为特征数量, 每篇文本表示为 di = (wi1, wi2, ..., win), i = 1, 2, ..., |D|。一篇待分类文本泛化表示为 dx = (wx1, wx2, ..., wxn), 任务是将 dx 分到相应的类别中 去。
文本分类算法常用的主要有 : 贝叶斯分类算法、 k 近邻算法、 决策树算法、 支持向 量机方法。
2. 中文分词技术
中文自动分词是中文信息处理技术中最关键的一个环节。所谓分词, 就是把一个 句子中的词汇按照使用时的意义切分出来。在英语中单词与单词之间有显式的分割符, 而 在中文里, 只有段与段之间、 句子与句子间有明显分割, 而单词之间不存在这种分界符, 因 此中文词汇的分割要复杂困难得多。随着汉语自动分词系统的关注度不断提高, 各种分词 系统也不断建立, 分词系统在运行速度、 准确度等方面都已经具有了研究应用的价值, 其中 最有代表性为中科院的分词工具 ICTCLAS。ICTCLAS 分词工具基于 PDAT 大规模知识库管理 技术, 分词速度单机 996KB/s, 分词精度 98.45%, 本发明实施例中采用了 ICTCLAS3.0 对网 页文本进行分词处理。
3. 特征选择方法
网页中包含了大量的词汇, 如果把这些词都作为特征词, 将带来一系列问题。 首先是向量的维数太大, 给计算带来了非常大的压力, 存储空间大、 处理速度慢 ; 其次是这些词 中实际上有很大一部分是与类别无关的, 对分类作用不大。因此要降低向量的维数, 选择 那些有代表意义的词作为特征。先对文本进行预处理, 去掉那些常用的对分类用处不大的 词 ( 停用词, stop word), 然后采用某种特征选择方法对所有的词排序, 选出排在前面的一 定数量的词作为特征词。常用的特征选择方法有 : 文档频次 (DF), 互信息 (MI), 信息增益 2 2 (IG), χ 统计量、 相对熵 (CE)。本发明的特征值提取采用 χ 统计量方法, 因此下面将详细 2 介绍 χ 统计量方法 :
χ2 统计量度量词汇和类别独立性的缺乏程度, χ2 越大, 独立性越小, 相关性越 2 大。χ 统计量的计算公式如下 :
其中, A1、 A2、 A 3、 A4、 N 均表示文本数量, 且 N = A1+A2+A3+A4, A1 表示属于 ci 类别并 且含有词汇 t 的网页数量, A2 表示属于 ci 类别并且不含词汇 t 的网页数量, A3 表示不属于 ci 类别并且含有词汇 t 的网页数量, A4 表示不属于 ci 类别并且不含词汇 t 的网页数量, N表 示所有的网页数量。
表示对所有类别的平均统计量, 计算公式如下 :本发明中将采用 χ2 统计量方法进行文本特征值提取, 求出网页中每一个词汇的 的值, 再将词汇按照降序排列, 选出对于网页内容分析影响重要的词汇作为平均统计量特征值。
4. 贝叶斯分类算法
贝叶斯分类是一类常用的分类器, 最基本的形式是简单贝叶斯分类器。其原理 是计算文本 dx 属于某个类别的概率 p(cj|dx), 将文本分到概率最大的类别中去。计算 p(cj|dx) 时, 利用了贝叶斯公式 : 其中, p(cj) 表示类的先验概率,p(dx|cj) 表示类的条件概率, 对同一篇文本, p(dx) 不变。
设 dx 表示为特征集合 (f1, f2, ..., fn), n 为特征个数, 假设特征之间相互独立, 则 有:
p(cj) 和 p(fi|cj) 都可以利用训练集估计。
本发明的基于偏好度的网页文本内容管控方法, 包括网页库生成步骤、 网页库分 析步骤和用户信息反馈步骤, 其中,
网页库生成步骤包括如下分步骤 :
S11. 对网页文本信息分别进行分词, 并且利用停用词表, 除去分词里面的常用停 用词, 得到特征值 fi ;
S12. 计算每个词汇的统计值, 按照7对词汇进行降序排序, 选出与分类最相102436512 A CN 102436519说明书统计值, 具体计算公式如下 :5/6 页关的前 M 个特征值,
表示特征值为 fi 的其中,A1 表示属于 cj 类别并且含有特征值 fi 的网页数量, A2 表示A3 表示不属于 cj 类别并且含有特征值 fi 的网 属于 cj 类别并且不含特征值 fi 的网页数量, 页数量, A4 表示不属于 cj 类别并且不含特征值 fi 的网页数量, N 表示所有的网页数量。
这里的 M 可以由用户预先设定。
S13. 根据以下公式计算出每个特征值 fi 的条件概率值 p(F = fi|C = cj),
其中, nij 为特征值 fi 在 cj 类别网页中出现的次数, Num(cj) 为 cj 类别的网页总 数, preference 表示用户感兴趣的分类, non-preference 表示用户不感兴趣的分类。这里, 条件概率式子 p(Fi = fi|C = cj) 指的是特征值 fi 在 cj 类别网页中出现的概率 ;
S14. 将提取出来的特征值和相对应的概率值, 以及每个类别的网页总数记录下 来, 构成偏好网页库 ;
这里, 步骤 S11-S14 可以看作为文本信息预处理的过程。
网页库分析步骤包括如下分步骤 :
S21. 计 算 出 当 前 待 分 析 网 页 文 本 d = {f1, f2, ..., fn} 的 偏 好 度 p(C = preference|d),
其中, Num(page) 为所有网页的数量, Num(cj) 为属于 cj 类的网页数量, p(Fi = fi|C = cj) 为网页库生成阶段计算出来的概率值。
S22. 将计算出的偏好度 p(C = preference|d), 与用户初始设定的阈值进行比较, 如果此偏好度大于阈值, 则将该网页标记为用户所关心的网页。
用户信息反馈步骤包括如下分步骤 :
S31. 提取用户当前网页的特征值, 以及计算特征值在网页中出现的频率 fni ;
S32. 如果是一个没有推荐给用户的网页是用户所关心的, 则执行步骤 S33, 如果 是一个推送给用户的网页是用户所不关心的, 则执行步骤 S34 ; *
S33. 计算每一个特征词的概率值 p (F = fi|C = preference)
Num*(preference) = Num(preference)+2
其中, npreference 为该特征词在用户关心的网页中出现的次数。用 p*(F = fi|C = preference) 替换该特征值原有的概率值 p(F = fi|C = preference), 用 Num*(preference)
替换 Num(preference), 更新偏好网页库。
S34. 计算每一个特征词的概率值 p*(F = fi|C = non-preference)
Num*(non-preference) = Num(non-preference)+2
其中, nnon-preference 为该特征词在用户不关心的网页中出现的次数, 用 p*(F = fi|C = non-preference) 替 换 该 特 征 值 原 有 的 概 率 值 p(F = fi|C = non-preference), 用 * Num (non-preference) 替换 Num(non-preference), 更新偏好网页库, 这里, 条件概率公式 * p (F = fi|C = preference) 指的是特征值 fi 在用户偏好的网页类中的概率, 条件概率公 * 式 p (F = fi|C = non-preference) 指的是特征值 fi 在用户不偏好的网页类中的概率。
本发明的方法通过文本分析技术对网页文本内容的分析, 计算出网页偏好度, 判 断网页是否是非法网页、 是否是用户关心的网页, 并根据分析结果对网页实施相应的管控 措施。本发明一方面可以过滤网络不良信息, 维护网络信息的健康, 净化网络环境, 为未成 年人绿色上网保驾护航 ; 另一方面还可以应用到电子商务系统中, 利用生成的用户偏好信 息, 帮助企业发现潜在的客户, 进行个性化推荐和广告。
本领域的普通技术人员将会意识到, 这里所述的实施例是为了帮助读者理解本发 明的原理, 应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的 普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各 种具体变形和组合, 这些变形和组合仍然在本发明的保护范围内。