基于观点语句可信度的话题观点强度计算方法技术领域
本发明涉及一种基于观点语句可信度的话题观点强度计算方法,用于量化表征互
联网中与话题有关观点的强度,属于互联网与信息技术领域。
背景技术
随着网络技术的飞速发展,互联网日益成为人们获取信息和日常娱乐的主要途
径。在日常的学习和生活中,人们越来越依赖于从互联网中获取知识、掌握时事,越来越需
要借助互联网了解围绕某一热点话题的不同观点。在互联网中,网页是最常见的信息载体,
也是联系信息和网民的纽带。然而,由于互联网中的网页数量众多,每个人的精力相对有
限,因此受时间和精力等因素制约,人们往往无法深入了解围绕某一话题的所有观点的细
节。现有的话题检测与跟踪(Topic Detection and Tracking)技术,多侧重于对新闻媒体
信息流进行新话题的自动识别和已知话题的持续跟踪等方面,还少有专门针对话题的不同
观点进行话题观点强度计算方面的有效方法。
如果可以区分不同的话题观点,借助适宜的方法计算这些观点强度,并通过观点
强度来揭示大众观点和小众观点,人们就能够更加迅速在了解和勾勒出话题的全貌,并可
以进一步根据自己的兴趣偏好,有选择性地了解话题不同观点的观点细节。例如,当人们在
搜索某个热点事件的时候,通常受时间和精力的限制只能够阅读少数几个或者几十个网
页,这样就难以通过有限的网页了解该热点事件的所有观点及每一观点的支持比例。但是,
如果可以根据与话题有关的网页进行自动分析计算,进而获得围绕该话题的不同观点及其
观点强度,则可以方便人们快速、理性地认识事件的主流观点与看法。因此,亟需设计一种
能对网页进行自动处理的话题观点强度计算方法,定量地计算话题不同观点的观点强度,
既能呈现话题的全貌,又能展示话题不同观点的细节。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供了一种基于观点语句
可信度的话题观点强度计算方法,该方法能够计算话题不同观点的观点强度,方便用户定
量地了解围绕话题的不同观点的观点强度大小,区分主要观点和次要观点,有选择地去了
解不同观点的细节信息。
技术方案:一种基于观点语句可信度的话题观点强度计算方法,先通过网页的多
个关键属性计算出网页的可信程度(简称网页可信度),接着通过计算网页中观点语句(包
含有观点的语句)和网页主题的关联性,获得网页主题(主要是标题和关键词)对于观点语
句的支持度,然后综合网页可信度和观点语句支持度得到观点语句的可信度,最后通过对
隶属于给定观点类的所有观点语句的可信度进行求和,计算得到该话题观点类的观点强
度。
假设围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合VCS=
{VC1,VC2,VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即
上述n个观点类中的所有观点语句来源于m(≥1)个网页,这m个网页
所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk(dk∈VCD)包含Dk(≥1)个观点
语句,这Dk个观点语句构成网页dk的观点语句集合
则话题观
点类VCi的观点强度计算主要分为三个步骤,具体如下:
步骤1:网页可信度计算。对m个网页中的每一个网页dk(dk∈VCD),综合考虑网页dk
的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,计
算出网页dk的网页可信度;
步骤2:观点语句支持度计算。对于VCi中任一观点语句
(即
),不失一般
性,假定满足
则首先采用余弦相似度计算方法,计算观点语句
和网页dk的标题
间的相似度;接着,采用余弦相似度计算方法,计算观点语句
和网页dk的关键词间的相似
度;最后,在前述两种相似度中,选择取值较大的相似度,作为网页dk对观点语句
的支持
度;
步骤3:话题观点强度值计算。综合步骤1得到的网页dk的网页可信度,以及步骤2
得到的网页dk对观点语句
的支持度,获得观点类VCi中任一观点语句
的可信度。最后,通
过对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点的强度值。
有益效果:本发明与现有技术相比,具有以下优点:
1.通过观点语句支持度表征观点语句和网页主题的关系,并从观点语句和网页标
题之间的相似度以及观点语句和网页关键词之间的相似度两个方面,更加合理地刻画网页
主题对观点语句的支持程度;
2.给出了话题观点强度的量化计算方法,综合考虑了网页的可信度和网页对话题
观点语句的支持程度,能够帮助用户定量地了解话题不同观点的观点强度,区分主要观点
和次要观点,加深对话题观点的细节认识。
附图说明
图1为基于观点语句可信度的话题观点强度计算流程;
图2为话题观点类、观点语句和来源网页的对应关系示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明
而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价
形式的修改均落于本申请所附权利要求所限定的范围。
本发明主要根据观点语句可信度对话题观点强度进行计算,具体计算流程如图1
所示,包括三个步骤:网页可信度计算、观点语句支持度计算和观点强度值计算阶段。假设
围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合记为VCS={VC1,VC2,
VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即
上述n个观点类中的所有观点语句来源于m(≥1)个网页,这m个网页
所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk(dk∈VCD)包含Dk(≥1)个观点
语句,这Dk个观点语句构成网页dk的观点语句集合
话题观点
类、观点语句和来源网页之间的关系如图2所示。
不失一般性,下面对任一话题观点类VCi(VCi∈VCS)的观点强度进行计算,具体三
个实施步骤如下:
步骤1:网页可信度计算。对于网页集合VCD中的每一个网页dk(dk∈VCD),综合考虑
网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间
因子,采用公式(1)计算出网页dk的网页可信度DRW(dk);
DRW(dk)=λ1NPR(dk)+λ2NTR(dk)+λ3T(dk) 公式(1)
公式(1)中的3个系数λ1、λ2和λ3满足:
在本发明中,取λ1=0.8,λ2=0.1,λ3
=0.1。NPR(dk)表示网页dk的NPR因子,NTR(dk)表示网页dk的NTR因子,T(dk)表示网页dk的时
间因子。这三个因子的计算方法如下:
网页dk的NPR因子计算基于Google搜索引擎所采用的链接分析算法PageRank,该
算法为用户的浏览行为建立了一个随机访问模型:当用户访问一个网页的时候,或者以概
率g沿着超链接进行访问,或者以概率(1-g)从一个新的页面开始访问。而一个页面被访问
的概率,主要取决于链接到这个页面的页面访问概率。如果一个页面的入链越多,或者入链
的PR值(即PageRank值)越高,则该网页的PR值越高。网页的PR值的取值范围为PR∈[0,10),
对网页的PR值进行归一化处理,可以得到该网页的NPR(New PageRank)值。因此,网页dk的
NPR因子的计算如公式(2)所示,其中PR(dk)表示网页dk的PageRank值(即PR值):
![]()
网页dk的NTR因子计算基于垃圾网站检测算法TrustRank,该算法为每个网站计算
一个TR值,该值的高低与网站是垃圾网站的概率大小有关。TrustRank算法首先挑选出一定
数量的“种子”网站,并赋予这些“种子”网站很高的TR值;这些“种子”网站链接出的网站的
TR值稍微降低,但仍旧很高;类似地,第二层权威网站链接向第三层权威网站,则第三层权
威网站的TR值比第二层权威网站的TR值又稍微降低。那么,TR值与第一层权威网站相差较
大的网站有很大的可能性是垃圾网站。本发明对TrustRank算法进行简化处理,假定AP是权
威专业网站的集合(包括域名为edu、org、以及挑选出的其他权威网站,如新华网、人民网、
科学网、知乎等),当网页属于AP时,其NTR值设为α(在本发明中α的值取1);否则,该网页的
NTR值设为0。则网页dk的NTR因子的计算如公式(3)所示:
![]()
网页dk的时间因子基于这样的考虑:网页的可信度高低,与网页的发布时间有密
切的关系。对于同样的信息,发布时间较晚的网页,搜集到的资料更加丰富和全面,自然更
加能够反应事物的本质信息。所以,发布时间较晚的网页具有更高的可信度,相对应地,应
该为发布时间较晚的网页设置更高的可信度权重。网页dk的时间因子计算如公式(4)所示:
![]()
其中,td表示网页dk的最后修改时间,而tmax表示集合VCD中修改时间最晚的网页的
修改时间。
步骤2:观点语句支持度计算。本发明使用网页标题和网页关键词来表征网页的
主题,网页标题可以通过对网页源码的<title>标签获得,而网页关键词则通过对网页正文
用TF-IDF算法得到。假设
为VCi中的任一观点语句(即
),且满足
网页
dk的标题经过分词、去停用词之后,所得的词语集合记为
取
网页dk的所有关键词构成集合
而观点语句
经过分词、去
停用词之后,所得的词语集合记为
并且令![]()
![]()
下面示例利用余弦相似度计算方法,计算观点语句
和网页dk的标题之间的相似
度的过程,观点语句
和网页dk的关键词之间的相似度的计算过程与此类似。首先,计算网
页dk的标题词语集合W1相对于词语集合WTS的词语向量
其中元素
的取值满足公式(5):
![]()
接着,计算观点语句
的词语集合W3相对于词语集合WTS的词语向量
其中元素
的取值满足公式(6):
![]()
然后,利用公式(7)计算VT1和VS1之间的余弦相似度:
![]()
类似地,计算网页dk的关键词集合W2相对于词语集合WKS的词语向量
以及观点语句
的词语集合W3相对于词语集合WKS的词语向量
进而计算VT2和VS2之间的余弦相似度Cos(VT2,VS2)。
在此基础上,采用公式(8)网页dk的对观点语句
的支持度:
![]()
步骤3:话题观点强度值计算。首先,根据步骤1得到的网页dk的网页可信度DRW
(dk),以及步骤2得到的网页dk的对观点语句
的支持度
采用公式(9)计算观点
语句
的可信度:
![]()
然后,采用公式(10)对观点类VCi中的所有观点语句的可信度进行求和,计算得到
话题观点类VCi的强度值:
![]()