文本可理解性的度量方法.pdf

上传人:54 文档编号:971742 上传时间:2018-03-22 格式:PDF 页数:5 大小:225.18KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910048310.X

申请日:

2009.03.26

公开号:

CN101520774A

公开日:

2009.09.02

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/27公开日:20090902|||实质审查的生效|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

上海大学

发明人:

骆祥峰; 方 宁; 徐炜民; 刘方方

地址:

200444上海市宝山区上大路99号

优先权:

专利代理机构:

上海上大专利事务所(普通合伙)

代理人:

何文欣

PDF下载: PDF下载
内容摘要

本发明涉及一种文本可理解性的度量方法,它是通过定义单篇文本为一个若干关键词和句子组成的矩阵;再对矩阵中句子之间的关联关系进行计算来度量该文本的可理解性。本发明其核心是把文本的理解过程看作是对该文本中句子之间关联关系的提取和计算过程,从而来度量文本的可理解性。该方法可以计算文本中句子之间的逻辑关系,从而便于计算机进行处理。本发明可以为实现基于机器的文本理解提供技术解决方案。

权利要求书

1.  一种文本可理解性的度量方法,其特征在于操作步骤如下:
(1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;
(2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重;
(3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。

2.
  根据权利要求1所述的文本可理解性的度量方法,其特征在于所述步骤(2)中的两个句子之间的关联关系权重是用两个句子共同出现的所述关键词数目除以这两个句子所有关键词的数目。

3.
  根据权利要求1所述的文本可理解性的度量方法,其特征在于所述步骤(3)中的多个相连句子之间的逻辑结构定义为多个相连句子之间的三种逻辑结构:先总后分、先分后总、和一个连一个。

4.
  根据权利要求3所述的文本可理解性的度量方法,其特征在于所述步骤(3)中的计算多个相连句子之间的关联关系权重的步骤为:
(1)计算多个相连句子中的每两个句子之间的关联关系权重,这两个句子可能不相连;
(2)分别计算所述三种逻辑结构上的关联关系权重,此时用最小的两个句子的关联关系权重作为该结构上多个相连句子之间的关联关系权重;
(3)取有最大权值的逻辑结构作为最可能的逻辑结构,它的权重就是该多个相连句子之间的关联关系权重。

5.
  根据权利要求4所述的文本可理解性的度量方法,其特征在于由所述步骤(3)中所得的多个相连句子之间的关联关系权重,把不同数目的相连句子之间的所有关联关系权重相加就得到该文本的可理解性度量。

6.
  根据权利要求5所述的文本可理解性的度量方法,其特征在于所述不同数目的相连句子依据原有的句子排列,不同数目的句子是指前后连接的句子。

7.
  根据权利要求5所述的文本可理解性的度量方法,其特征在于依据原有的句子排列,所述不同数目的句子是指相前后连接的句子。

说明书

文本可理解性的度量方法
技术领域
本发明涉及一种文本的可理解性的度量方法,更具体地说,涉及一种计算文本中句子之间的关联关系来度量文本的可理解性的方法。
背景技术
文本的理解过程离不开对文本句子之间关联关系的提取和计算,句子之间的关联关系越多,文本越容易被理解。本发明涉及一种文本的可理解性的度量方法,其核心是依据句子之间逻辑结构来计算文本中句子之间的关联关系权重,从而度量文本的可理解性。
传统的文本分析仅仅停留在语法分析和简单的语义分析的基础之上,很少有基于文本句子之间的逻辑结构来计算句子之间的关联关系,从而度量文本的可理解性。本发明从认知科学的关联原理出发对文本的可理解性进行度量,从而为基于机器的文本理解提供技术支持。
本发明可以为网络上的搜索引擎、广告推送、电子商务和知识问答系统提供技术解决方案。
发明内容
本发明的目的在于针对目前机器分析文本的局限性,提供了一种文本可理解性的度量方法。为实现上述目的,本发明的构思是:把一篇文本中的关键词,即具有重要意义的名词和动词,提取出来;统计每一个句子中出现和不出现的关键词,计算每两个句子之间的关联关系权重;在判断了多个相连句子之间的逻辑结构之后,计算多个相连句子之间的关联关系权重;最后,累加不同数目的相连句子之间的所有关联关系权重作为该文本的可理解性度量。根据上述的发明构思,本发明采用下述技术方案:
一种文本可理解性的度量方法,其特征在于如下操作步骤:
统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;根据所述关键词是否在相应的句子上出现计算每两个句子之间的关联关系权重,即用两个句子共同出现的关键词数目除以这两个句子所有关键词的数目,这两个句子可能不相连。
根据多个相连句子之间的逻辑结构,定义了相连句子之间的三种逻辑结构:先总后分、先分后总、和一个连一个,来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性,其特征在于操作如下步骤:
1.分别计算三种逻辑结构上的关联关系权重。此时,用最小的两个句子(可能不相连)的关联关系权重作为该结构上多个相连句子之间的关联关系权重;
2.取有最大权值的逻辑结构作为最可能的逻辑结构,它的权重就是该多个相连句子之间的关联关系权重;
3.依据原有的句子排列,把从最小的2个相连句子到所有数目的相连句子之间的所有关联关系权重相加得到该文本的可理解性度量。
具体实施方式
本发明的一个优选实施例如下。本文本可理解性的度量方法的具体步骤如下:
(1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;
(2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重;
(3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。
一个实例,一篇文本包括两个关键词Tom(用C1表示)和cup(用C2表示),以及如下三句话,分别用S1、S2和S3表示,则三种逻辑结构的举例如下:
1.先总后分:
(S1)Tom breaks a cup.(S2)The cup is new.(S3)Tom is careless.
2.先分后总:
(S1)Tom is careless.(S2)The cup is new.(S3)Tom breaks a cup.
3.一个连一个:
(S1)The cup is new.(S2)Tom breaks a cup.(S3)Tom is careless.
现在一篇文本有如下的三个链接的句子:(S1)Tombreaks a cup.(S2)The cup is new.(S3)Tom is careless.我们将通过本发明的计算步骤先判断它的逻辑结构,再计算它的关联关系权重,从而度量该文本的可理解性。
1.提取关键词Tom(用C1表示)和cup(用C2表示)。
2.计算每两个句子(可能不相连)之间的关联关系权重,即s1→s2=0.5,s2→s3=0,s1→s3=0.5。
3.计算三个句子之间的关联关系权重,并计算该文本的可理解性,具体三个如下步骤:
分别计算三种逻辑结构上的三个相连句子之间的关联关系权重,
即,
a)若取逻辑结构为先分后总,则三个句子之间的关联关系权重为
( s 1 s 2 → s 3 ) = arg min s 1 → s 2 s 2 → s 3 = 0 ; ]]>
b)若取逻辑结构为先总后分,则三个句子之间的关联关系权重为
( s 1 → s 2 s 3 ) = arg min s 1 → s 2 s 1 → s 3 = 0 . 5 , ]]>
此时,为了计算多个相连句子之间的关联关系
权重需要用到两个不相连句子之间的关联关系s1→s3
c)若取逻辑结构为一个连一个,则三个句子之间的关联关系权重为 ( s 1 → s 2 → s 3 ) = arg min s 1 → s 2 s 2 → s 3 = 0 , ]]>此时,为了计算多个相连句子之间的关联关系权重需要用到两个不相连句子之间的关联关系s1→s3
取最大权重的逻辑结构作为三个相连句子之间的逻辑结构,其权重就是该三个相连句子之间的关联关系权重,即取先总后分的关联关系s1→s2s3=0.5,这与实际的情况相符合。
累加所有相连句子数目上的关联关系权重,作为该文本的可理解性度量,记为(s1→s2)+(s2→s3)+(s1→s2s3)=0.5+0+0.5=1。此时关联关系s1→s3不在累加和之中,是由于句子1和句子3之间并不直接相连。三个句子之间的不同顺序会影响逻辑结构的判断,以至于影响最后的文本可理解性的度量,这与实际的情况吻合。

文本可理解性的度量方法.pdf_第1页
第1页 / 共5页
文本可理解性的度量方法.pdf_第2页
第2页 / 共5页
文本可理解性的度量方法.pdf_第3页
第3页 / 共5页
点击查看更多>>
资源描述

《文本可理解性的度量方法.pdf》由会员分享,可在线阅读,更多相关《文本可理解性的度量方法.pdf(5页珍藏版)》请在专利查询网上搜索。

本发明涉及一种文本可理解性的度量方法,它是通过定义单篇文本为一个若干关键词和句子组成的矩阵;再对矩阵中句子之间的关联关系进行计算来度量该文本的可理解性。本发明其核心是把文本的理解过程看作是对该文本中句子之间关联关系的提取和计算过程,从而来度量文本的可理解性。该方法可以计算文本中句子之间的逻辑关系,从而便于计算机进行处理。本发明可以为实现基于机器的文本理解提供技术解决方案。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1