一种确定问答平台中的未回答问题优先级的方法及装置.pdf

上传人:b*** 文档编号:6122904 上传时间:2019-04-13 格式:PDF 页数:13 大小:1.27MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210526381.8

申请日:

2012.12.07

公开号:

CN103870457A

公开日:

2014.06.18

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20121207|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京百度网讯科技有限公司

发明人:

陈庆轩; 喻宏勇; 李国洪

地址:

100085 北京市海淀区上地十街10号百度大厦2层

优先权:

专利代理机构:

北京鸿德海业知识产权代理事务所(普通合伙) 11412

代理人:

倪志华

PDF下载: PDF下载
内容摘要

本发明提供了一种确定问答平台中的未回答问题优先级的方法及装置,其中所述方法包括:对问答平台中的问题进行聚类,得到若干个类别;根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。通过上述方式,本发明可以提高问答平台中未回答问题的回答效率。

权利要求书

权利要求书
1.  一种确定问答平台中的未回答问题优先级的方法,包括:
对问答平台中的问题进行聚类,得到若干个类别;
根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。

2.  根据权利要求1所述的方法,其特征在于,所述“对问答平台中的问题进行聚类”的步骤具体包括:
对问答平台中的各问题进行切分;
确定各问题中的分词对应的表意权重;
根据所述表意权重确定各问题的主干词;
根据各问题的主干词对各问题进行聚类。

3.  根据权利要求2所述的方法,其特征在于,所述“对问答平台中的各问题进行切分”的步骤具体包括:
针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。

4.  根据权利要求3所述的方法,其特征在于,所述“确定各问题中的分词对应的表意权重”的步骤具体包括:
针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;
根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;
针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。

5.  根据权利要求1所述的方法,其特征在于,所述“根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级”的步骤具体包括:
计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;
根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。

6.  一种确定问答平台中的未回答问题优先级的装置,包括:
聚类单元,用于对问答平台中的问题进行聚类,得到若干个类别;
确定单元,用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的优先级。

7.  根据权利要求6所述的装置,其特征在于,所述聚类单元具体包括:
切分单元,用于对回答平台中的各问题进行切分;
权重确定单元,用于确定各问题中的分词对应的表意权重;
主干词确定单元,用于根据所述表意权重确定各问题的主干词;
问题聚类单元,用于根据各问题的主干词对各问题进行聚类。

8.  根据权利要求7所述的装置,其特征在于,所述切分单元对各问题进行切分的方式具体包括:
针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。

9.  根据权利要求8所述的装置,其特征在于,所述权重确定单元具体包括:
赋值单元,用于针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;
调整单元,用于根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对 词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;
合并单元,用于针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。

10.  根据权利要求6所述的装置,其特征在于,所述确定单元具体包括:
计算单元,用于计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;
优先级确定单元,用于根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。

说明书

说明书一种确定问答平台中的未回答问题优先级的方法及装置
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种确定问答平台中的未回答问题优先级的方法及装置。
【背景技术】
随着互联网的不断发展,人们不仅从网络中获取自己想要的资源,也通过网络向其他用户提供资源。互联网中的问答平台,例如百度知道等,就是一种供知识需求方的用户和知识提供方的用户进行交流的中介平台。知识需求方的用户可以通过该平台发布自己的提问,而知识提供方的用户可以在该平台上回答自己能够解答的问题,这些回答除了可以给提问方带来价值,还可以作为知识的积累,给将来有类似问题的用户带来参考价值。
在问答平台上每天产生的问题数量是巨大的,而用户的回答能力却是有限的,如何充分地利用用户的回答能力,提高问答平台中未回答问题的回答效率,是亟待解决的问题。
【发明内容】
本发明所要解决的技术问题是提供一种确定问答平台中的未回答问题优先级的方法及装置,以提高问答平台中未回答问题的回答效率。
本发明为解决技术问题而采用的技术方案是提供一种确定问答平台中的未回答问题优先级的方法,包括:对问答平台中的问题进行聚类,得到若干个类别;根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。
根据本发明之一优选实施例,所述“对问答平台中的问题进行聚类”的步骤具体包括:对问答平台中的各问题进行切分;确定各问题中的分词对应的表 意权重;根据所述表意权重确定各问题的主干词;根据各问题的主干词对各问题进行聚类。
根据本发明之一优选实施例,所述“对问答平台中的各问题进行切分”的步骤具体包括:针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。
根据本发明之一优选实施例,所述“确定各问题中的分词对应的表意权重”的步骤具体包括:针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。
根据本发明之一优选实施例,所述“根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级”的步骤具体包括:计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
本发明还提供了一种确定问答平台中的未回答问题优先级的装置,包括:聚类单元,用于对问答平台中的问题进行聚类,得到若干个类别;确定单元,用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的优先级。
根据本发明之一优选实施例,所述聚类单元具体包括:切分单元,用于对回答平台中的各问题进行切分;权重确定单元,用于确定各问题中的分词对应 的表意权重;主干词确定单元,用于根据所述表意权重确定各问题的主干词;问题聚类单元,用于根据各问题的主干词对各问题进行聚类。
根据本发明之一优选实施例,所述切分单元对各问题进行切分的方式具体包括:针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。
根据本发明之一优选实施例,所述权重确定单元具体包括:赋值单元,用于针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;调整单元,用于根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;合并单元,用于针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。
根据本发明之一优选实施例,所述确定单元具体包括:计算单元,用于计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;优先级确定单元,用于根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
由以上技术方案可以看出,本发明通过将问答平台中的各种问题进行聚类,可将具有相似性的问题归为一类,由于已回答问题的点击率可以反映已回答问题的热门程度,因此利用同一类别中已回答问题的点击率来确定未回答问题的优先级,能够对未回答问题的重要程度进行很好地衡量,从而使得重要性高的未回答问题能够得到及时回答,提高了问答平台中未回答问题的回答效率。
【附图说明】
图1为本发明中确定问答平台中的未回答问题优先级的方法的实施例的流程示意图;
图2为本发明中确定问答平台中的未回答问题优先级的装置的实施例的结构示意框图;
图3为本发明中权重确定单元2012的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的实施例中所述的问题,可以仅包括问答平台中提问的标题,也可以是问题平台中提问的标题和内容共同组成的内容,优选的,仅使用提问的标题作为下述实施例中所述的问题参与本发明的处理。
请参考图1,图1为本发明中确定问答平台中的未回答问题优先级的方法的实施例的流程示意图。如图1所示,该实施例的方法包括:
步骤S101:对问答平台中的问题进行聚类,得到若干个类别。
步骤S102:根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。
下面对上述步骤进行详细说明。
步骤S101具体包括步骤S1011、S1012、S1013及S1014。
步骤S1011:对问答平台中的各问题进行切分。
可以对每个问题按照单一的粒度进行切分,但是作为一种优选的方式,步骤S1011中,针对问答平台中的每个问题,分别按照基本粒度、短语粒度及实体粒度分别对该问题进行切分。
其中,按照基本粒度和短语粒度对问题进行切分,就是分别按照基本词表和短语词表对问题进行完整切分,而按照实体粒度对问题进行切分,是把问题中与实体词表中相同的部分提取出来作为实体粒度的分词。上述基本词 表、短语词表及实体词表均是通过现有技术可以收集到的词表,在此不再赘述获取过程。
例如,对“侠盗飞车罪恶都市秘籍大全”这个问题,以上述三种粒度分别进行切分,可以得到的分词如下:
基本粒度分词:侠盗、飞车、罪恶、都市、秘籍、大全
短语粒度分词:侠盗飞车、罪恶都市、秘籍、大全
实体粒度分词:罪恶都市秘籍
步骤S1012:确定各问题中的分词对应的表意权重。表意权重是用来衡量分词对表达问题含义所产生的贡献的指标。
具体地,步骤S1012可包括步骤S1012a、S1012b、S1012c。
步骤S1012a:针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值。赋初始值可采用多种策略,例如一种策略是对基本粒度分词和短语粒度分词的表意权重赋予初始值,而实体粒度分词如果能够覆盖完整的基本粒度分词或/和短语粒度分词,则实体粒度分词的表意权重为其覆盖的分词权重之和的最大可能值。例如“罪恶都市秘籍”这个实体粒度分词可覆盖“罪恶都市”和“秘籍”,或者覆盖“罪恶”、“都市”和“秘籍”,如果“罪恶”、“都市”与“秘籍”的初始权重之和大于“罪恶都市”和“秘籍”的初始权重之和,则“罪恶都市秘籍”这个实体粒度分词的初始表意权重就是“罪恶”、“都市”与“秘籍”的初始权重之和。此外,如果实体粒度分词不能完整覆盖基本粒度分词或/和短语粒度分词,则将这个实体粒度分词取消。例如“玛雅体验怎样”这个问题中可以提取“玛雅体”这个实体粒度分词,但是其不能覆盖“玛雅”、“体验”,因此将这个实体粒度分词取消。
步骤S1012b:根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对分句进行限定且对满足该限定的分句中的分词的权重进行调整的规则,所述词性级规则是对词性进行 限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则。
其中,词语级规则可以包括以下任意一种或多种的组合:
规则一:对IDF(inverse document frequency)值位于设定区间的分词进行加权。其中,每个词语的IDF值可通过现有技术计算得到。
规则二:对位于问题的起始位置的分词进行加权。
规则三:对包含数字的分词进行降权。
句子级规则可以包括以下任意一种或多种的组合:
规则四:对长度在所属问题中的占比低于第一设定值的分句中的分词进行降权。例如“请问,鸡肉的营养和成长时间有关系吗”这个问题中,“请问”作为分句,其长度在这个问题中的占比是1/8,假设第一设定值是1/4,则“请问”这个分句中的“请”和“问”这两个分词的权重就会降低。
规则五:对包含的名词数量低于第二设定值的分句中的分词进行降权。例如“从历史来看,钓鱼岛属于哪个国家的领土”这个问题中,“从历史来看”这个分句中的名词数量是1,假设第二设定值为2,则“从历史来看”这个分句中的“从”、“历史”、“来”、“看”这几个分词的权重就会降低。
规则六:对过滤掉停用词后的词语数量低于第三设定值的分句中的分词进行降权。停用词可通过停用词表来确定。一个分句过滤掉停用词后,剩下的是对表达句子含义产生贡献的有效词汇,如果这个分句剩下的有效词汇数量低于第三设定值,则这个分句中的所有分词都进行降权。
词性级规则包括:对与长度低于第四设定值的分词具有相同词性的其他分词进行降权。例如“从”这个分词的长度低于第四设定值“2”,而“从”属于介词,因此降低其他属于介词的分词的权重。
粒度相关关系规则包括:针对同一问题,若该问题的实体粒度分词覆盖完整的基本粒度分词或/和短语粒度分词,则对该实体粒度分词及覆盖的分词进行加权。
步骤S1012c:针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。以“侠盗飞车罪恶都市秘籍大全”这个问题为例,首先在各种粒度分词中保留最大粒度的分词,因此该问题可以得到“侠盗飞车”、“罪恶都市秘籍”、“大全”。其每个分词的表意权重由最大可能值确定,例如短语粒度分词“侠盗飞车”包含了基本粒度分词“侠盗”和“飞车”,如果短语粒度分词“侠盗飞车”的表意权重大于基本粒度分词“侠盗”和“飞车”的表意权重之和,则最终的分词“侠盗飞车”的表意权重就是短语粒度分词“侠盗飞车”的表意权重,否则,最终的分词“侠盗飞车”的表意权重就是基本粒度分词“侠盗”和“飞车”的表意权重之和。
经过步骤S1012处理之后,问答平台中的每个问题都具有了属于该问题的分词及其表意权重。
步骤S1013:根据分词的表意权重确定各问题的主干词。具体地,就是将每个问题中表意权重大于预设值的分词作为该问题的主干词。
步骤S1014:根据各问题的主干词对各问题进行聚类。
下面通过实施例对步骤S1014的聚类方法进行介绍。
本实施例中,聚类是通过迭代进行的。例如有以下问题,括号中的数字分别代表问题的一个主干词,且每个问题中的主干词按照表意权重从大到小的顺序排列:
问题A:(1,2,3,4,5)
问题B:(1,2,3,6,7)
问题C:(1,2,8,9,10)
问题D:(1,2,8,11,12)
在聚类时,先依据每个问题排在前一位的主干词进行聚类,即,将前一位的主干词相同的问题作为一类,上述四个问题的第一位的主干词均是1,因此这四个问题都是一类,然后判断迭代终止的条件是否满足,迭代终止的条件包括:迭代的次数是否达到了预设值,或者当前聚类得到的类别中的问题个数是否小于设定值。例如迭代终止条件为:迭代次数达到5,或者当前 聚类得到的类别中的问题的个数小于3。由于问题A到D被聚为一类,使得该类别中的问题个数为4,不满足迭代终止条件,因此,进行第二次迭代:依据每个问题排在前两位的主干词进行聚类,即,将前两位的主干词相同的问题作为一类。由于问题A到D前两位的主干词均包含1和2,因此问题A到D仍然是一类,由于迭代次数仍未满足终止条件,因此进行第三次迭代:依据每个问题排在前三位的主干词进行聚类,即,将前三位的主干词相同的问题作为一类。由于问题A和B的前三位的主干词相同,问题C和问题D的前三位的主干词相同,因此问题A和B是一类,问题C和问题D是一类,由于每类中的问题数为2,小于3,因此可以结束迭代,得到最终的聚类结果就是问题A和问题B是一类,问题C和问题D是一类。
至此,对步骤S101的实现方式进行了完整的介绍。
步骤S102具体包括:
步骤S1021:计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将该平均点击率作为该类别中未回答问题的模拟点击率。
步骤S1022:根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
例如,步骤S1021中的设定长度时间为3天,则步骤S1021中,一个类别中的未回答问题的模拟点击率=该类别中的所有已回答问题在3天内的点击次数之和/(该类别中的已回答问题个数*3)。
当未回答问题的模拟点击率确定之后,步骤S1022就可依据模拟点击率确定优先级,例如将模拟点击率在第一预设区间的未回答问题的优先级设置为最高级,模拟点击率在第二预设区间的未回答问题的优先级设置为次高级,其中第一预设区间大于第二预设区间,其他优先级可以此类推。
在问答平台上,进一步对未回答问题按照优先级进行展示,就能够充分提高问答平台中未回答问题的回答效率。
请参考图2,图2为本发明中确定问答平台中的未回答问题优先级的装置的实施例的结构示意框图。如图2所示,该实施例的装置包括:聚类单元 201及确定单元202。
其中,聚类单元201,用于对问答平台中的问题进行聚类,得到若干个类别。确定单元202,用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的优先级。
具体地,聚类单元201包括切分单元2011、权重确定单元2012、主干词确定单元2013及问题聚类单元2014。
其中,切分单元2011,用于对回答平台中的各问题进行切分。权重确定单元2012,用于确定各问题中的分词对应的表意权重。主干词确定单元2013,用于根据分词的表意权重确定各问题的主干词。问题聚类单元2014,用于根据各问题的主干词对各问题进行聚类。下面对上述单元的具体实现方式进行介绍。
具体地,切分单元2011可以对每个问题按照单一的粒度进行切分,但是作为一种优选的方式,切分单元2011,针对问答平台中的每个问题,分别按照基本粒度、短语粒度及实体粒度分别对该问题进行切分。
其中,按照基本粒度和短语粒度对问题进行切分,就是分别按照基本词表和短语词表对问题进行完整切分,而按照实体粒度对问题进行切分,是把问题中与实体词表中相同的部分提取出来作为实体粒度的分词。上述基本词表、短语词表及实体词表均是通过现有技术可以收集到的词表,在此不再赘述获取过程。
例如,对“侠盗飞车罪恶都市秘籍大全”这个问题,以上述三种粒度分别进行切分,可以得到的分词如下:
基本粒度分词:侠盗、飞车、罪恶、都市、秘籍、大全
短语粒度分词:侠盗飞车、罪恶都市、秘籍、大全
实体粒度分词:罪恶都市秘籍
请参考图3,图3为本发明中权重确定单元2012的实施例的结构示意框图。如图3所示,权重确定单元2012包括赋值单元2012a、调整单元2012b和合并单元2012c。
其中,赋值单元2012a,用于针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值。表意权重是用来衡量分词对表达问题含义所产生的贡献的指标。赋值单元2012a赋初始值可采用多种策略,例如一种策略是对基本粒度分词和短语粒度分词的表意权重赋予初始值,而实体粒度分词如果能够覆盖完整的基本粒度分词或/和短语粒度分词,则实体粒度分词的表意权重为其覆盖的分词权重之和的最大可能值。例如“罪恶都市秘籍”这个实体粒度分词可覆盖“罪恶都市”和“秘籍”,或者覆盖“罪恶”、“都市”和“秘籍”,如果“罪恶”、“都市”与“秘籍”的初始权重之和大于“罪恶都市”和“秘籍”的初始权重之和,则“罪恶都市秘籍”这个实体粒度分词的初始表意权重就是“罪恶”、“都市”与“秘籍”的初始权重之和。此外,如果实体粒度分词不能完整覆盖基本粒度分词或/和短语粒度分词,则将这个实体粒度分词取消。例如“玛雅体验怎样”这个问题中可以提取“玛雅体”这个实体粒度分词,但是其不能覆盖“玛雅”、“体验”,因此将这个实体粒度分词取消。
调整单元2012b,用于根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词权重进行调整的规则。
其中,词语级规则可以包括以下任意一种或多种的组合:
规则一:对IDF(inverse document frequency)值位于设定区间的分词进行加权。其中,每个词语的IDF值可通过现有技术计算得到。
规则二:对位于问题的起始位置的分词进行加权。
规则三:对包含数字的分词进行降权。
句子级规则可以包括以下任意一种或多种的组合:
规则四:对长度在所属问题中的占比低于第一设定值的分句中的分词进行降权。例如“请问,鸡肉的营养和成长时间有关系吗”这个问题中,“请问”作为分句,其长度在这个问题中的占比是1/8,假设第一设定值是1/4,则“请问”这个分句中的“请”和“问”这两个分词的权重就会降低。
规则五:对包含的名词数量低于第二设定值的分句中的分词进行降权。例如“从历史来看,钓鱼岛属于哪个国家的领土”这个问题中,“从历史来看”这个分句中的名词数量是1,假设第二设定值为2,则“从历史来看”这个分句中的“从”、“历史”、“来”、“看”这几个分词的权重就会降低。
规则六:对过滤掉停用词后的词语数量低于第三设定值的分句中的分词进行降权。停用词可通过停用词表来确定。一个分句过滤掉停用词后,剩下的是对表达句子含义产生贡献的有效词汇,如果这个分句剩下的有效词汇数量低于第三设定值,则这个分句中的所有分词都进行降权。
词性级规则包括:对与长度低于第四设定值的分词具有相同词性的其他分词进行降权。例如“从”这个分词的长度低于第四设定值“2”,而“从”属于介词,因此降低其他属于介词的分词的权重。
粒度相关关系规则包括:针对同一问题,若该问题的实体粒度分词覆盖完整的基本粒度分词或/和短语粒度分词,则对该实体粒度分词及覆盖的分词进行加权。
合并单元2012c,用于针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。以“侠盗飞车罪恶都市秘籍大全”这个问题为例,合并单元2012c首先在各种粒度分词中保留最大粒度的分词,因此该问题可以得到“侠盗飞车”、“罪恶都市秘籍”、“大全”。其每个分词的表意权重由最大可能值确定,例如短语粒度分词“侠盗飞车”包含了基本粒度分词“侠盗”和“飞车”,如果短语粒度分词“侠盗飞车”的表意权重大于基本粒度分词“侠盗”和“飞车”的表意权重之和,则最终的分词“侠盗飞车”的表意权重就是短语粒度分词“侠盗飞车”的表意权重, 否则,最终的分词“侠盗飞车”的表意权重就是基本粒度分词“侠盗”和“飞车”的表意权重之和。
在权重确定单元2012确定了问答平台中的各个问题的分词的表意权重后,主干词确定单元2013确定主干词的方式具体包括:将每个问题中表意权重大于预设值的分词作为该问题的主干词。
下面对问题聚类单元2014的聚类方式进行介绍。
本实施例中,问题聚类单元2014的聚类是通过迭代进行的。例如有以下问题,其中括号中的数字分别代表一个主干词,且每个问题中的主干词按照表意权重从大到小的顺序排列:
问题A:(1,2,3,4,5)
问题B:(1,2,3,6,7)
问题C:(1,2,8,9,10)
问题D:(1,2,8,11,12)
在聚类时,问题聚类单元2014先依据每个问题排在前一位的主干词进行聚类,即,将前一位的主干词相同的问题作为一类,上述四个问题的第一位的主干词均是1,因此这四个问题都是一类,然后问题聚类单元2014判断迭代终止的条件是否满足,迭代终止的条件包括:迭代的次数是否达到了预设值,或者当前聚类得到的类别中的问题个数是否小于设定值。例如迭代终止条件为:迭代次数达到5,或者当前聚类得到的类别中的问题的个数小于3。由于问题A到D被聚为一类,使得该类别中的问题个数为4,不满足迭代终止条件,因此,问题聚类单元2014进行第二次迭代:依据每个问题排在前两位的主干词进行聚类,即,将前两位的主干词相同的问题作为一类。由于问题A到D前两位的主干词均包含1和2,因此问题A到D仍然是一类,由于迭代次数仍未满足终止条件,因此问题聚类单元2014进行第三次迭代:依据每个问题排在前三位的主干词进行聚类,即,将前三位的主干词相同的问题作为一类。由于问题A和B的前三位的主干词相同,问题C和问题D的前三位的主干词相同,因此问题A和B是一类,问题C和问题D是一类, 由于每类中的问题数为2,小于3,因此可以结束迭代,得到最终的聚类结果就是问题A和问题B是一类,问题C和问题D是一类。
请继续参考图2。图2中的确定单元202具体包括计算单元2021及优先级确定单元2022。
其中,计算单元2021,用于计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将该平均点击率作为该类别中未回答问题的模拟点击率。例如设定长度时间为3天,则一个类别中的未回答问题的模拟点击率=该类别中的所有已回答问题在3天内的点击次数之和/(该类别中的已回答问题个数*3)。
优先级确定单元2022,用于根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。例如优先级确定单元2022将模拟点击率在第一预设区间的未回答问题的优先级设置为最高级,模拟点击率在第二预设区间的未回答问题的优先级设置为次高级,其中第一预设区间大于第二预设区间,其他优先级可以此类推。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

一种确定问答平台中的未回答问题优先级的方法及装置.pdf_第1页
第1页 / 共13页
一种确定问答平台中的未回答问题优先级的方法及装置.pdf_第2页
第2页 / 共13页
一种确定问答平台中的未回答问题优先级的方法及装置.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种确定问答平台中的未回答问题优先级的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种确定问答平台中的未回答问题优先级的方法及装置.pdf(13页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103870457 A (43)申请公布日 2014.06.18 CN 103870457 A (21)申请号 201210526381.8 (22)申请日 2012.12.07 G06F 17/30(2006.01) (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦 2 层 (72)发明人 陈庆轩 喻宏勇 李国洪 (74)专利代理机构 北京鸿德海业知识产权代理 事务所 ( 普通合伙 ) 11412 代理人 倪志华 (54) 发明名称 一种确定问答平台中的未回答问题优先级的 方法及装置 (57) 摘要 本发明提供了。

2、一种确定问答平台中的未回答 问题优先级的方法及装置, 其中所述方法包括 : 对问答平台中的问题进行聚类, 得到若干个类别 ; 根据相同类别中的已回答问题的点击率确定该类 别中未回答问题的优先级。 通过上述方式, 本发明 可以提高问答平台中未回答问题的回答效率。 (51)Int.Cl. 权利要求书 2 页 说明书 8 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书8页 附图2页 (10)申请公布号 CN 103870457 A CN 103870457 A 1/2 页 2 1. 一种确定问答平台中的未回答问题优先级的方法, 包括 : 对问答平。

3、台中的问题进行聚类, 得到若干个类别 ; 根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述 “对问答平台中的问题进行聚类” 的 步骤具体包括 : 对问答平台中的各问题进行切分 ; 确定各问题中的分词对应的表意权重 ; 根据所述表意权重确定各问题的主干词 ; 根据各问题的主干词对各问题进行聚类。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述 “对问答平台中的各问题进行切分” 的步骤具体包括 : 针对各问题, 分别按照若干种粒度对该问题进行切分, 其中所述若干种粒度包括基本 粒度、 短语粒度及实体粒度。 4. 。

4、根据权利要求 3 所述的方法, 其特征在于, 所述 “确定各问题中的分词对应的表意权 重” 的步骤具体包括 : 针对各问题, 对该问题中的各种粒度分词对应的表意权重赋予初始值 ; 根据预设的调整规则调整各种粒度分词对应的表意权重, 其中所述调整规则至少包括 词语级规则、 句子级规则、 词性级规则和粒度相关关系规则中的一种, 所述词语级规则是对 分词进行限定且对满足该限定的分词的权重进行调整的规则, 所述句子级规则是对句子进 行限定且对满足该限定的句子中的分词的权重进行调整的规则, 所述词性级规则是对词性 进行限定且对词性符合该限定的分词的权重进行调整的规则, 所述粒度相关关系规则是对 相同问题。

5、的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的 规则 ; 针对各问题, 依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进 行合并。 5. 根据权利要求 1 所述的方法, 其特征在于, 所述 “根据相同类别中的已回答问题的点 击率确定该类别中未回答问题的优先级” 的步骤具体包括 : 计算相同类别中的已回答问题在设定长度时间内的平均点击率, 并将所述平均点击率 作为该类别中未回答问题的模拟点击率 ; 根据各个未回答问题的模拟点击率确定该未回答问题的优先级, 其中模拟点击率越高 的未回答问题的优先级越高。 6. 一种确定问答平台中的未回答问题优先级的装置, 包括 。

6、: 聚类单元, 用于对问答平台中的问题进行聚类, 得到若干个类别 ; 确定单元, 用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的 优先级。 7. 根据权利要求 6 所述的装置, 其特征在于, 所述聚类单元具体包括 : 切分单元, 用于对回答平台中的各问题进行切分 ; 权重确定单元, 用于确定各问题中的分词对应的表意权重 ; 主干词确定单元, 用于根据所述表意权重确定各问题的主干词 ; 权 利 要 求 书 CN 103870457 A 2 2/2 页 3 问题聚类单元, 用于根据各问题的主干词对各问题进行聚类。 8. 根据权利要求 7 所述的装置, 其特征在于, 所述切分单元对。

7、各问题进行切分的方式 具体包括 : 针对各问题, 分别按照若干种粒度对该问题进行切分, 其中所述若干种粒度包括基本 粒度、 短语粒度及实体粒度。 9. 根据权利要求 8 所述的装置, 其特征在于, 所述权重确定单元具体包括 : 赋值单元, 用于针对各问题, 对该问题中的各种粒度分词对应的表意权重赋予初始 值 ; 调整单元, 用于根据预设的调整规则调整各种粒度分词对应的表意权重, 其中所述调 整规则至少包括词语级规则、 句子级规则、 词性级规则和粒度相关关系规则中的一种, 所述 词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则, 所述句子级 规则是对句子进行限定且对满足该限定的。

8、句子中的分词的权重进行调整的规则, 所述词性 级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则, 所述粒度相 关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的 权重进行调整的规则 ; 合并单元, 用于针对各问题, 依据该问题中各种粒度分词对应的表意权重将该问题中 不同粒度分词进行合并。 10. 根据权利要求 6 所述的装置, 其特征在于, 所述确定单元具体包括 : 计算单元, 用于计算相同类别中的已回答问题在设定长度时间内的平均点击率, 并将 所述平均点击率作为该类别中未回答问题的模拟点击率 ; 优先级确定单元, 用于根据各个未回答问题的模拟点击率。

9、确定该未回答问题的优先 级, 其中模拟点击率越高的未回答问题的优先级越高。 权 利 要 求 书 CN 103870457 A 3 1/8 页 4 一种确定问答平台中的未回答问题优先级的方法及装置 【技术领域】 0001 本发明涉及自然语言处理技术, 特别涉及一种确定问答平台中的未回答问题优先 级的方法及装置。 【背景技术】 0002 随着互联网的不断发展, 人们不仅从网络中获取自己想要的资源, 也通过网络向 其他用户提供资源。 互联网中的问答平台, 例如百度知道等, 就是一种供知识需求方的用户 和知识提供方的用户进行交流的中介平台。 知识需求方的用户可以通过该平台发布自己的 提问, 而知识提供。

10、方的用户可以在该平台上回答自己能够解答的问题, 这些回答除了可以 给提问方带来价值, 还可以作为知识的积累, 给将来有类似问题的用户带来参考价值。 0003 在问答平台上每天产生的问题数量是巨大的, 而用户的回答能力却是有限的, 如 何充分地利用用户的回答能力, 提高问答平台中未回答问题的回答效率, 是亟待解决的问 题。 【发明内容】 0004 本发明所要解决的技术问题是提供一种确定问答平台中的未回答问题优先级的 方法及装置, 以提高问答平台中未回答问题的回答效率。 0005 本发明为解决技术问题而采用的技术方案是提供一种确定问答平台中的未回答 问题优先级的方法, 包括 : 对问答平台中的问题。

11、进行聚类, 得到若干个类别 ; 根据相同类别 中的已回答问题的点击率确定该类别中未回答问题的优先级。 0006 根据本发明之一优选实施例, 所述 “对问答平台中的问题进行聚类” 的步骤具体包 括 : 对问答平台中的各问题进行切分 ; 确定各问题中的分词对应的表意权重 ; 根据所述表 意权重确定各问题的主干词 ; 根据各问题的主干词对各问题进行聚类。 0007 根据本发明之一优选实施例, 所述 “对问答平台中的各问题进行切分” 的步骤具体 包括 : 针对各问题, 分别按照若干种粒度对该问题进行切分, 其中所述若干种粒度包括基本 粒度、 短语粒度及实体粒度。 0008 根据本发明之一优选实施例, 。

12、所述 “确定各问题中的分词对应的表意权重” 的步 骤具体包括 : 针对各问题, 对该问题中的各种粒度分词对应的表意权重赋予初始值 ; 根据 预设的调整规则调整各种粒度分词对应的表意权重, 其中所述调整规则至少包括词语级规 则、 句子级规则、 词性级规则和粒度相关关系规则中的一种, 所述词语级规则是对分词进行 限定且对满足该限定的分词的权重进行调整的规则, 所述句子级规则是对句子进行限定且 对满足该限定的句子中的分词的权重进行调整的规则, 所述词性级规则是对词性进行限定 且对词性符合该限定的分词的权重进行调整的规则, 所述粒度相关关系规则是对相同问题 的各种粒度分词之间的关系进行限定且对满足该限。

13、定的分词的权重进行调整的规则 ; 针对 各问题, 依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。 0009 根据本发明之一优选实施例, 所述 “根据相同类别中的已回答问题的点击率确定 说 明 书 CN 103870457 A 4 2/8 页 5 该类别中未回答问题的优先级” 的步骤具体包括 : 计算相同类别中的已回答问题在设定长 度时间内的平均点击率, 并将所述平均点击率作为该类别中未回答问题的模拟点击率 ; 根 据各个未回答问题的模拟点击率确定该未回答问题的优先级, 其中模拟点击率越高的未回 答问题的优先级越高。 0010 本发明还提供了一种确定问答平台中的未回答问题。

14、优先级的装置, 包括 : 聚类单 元, 用于对问答平台中的问题进行聚类, 得到若干个类别 ; 确定单元, 用于根据相同类别中 的已回答问题的点击率确定该类别中的未回答问题的优先级。 0011 根据本发明之一优选实施例, 所述聚类单元具体包括 : 切分单元, 用于对回答平台 中的各问题进行切分 ; 权重确定单元, 用于确定各问题中的分词对应的表意权重 ; 主干词 确定单元, 用于根据所述表意权重确定各问题的主干词 ; 问题聚类单元, 用于根据各问题的 主干词对各问题进行聚类。 0012 根据本发明之一优选实施例, 所述切分单元对各问题进行切分的方式具体包括 : 针对各问题, 分别按照若干种粒度对。

15、该问题进行切分, 其中所述若干种粒度包括基本粒度、 短语粒度及实体粒度。 0013 根据本发明之一优选实施例, 所述权重确定单元具体包括 : 赋值单元, 用于针对各 问题, 对该问题中的各种粒度分词对应的表意权重赋予初始值 ; 调整单元, 用于根据预设的 调整规则调整各种粒度分词对应的表意权重, 其中所述调整规则至少包括词语级规则、 句 子级规则、 词性级规则和粒度相关关系规则中的一种, 所述词语级规则是对分词进行限定 且对满足该限定的分词的权重进行调整的规则, 所述句子级规则是对句子进行限定且对满 足该限定的句子中的分词的权重进行调整的规则, 所述词性级规则是对词性进行限定且对 词性符合该限。

16、定的分词的权重进行调整的规则, 所述粒度相关关系规则是对相同问题的各 种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则 ; 合并单 元, 用于针对各问题, 依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分 词进行合并。 0014 根据本发明之一优选实施例, 所述确定单元具体包括 : 计算单元, 用于计算相同类 别中的已回答问题在设定长度时间内的平均点击率, 并将所述平均点击率作为该类别中未 回答问题的模拟点击率 ; 优先级确定单元, 用于根据各个未回答问题的模拟点击率确定该 未回答问题的优先级, 其中模拟点击率越高的未回答问题的优先级越高。 0015 由以上技术方。

17、案可以看出, 本发明通过将问答平台中的各种问题进行聚类, 可将 具有相似性的问题归为一类, 由于已回答问题的点击率可以反映已回答问题的热门程度, 因此利用同一类别中已回答问题的点击率来确定未回答问题的优先级, 能够对未回答问题 的重要程度进行很好地衡量, 从而使得重要性高的未回答问题能够得到及时回答, 提高了 问答平台中未回答问题的回答效率。 【附图说明】 0016 图 1 为本发明中确定问答平台中的未回答问题优先级的方法的实施例的流程示 意图 ; 0017 图 2 为本发明中确定问答平台中的未回答问题优先级的装置的实施例的结构示 意框图 ; 说 明 书 CN 103870457 A 5 3/。

18、8 页 6 0018 图 3 为本发明中权重确定单元 2012 的实施例的结构示意框图。 【具体实施方式】 0019 为了使本发明的目的、 技术方案和优点更加清楚, 下面结合附图和具体实施例对 本发明进行详细描述。 0020 本发明的实施例中所述的问题, 可以仅包括问答平台中提问的标题, 也可以是问 题平台中提问的标题和内容共同组成的内容, 优选的, 仅使用提问的标题作为下述实施例 中所述的问题参与本发明的处理。 0021 请参考图 1, 图 1 为本发明中确定问答平台中的未回答问题优先级的方法的实施 例的流程示意图。如图 1 所示, 该实施例的方法包括 : 0022 步骤 S101 : 对问。

19、答平台中的问题进行聚类, 得到若干个类别。 0023 步骤 S102 : 根据相同类别中的已回答问题的点击率确定该类别中未回答问题的 优先级。 0024 下面对上述步骤进行详细说明。 0025 步骤 S101 具体包括步骤 S1011、 S1012、 S1013 及 S1014。 0026 步骤 S1011 : 对问答平台中的各问题进行切分。 0027 可以对每个问题按照单一的粒度进行切分, 但是作为一种优选的方式, 步骤 S1011 中, 针对问答平台中的每个问题, 分别按照基本粒度、 短语粒度及实体粒度分别对该问题进 行切分。 0028 其中, 按照基本粒度和短语粒度对问题进行切分, 就是。

20、分别按照基本词表和短语 词表对问题进行完整切分, 而按照实体粒度对问题进行切分, 是把问题中与实体词表中相 同的部分提取出来作为实体粒度的分词。上述基本词表、 短语词表及实体词表均是通过现 有技术可以收集到的词表, 在此不再赘述获取过程。 0029 例如, 对 “侠盗飞车罪恶都市秘籍大全” 这个问题, 以上述三种粒度分别进行切分, 可以得到的分词如下 : 0030 基本粒度分词 : 侠盗、 飞车、 罪恶、 都市、 秘籍、 大全 0031 短语粒度分词 : 侠盗飞车、 罪恶都市、 秘籍、 大全 0032 实体粒度分词 : 罪恶都市秘籍 0033 步骤 S1012 : 确定各问题中的分词对应的表意。

21、权重。表意权重是用来衡量分词对 表达问题含义所产生的贡献的指标。 0034 具体地, 步骤 S1012 可包括步骤 S1012a、 S1012b、 S1012c。 0035 步骤 S1012a : 针对各问题, 对该问题中的各种粒度分词对应的表意权重赋予初始 值。赋初始值可采用多种策略, 例如一种策略是对基本粒度分词和短语粒度分词的表意权 重赋予初始值, 而实体粒度分词如果能够覆盖完整的基本粒度分词或 / 和短语粒度分词, 则实体粒度分词的表意权重为其覆盖的分词权重之和的最大可能值。 例如 “罪恶都市秘籍” 这个实体粒度分词可覆盖 “罪恶都市” 和 “秘籍” , 或者覆盖 “罪恶” 、“都市”。

22、 和 “秘籍” , 如果 “罪恶” 、“都市” 与 “秘籍” 的初始权重之和大于 “罪恶都市” 和 “秘籍” 的初始权重之和, 则 “罪恶都市秘籍” 这个实体粒度分词的初始表意权重就是 “罪恶” 、“都市” 与 “秘籍” 的初始 权重之和。此外, 如果实体粒度分词不能完整覆盖基本粒度分词或 / 和短语粒度分词, 则将 说 明 书 CN 103870457 A 6 4/8 页 7 这个实体粒度分词取消。例如 “玛雅体验怎样” 这个问题中可以提取 “玛雅体” 这个实体粒 度分词, 但是其不能覆盖 “玛雅” 、“体验” , 因此将这个实体粒度分词取消。 0036 步骤 S1012b : 根据预设的调。

23、整规则调整各种粒度分词对应的表意权重, 其中所述 调整规则至少包括词语级规则、 句子级规则、 词性级规则和粒度相关关系规则中的一种, 所 述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则, 所述句子 级规则是对分句进行限定且对满足该限定的分句中的分词的权重进行调整的规则, 所述词 性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则, 所述粒度 相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词 的权重进行调整的规则。 0037 其中, 词语级规则可以包括以下任意一种或多种的组合 : 0038 规则一 : 对 IDF(inverse。

24、 document frequency) 值位于设定区间的分词进行加 权。其中, 每个词语的 IDF 值可通过现有技术计算得到。 0039 规则二 : 对位于问题的起始位置的分词进行加权。 0040 规则三 : 对包含数字的分词进行降权。 0041 句子级规则可以包括以下任意一种或多种的组合 : 0042 规则四 : 对长度在所属问题中的占比低于第一设定值的分句中的分词进行降权。 例如 “请问, 鸡肉的营养和成长时间有关系吗” 这个问题中,“请问” 作为分句, 其长度在这个 问题中的占比是 1/8, 假设第一设定值是 1/4, 则 “请问” 这个分句中的 “请” 和 “问” 这两个 分词的权重。

25、就会降低。 0043 规则五 : 对包含的名词数量低于第二设定值的分句中的分词进行降权。例如 “从 历史来看, 钓鱼岛属于哪个国家的领土” 这个问题中,“从历史来看” 这个分句中的名词数量 是 1, 假设第二设定值为 2, 则 “从历史来看” 这个分句中的 “从” 、“历史” 、“来” 、“看” 这几个 分词的权重就会降低。 0044 规则六 : 对过滤掉停用词后的词语数量低于第三设定值的分句中的分词进行降 权。停用词可通过停用词表来确定。一个分句过滤掉停用词后, 剩下的是对表达句子含义 产生贡献的有效词汇, 如果这个分句剩下的有效词汇数量低于第三设定值, 则这个分句中 的所有分词都进行降权。。

26、 0045 词性级规则包括 : 对与长度低于第四设定值的分词具有相同词性的其他分词进行 降权。例如 “从” 这个分词的长度低于第四设定值 “2” , 而 “从” 属于介词, 因此降低其他属 于介词的分词的权重。 0046 粒度相关关系规则包括 : 针对同一问题, 若该问题的实体粒度分词覆盖完整的基 本粒度分词或 / 和短语粒度分词, 则对该实体粒度分词及覆盖的分词进行加权。 0047 步骤 S1012c : 针对各问题, 依据该问题中各种粒度分词对应的表意权重将该问题 中不同粒度分词进行合并。以 “侠盗飞车罪恶都市秘籍大全” 这个问题为例, 首先在各种 粒度分词中保留最大粒度的分词, 因此该问。

27、题可以得到 “侠盗飞车” 、“罪恶都市秘籍” 、“大 全” 。其每个分词的表意权重由最大可能值确定, 例如短语粒度分词 “侠盗飞车” 包含了基 本粒度分词 “侠盗” 和 “飞车” , 如果短语粒度分词 “侠盗飞车” 的表意权重大于基本粒度分 词 “侠盗” 和 “飞车” 的表意权重之和, 则最终的分词 “侠盗飞车” 的表意权重就是短语粒度 分词 “侠盗飞车” 的表意权重, 否则, 最终的分词 “侠盗飞车” 的表意权重就是基本粒度分词 说 明 书 CN 103870457 A 7 5/8 页 8 “侠盗” 和 “飞车” 的表意权重之和。 0048 经过步骤 S1012 处理之后, 问答平台中的每个。

28、问题都具有了属于该问题的分词及 其表意权重。 0049 步骤 S1013 : 根据分词的表意权重确定各问题的主干词。具体地, 就是将每个问题 中表意权重大于预设值的分词作为该问题的主干词。 0050 步骤 S1014 : 根据各问题的主干词对各问题进行聚类。 0051 下面通过实施例对步骤 S1014 的聚类方法进行介绍。 0052 本实施例中, 聚类是通过迭代进行的。 例如有以下问题, 括号中的数字分别代表问 题的一个主干词, 且每个问题中的主干词按照表意权重从大到小的顺序排列 : 0053 问题 A :(1, 2, 3, 4, 5) 0054 问题 B :(1, 2, 3, 6, 7) 0。

29、055 问题 C :(1, 2, 8, 9, 10) 0056 问题 D :(1, 2, 8, 11, 12) 0057 在聚类时, 先依据每个问题排在前一位的主干词进行聚类, 即, 将前一位的主干词 相同的问题作为一类, 上述四个问题的第一位的主干词均是 1, 因此这四个问题都是一类, 然后判断迭代终止的条件是否满足, 迭代终止的条件包括 : 迭代的次数是否达到了预设值, 或者当前聚类得到的类别中的问题个数是否小于设定值。例如迭代终止条件为 : 迭代次数 达到 5, 或者当前聚类得到的类别中的问题的个数小于 3。由于问题 A 到 D 被聚为一类, 使 得该类别中的问题个数为 4, 不满足迭代。

30、终止条件, 因此, 进行第二次迭代 : 依据每个问题 排在前两位的主干词进行聚类, 即, 将前两位的主干词相同的问题作为一类。由于问题 A 到 D 前两位的主干词均包含 1 和 2, 因此问题 A 到 D 仍然是一类, 由于迭代次数仍未满足终止 条件, 因此进行第三次迭代 : 依据每个问题排在前三位的主干词进行聚类, 即, 将前三位的 主干词相同的问题作为一类。由于问题 A 和 B 的前三位的主干词相同, 问题 C 和问题 D 的 前三位的主干词相同, 因此问题 A 和 B 是一类, 问题 C 和问题 D 是一类, 由于每类中的问题 数为 2, 小于 3, 因此可以结束迭代, 得到最终的聚类结。

31、果就是问题 A 和问题 B 是一类, 问题 C 和问题 D 是一类。 0058 至此, 对步骤 S101 的实现方式进行了完整的介绍。 0059 步骤 S102 具体包括 : 0060 步骤 S1021 : 计算相同类别中的已回答问题在设定长度时间内的平均点击率, 并 将该平均点击率作为该类别中未回答问题的模拟点击率。 0061 步骤 S1022 : 根据各个未回答问题的模拟点击率确定该未回答问题的优先级, 其 中模拟点击率越高的未回答问题的优先级越高。 0062 例如, 步骤 S1021 中的设定长度时间为 3 天, 则步骤 S1021 中, 一个类别中的未回 答问题的模拟点击率 = 该类别。

32、中的所有已回答问题在 3 天内的点击次数之和 /(该类别中 的已回答问题个数 *3) 。 0063 当未回答问题的模拟点击率确定之后, 步骤 S1022 就可依据模拟点击率确定优先 级, 例如将模拟点击率在第一预设区间的未回答问题的优先级设置为最高级, 模拟点击率 在第二预设区间的未回答问题的优先级设置为次高级, 其中第一预设区间大于第二预设区 间, 其他优先级可以此类推。 说 明 书 CN 103870457 A 8 6/8 页 9 0064 在问答平台上, 进一步对未回答问题按照优先级进行展示, 就能够充分提高问答 平台中未回答问题的回答效率。 0065 请参考图 2, 图 2 为本发明中。

33、确定问答平台中的未回答问题优先级的装置的实施 例的结构示意框图。如图 2 所示, 该实施例的装置包括 : 聚类单元 201 及确定单元 202。 0066 其中, 聚类单元201, 用于对问答平台中的问题进行聚类, 得到若干个类别。 确定单 元 202, 用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的优先级。 0067 具体地, 聚类单元 201 包括切分单元 2011、 权重确定单元 2012、 主干词确定单元 2013 及问题聚类单元 2014。 0068 其中, 切分单元 2011, 用于对回答平台中的各问题进行切分。权重确定单元 2012, 用于确定各问题中的分词对应。

34、的表意权重。主干词确定单元 2013, 用于根据分词的表意权 重确定各问题的主干词。 问题聚类单元2014, 用于根据各问题的主干词对各问题进行聚类。 下面对上述单元的具体实现方式进行介绍。 0069 具体地, 切分单元 2011 可以对每个问题按照单一的粒度进行切分, 但是作为一种 优选的方式, 切分单元 2011, 针对问答平台中的每个问题, 分别按照基本粒度、 短语粒度及 实体粒度分别对该问题进行切分。 0070 其中, 按照基本粒度和短语粒度对问题进行切分, 就是分别按照基本词表和短语 词表对问题进行完整切分, 而按照实体粒度对问题进行切分, 是把问题中与实体词表中相 同的部分提取出来。

35、作为实体粒度的分词。上述基本词表、 短语词表及实体词表均是通过现 有技术可以收集到的词表, 在此不再赘述获取过程。 0071 例如, 对 “侠盗飞车罪恶都市秘籍大全” 这个问题, 以上述三种粒度分别进行切分, 可以得到的分词如下 : 0072 基本粒度分词 : 侠盗、 飞车、 罪恶、 都市、 秘籍、 大全 0073 短语粒度分词 : 侠盗飞车、 罪恶都市、 秘籍、 大全 0074 实体粒度分词 : 罪恶都市秘籍 0075 请参考图 3, 图 3 为本发明中权重确定单元 2012 的实施例的结构示意框图。如图 3 所示, 权重确定单元 2012 包括赋值单元 2012a、 调整单元 2012b 。

36、和合并单元 2012c。 0076 其中, 赋值单元 2012a, 用于针对各问题, 对该问题中的各种粒度分词对应的表意 权重赋予初始值。表意权重是用来衡量分词对表达问题含义所产生的贡献的指标。赋值单 元 2012a 赋初始值可采用多种策略, 例如一种策略是对基本粒度分词和短语粒度分词的表 意权重赋予初始值, 而实体粒度分词如果能够覆盖完整的基本粒度分词或 / 和短语粒度分 词, 则实体粒度分词的表意权重为其覆盖的分词权重之和的最大可能值。 例如 “罪恶都市秘 籍” 这个实体粒度分词可覆盖 “罪恶都市” 和 “秘籍” , 或者覆盖 “罪恶” 、“都市” 和 “秘籍” , 如 果 “罪恶” 、“。

37、都市” 与 “秘籍” 的初始权重之和大于 “罪恶都市” 和 “秘籍” 的初始权重之和, 则 “罪恶都市秘籍” 这个实体粒度分词的初始表意权重就是 “罪恶” 、“都市” 与 “秘籍” 的初 始权重之和。此外, 如果实体粒度分词不能完整覆盖基本粒度分词或 / 和短语粒度分词, 则 将这个实体粒度分词取消。例如 “玛雅体验怎样” 这个问题中可以提取 “玛雅体” 这个实体 粒度分词, 但是其不能覆盖 “玛雅” 、“体验” , 因此将这个实体粒度分词取消。 0077 调整单元 2012b, 用于根据预设的调整规则调整各种粒度分词对应的表意权重, 其 中所述调整规则至少包括词语级规则、 句子级规则、 词性。

38、级规则和粒度相关关系规则中的 说 明 书 CN 103870457 A 9 7/8 页 10 一种, 所述词语级规则是对分词进行限定且对满足该限定的分词权重进行调整的规则, 所 述句子级规则是对句子进行限定且对满足该限定的句子中的分词权重进行调整的规则, 所 述词性级规则是对词性进行限定且对词性符合该限定的分词权重进行调整的规则, 所述粒 度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分 词权重进行调整的规则。 0078 其中, 词语级规则可以包括以下任意一种或多种的组合 : 0079 规则一 : 对 IDF(inverse document frequency) 。

39、值位于设定区间的分词进行加 权。其中, 每个词语的 IDF 值可通过现有技术计算得到。 0080 规则二 : 对位于问题的起始位置的分词进行加权。 0081 规则三 : 对包含数字的分词进行降权。 0082 句子级规则可以包括以下任意一种或多种的组合 : 0083 规则四 : 对长度在所属问题中的占比低于第一设定值的分句中的分词进行降权。 例如 “请问, 鸡肉的营养和成长时间有关系吗” 这个问题中,“请问” 作为分句, 其长度在这个 问题中的占比是 1/8, 假设第一设定值是 1/4, 则 “请问” 这个分句中的 “请” 和 “问” 这两个 分词的权重就会降低。 0084 规则五 : 对包含的。

40、名词数量低于第二设定值的分句中的分词进行降权。例如 “从 历史来看, 钓鱼岛属于哪个国家的领土” 这个问题中,“从历史来看” 这个分句中的名词数量 是 1, 假设第二设定值为 2, 则 “从历史来看” 这个分句中的 “从” 、“历史” 、“来” 、“看” 这几个 分词的权重就会降低。 0085 规则六 : 对过滤掉停用词后的词语数量低于第三设定值的分句中的分词进行降 权。停用词可通过停用词表来确定。一个分句过滤掉停用词后, 剩下的是对表达句子含义 产生贡献的有效词汇, 如果这个分句剩下的有效词汇数量低于第三设定值, 则这个分句中 的所有分词都进行降权。 0086 词性级规则包括 : 对与长度低。

41、于第四设定值的分词具有相同词性的其他分词进行 降权。例如 “从” 这个分词的长度低于第四设定值 “2” , 而 “从” 属于介词, 因此降低其他属 于介词的分词的权重。 0087 粒度相关关系规则包括 : 针对同一问题, 若该问题的实体粒度分词覆盖完整的基 本粒度分词或 / 和短语粒度分词, 则对该实体粒度分词及覆盖的分词进行加权。 0088 合并单元 2012c, 用于针对各问题, 依据该问题中各种粒度分词对应的表意权重将 该问题中不同粒度分词进行合并。以 “侠盗飞车罪恶都市秘籍大全” 这个问题为例, 合并单 元 2012c 首先在各种粒度分词中保留最大粒度的分词, 因此该问题可以得到 “侠。

42、盗飞车” 、 “罪恶都市秘籍” 、“大全” 。其每个分词的表意权重由最大可能值确定, 例如短语粒度分词 “侠盗飞车” 包含了基本粒度分词 “侠盗” 和 “飞车” , 如果短语粒度分词 “侠盗飞车” 的表意 权重大于基本粒度分词 “侠盗” 和 “飞车” 的表意权重之和, 则最终的分词 “侠盗飞车” 的表 意权重就是短语粒度分词 “侠盗飞车” 的表意权重, 否则, 最终的分词 “侠盗飞车” 的表意权 重就是基本粒度分词 “侠盗” 和 “飞车” 的表意权重之和。 0089 在权重确定单元 2012 确定了问答平台中的各个问题的分词的表意权重后, 主干 词确定单元 2013 确定主干词的方式具体包括 。

43、: 将每个问题中表意权重大于预设值的分词 作为该问题的主干词。 说 明 书 CN 103870457 A 10 8/8 页 11 0090 下面对问题聚类单元 2014 的聚类方式进行介绍。 0091 本实施例中, 问题聚类单元 2014 的聚类是通过迭代进行的。例如有以下问题, 其 中括号中的数字分别代表一个主干词, 且每个问题中的主干词按照表意权重从大到小的顺 序排列 : 0092 问题 A :(1, 2, 3, 4, 5) 0093 问题 B :(1, 2, 3, 6, 7) 0094 问题 C :(1, 2, 8, 9, 10) 0095 问题 D :(1, 2, 8, 11, 12)。

44、 0096 在聚类时, 问题聚类单元 2014 先依据每个问题排在前一位的主干词进行聚类, 即, 将前一位的主干词相同的问题作为一类, 上述四个问题的第一位的主干词均是 1, 因此 这四个问题都是一类, 然后问题聚类单元 2014 判断迭代终止的条件是否满足, 迭代终止的 条件包括 : 迭代的次数是否达到了预设值, 或者当前聚类得到的类别中的问题个数是否小 于设定值。例如迭代终止条件为 : 迭代次数达到 5, 或者当前聚类得到的类别中的问题的个 数小于 3。由于问题 A 到 D 被聚为一类, 使得该类别中的问题个数为 4, 不满足迭代终止条 件, 因此, 问题聚类单元 2014 进行第二次迭代。

45、 : 依据每个问题排在前两位的主干词进行聚 类, 即, 将前两位的主干词相同的问题作为一类。由于问题 A 到 D 前两位的主干词均包含 1 和 2, 因此问题 A 到 D 仍然是一类, 由于迭代次数仍未满足终止条件, 因此问题聚类单元 2014 进行第三次迭代 : 依据每个问题排在前三位的主干词进行聚类, 即, 将前三位的主干 词相同的问题作为一类。由于问题 A 和 B 的前三位的主干词相同, 问题 C 和问题 D 的前三 位的主干词相同, 因此问题 A 和 B 是一类, 问题 C 和问题 D 是一类, 由于每类中的问题数为 2, 小于3, 因此可以结束迭代, 得到最终的聚类结果就是问题A和问。

46、题B是一类, 问题C和问 题 D 是一类。 0097 请继续参考图 2。图 2 中的确定单元 202 具体包括计算单元 2021 及优先级确定单 元 2022。 0098 其中, 计算单元 2021, 用于计算相同类别中的已回答问题在设定长度时间内的平 均点击率, 并将该平均点击率作为该类别中未回答问题的模拟点击率。例如设定长度时间 为 3 天, 则一个类别中的未回答问题的模拟点击率 = 该类别中的所有已回答问题在 3 天内 的点击次数之和 /(该类别中的已回答问题个数 *3) 。 0099 优先级确定单元 2022, 用于根据各个未回答问题的模拟点击率确定该未回答问题 的优先级, 其中模拟点。

47、击率越高的未回答问题的优先级越高。例如优先级确定单元 2022 将 模拟点击率在第一预设区间的未回答问题的优先级设置为最高级, 模拟点击率在第二预设 区间的未回答问题的优先级设置为次高级, 其中第一预设区间大于第二预设区间, 其他优 先级可以此类推。 0100 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内, 所做的任何修改、 等同替换、 改进等, 均应包含在本发明保护的范围之内。 说 明 书 CN 103870457 A 11 1/2 页 12 图 1 图 2 说 明 书 附 图 CN 103870457 A 12 2/2 页 13 图 3 说 明 书 附 图 CN 103870457 A 13 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1