搜索结果的处理方法及装置.pdf

上传人:Y0****01 文档编号:2238064 上传时间:2018-08-03 格式:PDF 页数:14 大小:1.99MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410758984.X

申请日:

2014.12.11

公开号:

CN104462399A

公开日:

2015.03.25

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F17/30申请日:20141211|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京百度网讯科技有限公司

发明人:

王丽杰; 吴先超; 刘占一

地址:

100085北京市海淀区上地十街10号百度大厦2层

优先权:

专利代理机构:

北京金律言科知识产权代理事务所(普通合伙)11461

代理人:

罗延红; 杨移

PDF下载: PDF下载
内容摘要

本发明实施例提供了一种搜索结果的处理方法及装置。所述处理方法包括:根据搜索词获取多个搜索结果条目;从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;根据所述相关度值对所述多个搜索结果条目进行排序。本发明实施例的搜索结果的处理方法及装置与现有技术相比更符合用户的需求,提高了搜索结果与用户需求的匹配度。

权利要求书

权利要求书
1.  一种搜索结果的处理方法,其特征在于,所述方法包括:
根据搜索词获取多个搜索结果条目;
从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;
通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;
根据所述相关度值对所述多个搜索结果条目进行排序。

2.  根据权利要求1所述的处理方法,其特征在于,所述处理方法还包括:
为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。

3.  根据权利要求2所述的处理方法,其特征在于,所述为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要的处理包括:
过滤掉所述知识网络中与所述搜索词不相关的知识点数据,
按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。

4.  根据权利要求1~3中任一项所述的处理方法,其特征在于,所述通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值的处理包括:
对所述搜索词进行词法句法分析得到至少一个搜索知识点数据,
将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值。

5.  根据权利要求4所述的处理方法,其特征在于,所述将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值的处理包括:
对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将所述搜索知识点数据的结构表示与所述知识网络中知 识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。

6.  根据权利要求5所述的处理方法,其特征在于,所述将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理:
获取所述搜索知识点数据的核心结构和非核心结构,
根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。

7.  根据权利要求6所述的处理方法,其特征在于,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。

8.  根据权利要求7所述的处理方法,其特征在于,所述根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理,包括:
relate_score(query,url)=Σi=1mΣj=15(e1,e2,r,p)*αj+Σi=1nΣj=15(e1,e2,r,p)*βj]]>
其中,(e1,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心结构的数量,αj为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n为所述非核心结构的数量,βj为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。

9.  根据权利要求8所述的处理方法,其特征在于,所述处理方法还包括:
根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。

10.  一种搜索结果的处理装置,其特征在于,所述装置包括:
搜索结果条目获取模块,用于根据搜索词获取多个搜索结果条目;
知识网络获取模块,用于从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;
相关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;
搜索结果条目排序模块,用于根据所述相关度值对所述多个搜索结果条目进行排序。

11.  根据权利要求10所述的处理装置,其特征在于,所述处理装置还包括:
内容摘要生成模块,用于为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。

12.  根据权利要求11所述的处理装置,其特征在于,所述内容摘要生成模块用于:
过滤掉所述知识网络中与所述搜索词不相关的知识点数据,
按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。

13.  根据权利要求10~12中任一项所述的处理装置,其特征在于,所述相关度值计算模块包括:
搜索词词法句法分析单元,用于对所述搜索词进行词法句法分析得到至少一个搜索知识点数据,
相关度值计算单元,用于将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值。

14.  根据权利要求13所述的处理装置,其特征在于,所述相关度值计算单元用于:
对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。

15.  根据权利要求14所述的处理装置,其特征在于,所述相关度值 计算单元用于通过以下步骤执行将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理:
获取所述搜索知识点数据的核心结构和非核心结构,
根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。

16.  根据权利要求15所述的处理装置,其特征在于,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。

17.  根据权利要求16所述的处理装置,其特征在于,所述相关度值计算单元用于通过以下公式执行根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理:
relate_score(query,url)=Σi=1mΣj=15(e1,e2,r,p)*αj+Σi=1nΣj=15(e1,e2,r,p)*βj]]>
其中,(e1,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心结构的数量,αj为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n为所述非核心结构的数量,βj为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。

18.  根据权利要求17所述的处理装置,其特征在于,所述处理装置还包括:
搜索词语法语义分析模块,用于根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。

说明书

说明书搜索结果的处理方法及装置
技术领域
本发明涉及搜索技术,尤其涉及一种搜索结果的处理方法及装置。
背景技术
搜索引擎的首要任务提升搜索相关性。现有技术中,提升搜索相关性主要考虑网页质量、搜索词与网页的相关性等因素。其中,搜索词与网页的相关性,主要依赖于搜索词中使用的术语,例如,术语在当前搜索词中的重要性、术语间的紧密程度以及其在网页中的表现形式(是否紧密出现,术语在该网页中是否相对重要等)。
然而,运用现有技术处理后的搜索结果在某些情况下并不符合用户的需求。图1是示出搜索词为“莱美健身课程有哪些”的搜索结果条目的示例性示意图。如图1所示,前两个搜索结果条目“在哪里学习莱美健身课程”以及“什么是莱美健身课程”都没有给出用户所需求的课程,使得搜索结果与用户需求的匹配度较差。
发明内容
本发明实施例的目的在于,提供一种搜索结果的处理方法及装置,通过对搜索结果与搜索词进行语义相关度计算,使得搜索结果更符合用户的需求,提高搜索结果与用户需求的匹配度。
为实现上述发明目的,本发明的实施例提供了一种搜索结果的处理方法,包括:根据搜索词获取多个搜索结果条目;从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;根据所述相关度值对所述多个搜索结果条目进行排序。
本发明的实施例还提供了一种搜索结果的处理装置,包括:搜索结果条目获取模块,用于根据搜索词获取多个搜索结果条目;知识网络获取模块,用于从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;相关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;搜索结果条目排序模块,用于根据所述相关度值对所述多个搜索结果条 目进行排序。
本发明实施例提供的搜索结果的处理方法及装置通过从内容知识库中分别获取多个搜索结果条目的知识网络,并对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度,提高用户的搜索体验。此外,还可生成反映搜索主题的内容摘要,进一步为用户提供核心内容的信息。
附图说明
图1是示出在现有技术中搜索结果条目的示例性示意图;
图2是示出本发明实施例一的搜索结果的处理方法的流程图;
图3是示出图1中的搜索词的结构分析结果的示例性示意图;
图4是示出图1中第一个搜索结果条目的知识网络结构分析结果的示例性示意图;
图5是示出图1中第二个搜索结果条目的知识网络结构分析结果的示例性示意图;
图6是示出图1中第三个搜索结果条目的知识网络结构分析结果的示例性示意图;
图7是示出本发明实施例二的搜索结果的处理装置的逻辑框图。
具体实施方式
本发明的基本构思是,从内容知识库中分别获取多个搜索结果条目的知识网络,并对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求。
下面结合附图对本发明实施例一种搜索结果的处理方法及装置进行详细描述。
实施例一
图2是示出本发明实施例一的搜索结果的处理方法的流程图。可在例如搜索引擎服务器上执行所述方法。所述搜索结果的处理方法包括如下步骤:
步骤101:根据搜索词获取多个搜索结果条目。
搜索引擎服务器可使用搜索词运用现有的搜索技术(例如,从预先编制的网页索引)获取多个搜索结果条目。
步骤102:从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络包括多个内容知识点数据。
具体的,可在线下对每个搜索结果条目的内容文本进行分句以及词法句法分析,从而提取到多个内容知识点数据,并将这多个内容知识点数据进行合并得到知识网络,并且将多个搜索结果条目的知识网络保存到内容知识库中。本申请人在同日提交的另一件名称为“生成文本摘要的方法及装置”的专利申请中记载了一种用于从内容文本生成内容知识库的技术。需要说明的是,所述内容知识库的生成不仅限于前述专利申请记载的方法,还可运用其它知识点挖掘技术在线下建立内容知识库。
此外,还可以根据常识知识库对搜索词进行语法语义分析得到知识点数据。需要说明的是对搜索词进行语法语义分析,也就是根据常识知识库对搜索词进行重要性和紧密度的分析,具体的,线下分析每个搜索结果条目,并抽取知识点,同时将每个知识点作为一个常识知识单独保存在常识知识库中,对搜索词进行结构分析时,就可以依据常识知识库确认哪些术语非常重要,哪些术语不是很重要,重要性不高的术语再结合上下文情况可以省略掉。
步骤103:通过对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配分别计算搜索词和搜索结果条目之间的相关度值。
如前所述,根据本发明的示例性实施例,可对搜索词分别和每个搜索结果条目的知识网络进行如下的处理:对搜索词进行词法句法分析得到至少一个搜索知识点数据,将搜索知识点数据分别与知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算搜索词和每个搜索结果条目之间的相关度值。
具体地,根据本发明的示例性实施例,对任一搜索结果条目,将搜索知识点数据与知识网络进行结构表示,将搜索知识点数据的结构表示与知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据结构的匹配强度计算搜索词和搜索结果条目的相关度值。
优选地,将搜索知识点数据与知识网络进行结构表示,并将搜索知 识点数据的结构表示与知识网络中知识点的结构表示进行匹配得到匹配强度的处理。具体可包括:获取搜索知识点数据的核心结构和非核心结构,根据知识网络中知识点的结构表示与搜索知识点数据的核心结构和非核心结构的匹配确定搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。这里需要说明的是,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。以下将对前述五种匹配强度给予具体描述。
首先,将搜索知识点数据的结构表示以及知识网络中知识点的结构表示均表示为(e1,e2,r,p),其中r可以是动词关系、名词属性、非明确关系,p表示r发生时的条件(主要针对动词而言),e1和e2是关系r关联的两个直接实体。可将前述匹配强度定义为:
(1)完全匹配:如果搜索知识点数据和知识网络中知识点的结构的e1,e2,r,p均完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为完全匹配;
(2)核心成分匹配:如果搜索知识点数据和知识网络中知识点的结构的e1,e2,r完全匹配,p没有或部分匹配上,则核心结构或非核心结构和知识网络的匹配强度为核心成分匹配;
(3)限制成分强匹配:如果搜索知识点数据和知识网络中知识点的结构的r均为限定关系,且e1与e2完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制成分强匹配,
(4)限制成分弱匹配:如果搜索知识点数据和知识网络中知识点的结构的r均为限定关系,且e1与e2没有匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制成分弱匹配,
(5)无法匹配:如果搜索知识点数据和知识网络中知识点的结构的r没有匹配上或e1与e2没有匹配上,则核心结构或非核心结构和知识网络的匹配强度为无法匹配。
优选地,可通过以下公式执行搜索词和搜索结果条目的相关度值的计算:
relate_score(query,url)=Σi=1mΣj=15(e1,e2,r,p)*αj+Σi=1nΣj=15(e1,e2,r,p)*βj]]>
其中,(e1,e2,r,p)为搜索知识点的结构表示,其中,r为动词 关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据搜索词进行得到的搜索结果条目,m为核心结构的数量,αj为与核心结构和知识网络中知识点的结构的匹配强度相对应的权重值,n为非核心结构的数量,βj为非核心结构与知识网络中知识点的结构的匹配强度相对应的权重值。
步骤104:根据计算的相关度值对多个搜索结果条目进行排序。
可选地,步骤104可包括,以计算的相关度值作为多个衡量指标之一对所述多个搜索结果条目进行排序。
通过该搜索结果的处理方法,能够对搜索词和从内容知识库中获取的多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度。
在此基础上,为方便用户对长文本内容快速了解,可以为任一搜索结果条目生成简短的具有核心主题的内容摘要。
为此根据本发明优选实施例的搜索结果的处理方法还可以包括:
为任一搜索结果条目,根据搜索结果条目的知识网络生成内容摘要。具体的,可以过滤掉知识网络中与搜索词不相关的知识点数据,然后按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
下面结合具体的处理示例,来进一步更直观地说明一下本发明实施例的具体应用。
例如,在搜索引擎中键入“莱美健身课程有哪些”的搜索词,如图1所示,获取到多个搜索结果条目,再从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络都包含多个内容知识点数据,然后对搜索词进行结构分析,也就是对搜索词进行词法句法分析得到搜索知识点数据,再将搜索知识点数据进行结构表示。图3是示出图1中搜索词“莱美健身课程有哪些”的结构分析结果的示例性示意图。参照图3,其中莱美是一个实体词,通过查询常识知识库可以得出“莱美”有健身体系、相机商标、药业、健身企业四个义项,且具有课程这一属性 的就只有健身体系和健身企业两个义项,由于这两个义项都是与健身相关,则搜索词中的术语“健身”其重要性不再高,且其跟“莱美”和“课程”的紧密度也不再大,最终对该搜索词进行结构分析的结果为图中大方框标记的内容,即莱美、课程、答案。
然后对任一搜索结果条目的知识网络进行结构分析,得到知识网络中知识点的结构表示,图4是示出图1中第一个搜索结果条目的知识网络结构分析结果的的示例性示意图,其中还包含了另一个百度知道的内容。再参照图5,图5是示出图1中第二个搜索结果条目的知识网络结构分析结果的的示例性示意图。在图5示出结构分析结果的的示例性示意图中去除了“新浪博客”等描述网站本身信息的子串。图6是示出图1中第三个搜索结果条目的知识网络结构分析结果的的示例性示意图,其中,通过查询常识知识库得知BodyCombat、BodyPump、BobyBalanc都属于课程名称,它们的上位词就是课程。
此后,依据搜索知识点数据的结构表示与知识网络中知识点的结构表示,对搜索词“莱美健身课程有哪些”和多个搜索结果条目的知识网络中知识点进行知识点的结构匹配。具体的,针对搜索词中搜索知识点数据的结构,可根据搜索词中是否含有问题类型(lexical answer type,LAT)划分为两大类结构,如下:核心结构:含有LAT的词条,例如,“课程”就是该搜索词的LAT,即用户所要答案的类型或是上位词,则含有“课程”的结构都是核心结构;非核心结构:不含有LAT词条,例如,“莱美健身课程45音乐有哪些”,除了“课程、音乐、答案”这个结构外,如“莱美、课程”“45、课程”都是非核心结构。
在进行结构匹配时,就需要从核心结构是否一致以及非核心结构是否一致这两方面进行考虑。这里需要说明的是,如果搜索词结构含有LAT,搜索结果条目的结构对应的是LAT的下位词,例如,图1中的第三个搜索结果条目,BodyCombat的上位词是课程,即LAT课程的下位词BodyCombat,则这两个结构属于完全匹配,即(e1=莱美,e2=课程,r=答案)与(e1=莱美,e2=课程,r=BodyCombat)完全匹配。
然后,根据结构匹配强度进一步计算搜索词和搜索结果条目的相关度值。在得到匹配强度之后,就可以根据前述相关度值计算公式执行搜索词和搜索结果条目的相关度值的计算。这里需要说明的是,在相关度 值计算公式中,针对核心结构,每个匹配强度类型都有一个权重(对应αj),同样针对非核心结构,每个匹配强度类型都有一个权重(对应βj),这两个权重的训练可以通过机器学习模型中的逻辑回归模型完成。
实施例二
图7是示出本发明实施例二的搜索结果的处理装置的逻辑框图。参照图7,所述搜索结果的处理装置包括:搜索结果条目获取模块201、知识网络获取模块202、相关度值计算模块203以及搜索结果条目排序模块204。
搜索结果条目获取模块201用于根据搜索词获取多个搜索结果条目。
知识网络获取模块202用于从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络包括多个内容知识点数据。
相关度值计算模块203用于通过对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配分别计算搜索词和搜索结果条目之间的相关度值。
优选地,相关度值计算模块203包括:搜索词词法句法分析单元,用于对搜索词进行词法句法分析得到至少一个搜索知识点数据;相关度值计算单元,用于将搜索知识点数据分别与知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算搜索词和搜索结果条目之间的相关度值。
优选地,相关度值计算单元用于对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。
优选地,相关度值计算单元用于通过以下步骤执行将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理,具体可包括:获取所述搜索知识点数据的核心结构和非核心结构,根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。
优选地,每个匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。
优选地,相关度值计算单元203用于通过以下公式执行根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理:
relate_score(query,url)=Σi=1mΣj=15(e1,e2,r,p)*αj+Σi=1nΣj=15(e1,e2,r,p)*βj]]>
其中,(e1,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心结构的数量,αj为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n为所述非核心结构的数量,βj为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。
搜索结果条目排序模块204用于根据相关度值对多个搜索结果条目进行排序。
优选地,所述处理装置还包括:内容摘要生成模块,用于为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。
进一步地,所述内容摘要生成模块用于过滤掉所述知识网络中与所述搜索词不相关的知识点数据,并且按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
优选地,所述处理装置还包括:搜索词语法语义分析模块,用于根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。
通过该搜索结果的处理装置,能够对搜索词和从内容知识库中获取的多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度,提高用户的搜索体验。此外,还可生成反映搜索主题的内容摘要,进一步为用户提供核心内容的信息。
在本发明所提供的几个实施例中,应该理解到,所公开的装置和方 法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

搜索结果的处理方法及装置.pdf_第1页
第1页 / 共14页
搜索结果的处理方法及装置.pdf_第2页
第2页 / 共14页
搜索结果的处理方法及装置.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《搜索结果的处理方法及装置.pdf》由会员分享,可在线阅读,更多相关《搜索结果的处理方法及装置.pdf(14页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410758984.X(22)申请日 2014.12.11G06F 17/30(2006.01)(71)申请人 北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街 10 号百度大厦 2 层(72)发明人 王丽杰 吴先超 刘占一(74)专利代理机构 北京金律言科知识产权代理事务所 ( 普通合伙 ) 11461代理人 罗延红 杨移(54) 发明名称搜索结果的处理方法及装置(57) 摘要本发明实施例提供了一种搜索结果的处理方法及装置。所述处理方法包括 :根据搜索词获取多个搜索结果条目 ;从内容知识库中分别获取所述多个搜索结果。

2、条目的知识网络,每个所述知识网络包括多个内容知识点数据 ;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值 ;根据所述相关度值对所述多个搜索结果条目进行排序。本发明实施例的搜索结果的处理方法及装置与现有技术相比更符合用户的需求,提高了搜索结果与用户需求的匹配度。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书6页 附图4页(10)申请公布号 CN 104462399 A(43)申请公布日 2015.03.25CN 104462399 A1/3 页21.一种搜索结果的处理方法。

3、,其特征在于,所述方法包括 :根据搜索词获取多个搜索结果条目 ;从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据 ;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值 ;根据所述相关度值对所述多个搜索结果条目进行排序。2.根据权利要求 1 所述的处理方法,其特征在于,所述处理方法还包括 :为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。3.根据权利要求 2 所述的处理方法,其特征在于,所述为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要的处理包括。

4、 :过滤掉所述知识网络中与所述搜索词不相关的知识点数据,按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。4.根据权利要求13中任一项所述的处理方法,其特征在于,所述通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值的处理包括 :对所述搜索词进行词法句法分析得到至少一个搜索知识点数据,将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值。5.根据权利要求 4 所述的处理方法,其特征在于,所述将所述搜索知识点数据分别与所述知识网络。

5、进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值的处理包括 :对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。6.根据权利要求 5 所述的处理方法,其特征在于,所述将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理 :获取所述搜索知识点数据的核心结构和非核心结构,根据所述知识网络中知识点。

6、的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。7.根据权利要求 6 所述的处理方法,其特征在于,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。8.根据权利要求 7 所述的处理方法,其特征在于,所述根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理,包括 :权 利 要 求 书CN 104462399 A2/3 页3其中,(e1,e2,r,p) 为所述搜索知识点的结构表示,其中,r 为动词关系或名词属性或限定关系。

7、,p 为 r 发生时的条件,e1 和 e2 是与 r 相关联的两个实体,其中,query 为搜索词,url 为根据所述搜索词进行得到的搜索结果条目,m 为所述核心结构的数量,j为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n 为所述非核心结构的数量,j为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。9.根据权利要求 8 所述的处理方法,其特征在于,所述处理方法还包括 :根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。10.一种搜索结果的处理装置,其特征在于,所述装置包括 :搜索结果条目获取模块,用于根据搜索词获取多个搜索结果条目 ;知。

8、识网络获取模块,用于从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据 ;相关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值 ;搜索结果条目排序模块,用于根据所述相关度值对所述多个搜索结果条目进行排序。11.根据权利要求 10 所述的处理装置,其特征在于,所述处理装置还包括 :内容摘要生成模块,用于为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。12.根据权利要求 11 所述的处理装置,其特征在于,所述内容摘要生成模块用于 :过滤掉所述知识网络。

9、中与所述搜索词不相关的知识点数据,按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。13.根据权利要求 10 12 中任一项所述的处理装置,其特征在于,所述相关度值计算模块包括 :搜索词词法句法分析单元,用于对所述搜索词进行词法句法分析得到至少一个搜索知识点数据,相关度值计算单元,用于将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值。14.根据权利要求 13 所述的处理装置,其特征在于,所述相关度值计算单元用于 :对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示所述搜索。

10、知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。15.根据权利要求 14 所述的处理装置,其特征在于,所述相关度值计算单元用于通过以下步骤执行将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理 :权 利 要 求 书CN 104462399 A3/3 页4获取所述搜索知识点数据的核心结构和非核心结构,根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构。

11、表示与所述知识网络中知识点的结构表示的多个匹配强度。16.根据权利要求 15 所述的处理装置,其特征在于,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。17.根据权利要求 16 所述的处理装置,其特征在于,所述相关度值计算单元用于通过以下公式执行根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理 :其中,(e1,e2,r,p) 为所述搜索知识点的结构表示,其中,r 为动词关系或名词属性或限定关系,p 为 r 发生时的条件,e1 和 e2 是与 r 相关联的两个实体,其中,query 为搜索词,url。

12、 为根据所述搜索词进行得到的搜索结果条目,m 为所述核心结构的数量,j为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n 为所述非核心结构的数量,j为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。18.根据权利要求 17 所述的处理装置,其特征在于,所述处理装置还包括 :搜索词语法语义分析模块,用于根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。权 利 要 求 书CN 104462399 A1/6 页5搜索结果的处理方法及装置技术领域0001 本发明涉及搜索技术,尤其涉及一种搜索结果的处理方法及装置。背景技术0002 搜索引擎的首要任务。

13、提升搜索相关性。现有技术中,提升搜索相关性主要考虑网页质量、搜索词与网页的相关性等因素。其中,搜索词与网页的相关性,主要依赖于搜索词中使用的术语,例如,术语在当前搜索词中的重要性、术语间的紧密程度以及其在网页中的表现形式 ( 是否紧密出现,术语在该网页中是否相对重要等 )。0003 然而,运用现有技术处理后的搜索结果在某些情况下并不符合用户的需求。图 1是示出搜索词为“莱美健身课程有哪些”的搜索结果条目的示例性示意图。如图 1 所示,前两个搜索结果条目“在哪里学习莱美健身课程”以及“什么是莱美健身课程”都没有给出用户所需求的课程,使得搜索结果与用户需求的匹配度较差。发明内容0004 本发明实施。

14、例的目的在于,提供一种搜索结果的处理方法及装置,通过对搜索结果与搜索词进行语义相关度计算,使得搜索结果更符合用户的需求,提高搜索结果与用户需求的匹配度。0005 为实现上述发明目的,本发明的实施例提供了一种搜索结果的处理方法,包括 :根据搜索词获取多个搜索结果条目 ;从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据 ;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值 ;根据所述相关度值对所述多个搜索结果条目进行排序。0006 本发明的实施例还提供了一种搜索结果的处理装置,包括 :搜。

15、索结果条目获取模块,用于根据搜索词获取多个搜索结果条目 ;知识网络获取模块,用于从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据 ;相关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值 ;搜索结果条目排序模块,用于根据所述相关度值对所述多个搜索结果条目进行排序。0007 本发明实施例提供的搜索结果的处理方法及装置通过从内容知识库中分别获取多个搜索结果条目的知识网络,并对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间。

16、的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度,提高用户的搜索体验。此外,还可生成反映搜索主题的内容摘要,进一步为用户提供核心内容的信息。附图说明说 明 书CN 104462399 A2/6 页60008 图 1 是示出在现有技术中搜索结果条目的示例性示意图 ;0009 图 2 是示出本发明实施例一的搜索结果的处理方法的流程图 ;0010 图 3 是示出图 1 中的搜索词的结构分析结果的示例性示意图 ;0011 图 4 是示出图 1 中第一个搜索结果条目的知识网络结构分析结果的示例性示意图;0012 图 5 是。

17、示出图 1 中第二个搜索结果条目的知识网络结构分析结果的示例性示意图;0013 图 6 是示出图 1 中第三个搜索结果条目的知识网络结构分析结果的示例性示意图;0014 图 7 是示出本发明实施例二的搜索结果的处理装置的逻辑框图。具体实施方式0015 本发明的基本构思是,从内容知识库中分别获取多个搜索结果条目的知识网络,并对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求。0016 下面结合附图对本发明实施例一种搜索结果的处理方法及装置进行详细描述。0。

18、017 实施例一0018 图 2 是示出本发明实施例一的搜索结果的处理方法的流程图。可在例如搜索引擎服务器上执行所述方法。所述搜索结果的处理方法包括如下步骤 :0019 步骤 101 :根据搜索词获取多个搜索结果条目。0020 搜索引擎服务器可使用搜索词运用现有的搜索技术 ( 例如,从预先编制的网页索引 ) 获取多个搜索结果条目。0021 步骤 102 :从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络包括多个内容知识点数据。0022 具体的,可在线下对每个搜索结果条目的内容文本进行分句以及词法句法分析,从而提取到多个内容知识点数据,并将这多个内容知识点数据进行合并得到知识网络,。

19、并且将多个搜索结果条目的知识网络保存到内容知识库中。本申请人在同日提交的另一件名称为“生成文本摘要的方法及装置”的专利申请中记载了一种用于从内容文本生成内容知识库的技术。需要说明的是,所述内容知识库的生成不仅限于前述专利申请记载的方法,还可运用其它知识点挖掘技术在线下建立内容知识库。0023 此外,还可以根据常识知识库对搜索词进行语法语义分析得到知识点数据。需要说明的是对搜索词进行语法语义分析,也就是根据常识知识库对搜索词进行重要性和紧密度的分析,具体的,线下分析每个搜索结果条目,并抽取知识点,同时将每个知识点作为一个常识知识单独保存在常识知识库中,对搜索词进行结构分析时,就可以依据常识知识库。

20、确认哪些术语非常重要,哪些术语不是很重要,重要性不高的术语再结合上下文情况可以省略掉。0024 步骤 103 :通过对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配分别计算搜索词和搜索结果条目之间的相关度值。说 明 书CN 104462399 A3/6 页70025 如前所述,根据本发明的示例性实施例,可对搜索词分别和每个搜索结果条目的知识网络进行如下的处理 :对搜索词进行词法句法分析得到至少一个搜索知识点数据,将搜索知识点数据分别与知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算搜索词和每个搜索结果条目之间的相关度值。0026 具体地,根据本发明的示例性实施例,对任一搜索结。

21、果条目,将搜索知识点数据与知识网络进行结构表示,将搜索知识点数据的结构表示与知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据结构的匹配强度计算搜索词和搜索结果条目的相关度值。0027 优选地,将搜索知识点数据与知识网络进行结构表示,并将搜索知识点数据的结构表示与知识网络中知识点的结构表示进行匹配得到匹配强度的处理。具体可包括 :获取搜索知识点数据的核心结构和非核心结构,根据知识网络中知识点的结构表示与搜索知识点数据的核心结构和非核心结构的匹配确定搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。这里需要说明的是,每个所述匹配强度被确定为完全匹配、核心成分匹配。

22、、限制成分强匹配、限制成分弱匹配或无法匹配。以下将对前述五种匹配强度给予具体描述。0028 首先,将搜索知识点数据的结构表示以及知识网络中知识点的结构表示均表示为(e1,e2,r,p),其中 r 可以是动词关系、名词属性、非明确关系,p 表示 r 发生时的条件 ( 主要针对动词而言 ),e1 和 e2 是关系 r 关联的两个直接实体。可将前述匹配强度定义为 :0029 (1) 完全匹配 :如果搜索知识点数据和知识网络中知识点的结构的 e1,e2,r,p 均完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为完全匹配 ;0030 (2) 核心成分匹配 :如果搜索知识点数据和知识网络中知识点的。

23、结构的 e1,e2,r完全匹配,p 没有或部分匹配上,则核心结构或非核心结构和知识网络的匹配强度为核心成分匹配 ;0031 (3) 限制成分强匹配 :如果搜索知识点数据和知识网络中知识点的结构的 r 均为限定关系,且e1与e2完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制成分强匹配,0032 (4) 限制成分弱匹配 :如果搜索知识点数据和知识网络中知识点的结构的 r 均为限定关系,且e1与e2没有匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制成分弱匹配,0033 (5) 无法匹配 :如果搜索知识点数据和知识网络中知识点的结构的 r 没有匹配上或 e1 与 e2 没有匹配。

24、上,则核心结构或非核心结构和知识网络的匹配强度为无法匹配。0034 优选地,可通过以下公式执行搜索词和搜索结果条目的相关度值的计算 :0035 0036 其中,(e1,e2,r,p) 为搜索知识点的结构表示,其中,r 为动词关系或名词属性或限定关系,p 为 r 发生时的条件,e1 和 e2 是与 r 相关联的两个实体,0037 其中,query 为搜索词,url 为根据搜索词进行得到的搜索结果条目,m 为核心结构说 明 书CN 104462399 A4/6 页8的数量,j为与核心结构和知识网络中知识点的结构的匹配强度相对应的权重值,n 为非核心结构的数量,j为非核心结构与知识网络中知识点的结构。

25、的匹配强度相对应的权重值。0038 步骤 104 :根据计算的相关度值对多个搜索结果条目进行排序。0039 可选地,步骤 104 可包括,以计算的相关度值作为多个衡量指标之一对所述多个搜索结果条目进行排序。0040 通过该搜索结果的处理方法,能够对搜索词和从内容知识库中获取的多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度。0041 在此基础上,为方便用户对长文本内容快速了解,可以为任一搜索结果条目生成简短的具有核心主题的内容。

26、摘要。0042 为此根据本发明优选实施例的搜索结果的处理方法还可以包括 :0043 为任一搜索结果条目,根据搜索结果条目的知识网络生成内容摘要。具体的,可以过滤掉知识网络中与搜索词不相关的知识点数据,然后按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。0044 下面结合具体的处理示例,来进一步更直观地说明一下本发明实施例的具体应用。0045 例如,在搜索引擎中键入“莱美健身课程有哪些”的搜索词,如图 1 所示,获取到多个搜索结果条目,再从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络都包含多个内容知识点数据,然后对搜索词进行结构分析,也就是对搜索词进行词法。

27、句法分析得到搜索知识点数据,再将搜索知识点数据进行结构表示。图3是示出图1中搜索词“莱美健身课程有哪些”的结构分析结果的示例性示意图。参照图 3,其中莱美是一个实体词,通过查询常识知识库可以得出“莱美”有健身体系、相机商标、药业、健身企业四个义项,且具有课程这一属性的就只有健身体系和健身企业两个义项,由于这两个义项都是与健身相关,则搜索词中的术语“健身”其重要性不再高,且其跟“莱美”和“课程”的紧密度也不再大,最终对该搜索词进行结构分析的结果为图中大方框标记的内容,即莱美、课程、答案。0046 然后对任一搜索结果条目的知识网络进行结构分析,得到知识网络中知识点的结构表示,图 4 是示出图 1 。

28、中第一个搜索结果条目的知识网络结构分析结果的的示例性示意图,其中还包含了另一个百度知道的内容。再参照图 5,图 5 是示出图 1 中第二个搜索结果条目的知识网络结构分析结果的的示例性示意图。在图 5 示出结构分析结果的的示例性示意图中去除了“新浪博客”等描述网站本身信息的子串。图 6 是示出图 1 中第三个搜索结果条目的知识网络结构分析结果的的示例性示意图,其中,通过查询常识知识库得知BodyCombat、BodyPump、BobyBalanc 都属于课程名称,它们的上位词就是课程。0047 此后,依据搜索知识点数据的结构表示与知识网络中知识点的结构表示,对搜索词“莱美健身课程有哪些”和多个搜。

29、索结果条目的知识网络中知识点进行知识点的结构匹配。具体的,针对搜索词中搜索知识点数据的结构,可根据搜索词中是否含有问题类型(lexical answer type,LAT) 划分为两大类结构,如下 :核心结构 :含有 LAT 的词条,例如,“课程”就是该搜索词的 LAT,即用户所要答案的类型或是上位词,则含有“课程”的结构都说 明 书CN 104462399 A5/6 页9是核心结构 ;非核心结构 :不含有 LAT 词条,例如,“莱美健身课程 45 音乐有哪些”,除了“课程、音乐、答案”这个结构外,如“莱美、课程”“45、课程”都是非核心结构。0048 在进行结构匹配时,就需要从核心结构是否一。

30、致以及非核心结构是否一致这两方面进行考虑。这里需要说明的是,如果搜索词结构含有 LAT,搜索结果条目的结构对应的是LAT 的下位词,例如,图 1 中的第三个搜索结果条目,BodyCombat 的上位词是课程,即 LAT 课程的下位词 BodyCombat,则这两个结构属于完全匹配,即 (e1 莱美,e2 课程,r 答案 )与 (e1 莱美,e2 课程,r BodyCombat) 完全匹配。0049 然后,根据结构匹配强度进一步计算搜索词和搜索结果条目的相关度值。在得到匹配强度之后,就可以根据前述相关度值计算公式执行搜索词和搜索结果条目的相关度值的计算。这里需要说明的是,在相关度值计算公式中,针。

31、对核心结构,每个匹配强度类型都有一个权重 ( 对应 j),同样针对非核心结构,每个匹配强度类型都有一个权重 ( 对应j),这两个权重的训练可以通过机器学习模型中的逻辑回归模型完成。0050 实施例二0051 图7是示出本发明实施例二的搜索结果的处理装置的逻辑框图。参照图7,所述搜索结果的处理装置包括 :搜索结果条目获取模块 201、知识网络获取模块 202、相关度值计算模块 203 以及搜索结果条目排序模块 204。0052 搜索结果条目获取模块 201 用于根据搜索词获取多个搜索结果条目。0053 知识网络获取模块 202 用于从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络包。

32、括多个内容知识点数据。0054 相关度值计算模块 203 用于通过对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配分别计算搜索词和搜索结果条目之间的相关度值。0055 优选地,相关度值计算模块 203 包括 :搜索词词法句法分析单元,用于对搜索词进行词法句法分析得到至少一个搜索知识点数据 ;相关度值计算单元,用于将搜索知识点数据分别与知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算搜索词和搜索结果条目之间的相关度值。0056 优选地,相关度值计算单元用于对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将所述搜索知识点数据的结构表示与所述知识网络中知识点。

33、的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。0057 优选地,相关度值计算单元用于通过以下步骤执行将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理,具体可包括 :获取所述搜索知识点数据的核心结构和非核心结构,根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。0058 优选地,每个匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配。

34、、限制成分弱匹配或无法匹配。0059 优选地,相关度值计算单元 203 用于通过以下公式执行根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的说 明 书CN 104462399 A6/6 页10处理 :0060 0061 其中,(e1,e2,r,p) 为所述搜索知识点的结构表示,其中,r 为动词关系或名词属性或限定关系,p 为 r 发生时的条件,e1 和 e2 是与 r 相关联的两个实体,0062 其中,query 为搜索词,url 为根据所述搜索词进行得到的搜索结果条目,m 为所述核心结构的数量,j为与所述核心结构和所述知识网络中知识点的结构的。

35、匹配强度相对应的权重值,n 为所述非核心结构的数量,j为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。0063 搜索结果条目排序模块 204 用于根据相关度值对多个搜索结果条目进行排序。0064 优选地,所述处理装置还包括 :内容摘要生成模块,用于为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。0065 进一步地,所述内容摘要生成模块用于过滤掉所述知识网络中与所述搜索词不相关的知识点数据,并且按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。0066 优选地,所述处理装置还包括 :搜索词语法语义分析模块,用于根据常识知识库对所述搜。

36、索词进行语法语义分析得到所述知识点数据。0067 通过该搜索结果的处理装置,能够对搜索词和从内容知识库中获取的多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度,提高用户的搜索体验。此外,还可生成反映搜索主题的内容摘要,进一步为用户提供核心内容的信息。0068 在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能。

37、划分,实际实现时可以有另外的划分方式。0069 另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。0070 上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 或处理器 (processor) 执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括 :U 盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器 (Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。0071 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。说 明 书CN 104462399 A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1