一种基于领域本体的智能检索系统及方法.pdf

上传人:54 文档编号:967092 上传时间:2018-03-22 格式:PDF 页数:18 大小:743.61KB
返回 下载 相关 举报
摘要
申请专利号:

CN200810306721.X

申请日:

2008.12.31

公开号:

CN101582073A

公开日:

2009.11.18

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30公开日:20091118|||实质审查的生效IPC(主分类):G06F 17/30申请日:20081231|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京中机科海科技发展有限公司

发明人:

吴 来; 刘 鹏; 李春梅; 黄道雄; 范书德

地址:

100044北京市海淀区车公庄西路22号

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明涉及中文信息检索(IR)领域,特别涉及一种基于领域本体(Domain ontology)的智能检索方法,以及包含该方法的智能检索系统。其中该系统包括:用于分析用户输入自然查询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行特定查询的查询处理模块,以及用于查询结果处理的结果优化排序模块,所述系统还包括:基于某一领域所构建的领域本体库、数据资源库、以及索引数据库。本发明所述的基于领域本体的智能检索系统及方法充分利用了领域本体库中的概念及其相互关系,能够正确理解用户需求,优化检索结果,为用户更全、更准地返回专业领域信息,能够显著提高专业技术领域内信息检索的性能。

权利要求书

1.  一种基于领域本体的智能检索系统,包括用于分析用户输入自然查询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行特定查询的查询处理模块,以及用于查询结果处理的结果优化排序模块,其特征在于,所述的系统还包括数据资源库、领域本体库和索引数据库;

2.
  根据权利要求1所述的基于领域本体的智能检索系统,其特征在于,所述的本体推理模块包括分词预处理单元和句型模式匹配单元;
所述分词预处理单元,用于接收用户输入的自然查询语句,对查询语句进行分词、词性标注、领域本体角色标注等预处理,去除弱语义词汇,得到强语义词汇集合;
所述句型模式匹配单元,用于将强语义词汇集合与事先定义的句型模式进行匹配处理,得到新的检索式;

3.
  根据权利要求1所述的基于领域本体的智能检索系统,其特征在于,所述的索引处理模块包括本体语义索引处理单元和全文索引处理单元;
所述本体语义索引处理单元,用于获取数据资源文档,解析、处理并提取文档主体内容信息,基于领域本体库合成语义向量,建立语义本体索引库;
所述全文索引处理单元,用于获取数据资源文档,提取文档信息,建立全文索引库;

4.
  根据权利要求1所述的基于领域本体的智能检索系统,其特征在于,所述的查询处理模块包括语义查询处理单元、扩展查询处理单元和全文检索处理单元;
所述语义查询处理单元,用于基于领域本体概念及概念间关联进行专业领域信息的智能查询处理;
所述扩展查询处理单元,用于基于领域本体概念及概念间关联进行扩展查询处理;
全文检索处理单元,用于按照传统的检索方式,即按照关键字匹配原理进行全文检索的处理。

5.
  根据权利要求1所述的基于领域本体的智能检索系统,其特征在于,所述的数据资源库包括本地领域数据库内的资源或从网上抓取的领域内的资源数据;

6.
  根据权利要求1所述的基于领域本体的智能检索系统,其特征在于,所述的索引数据库包括由索引处理模块建立的本体语义索引库和全文索引库。

7.
  一种如权利要求1所述基于领域本体的智能检索方法,其特征在于,所述的方法包括以下步骤:
A.对用户输入的自然查询语句进行分词、词性标注、并基于领域本体进行角色标注;
B.分析、判断上述步骤A中的词汇集,进行本体角色非空项的判断,并按照一定的规则进行相应的查询;
C.对查询结果进行语义距离测量,按照语义距离值进行结果的优化,并将结果排序输出,返回给用户。

8.
  根据权利要求7所述的方法,其特征在于,步骤B中所述的本体角色非空项的判断进一步包括:
B1.如果用户输入的自然查询语句中不包括本体概念,则进行全文检索;
B2.如果用户输入的自然查询语句中包括本体概念,则进行本体模式的匹配判断。

9.
  根据权利要求8所述的方法,其特征在于,步骤B2进一步包括:
B21.如果本体模式匹配成功,则形成语义查询检索式;
B22.如果本体模式匹配成功,则访问领域本体库,进行语义扩展处理,并形成扩展查询检索式。

说明书

一种基于领域本体的智能检索系统及方法
技术领域
本发明涉及中文信息检索(IR)领域,特别涉及一种基于领域本体(Domain ontology)的智能检索方法,以及包含该方法的智能检索系统。
背景技术
信息检索技术的出现是网络发展史上的里程碑,它为网络用户带来了极大的便利,Google、百度是这个领域的典型代表。用户只要输入检索词或检索语句,信息检索系统就会按照一定的排序规则、为用户快速地返回包含该检索词或检索语句的所有网页。因此,对于信息检索系统而言,正确理解用户的检索需求、优化结果排序方式等至关重要。
然而,现有的通用搜索引擎无法准确理解和处理各类信息,特别是专业领域知识,经常检索不到、甚至返回大量无关专业领域信息,系统查全率和查准率不高。主要原因在于:
一方面,采取关键字匹配方式理解用户检索语句。信息检索系统并不关注用户输入的专业领域词汇的概念和语义,只是将分词后的关键词与索引库中的索引词按照字面形式进行直接匹配。
另一方面,按照检索相关度对结果进行排序处理,即按照检索词和索引词之间相同的字或词的多少进行排序。
为了提高检索效率,一些信息检索系统提出了“相关搜索”等改进技术,然而,这些技术仍没有脱离字面匹配的本质。在人工智能(AI)等领域,本体(ontology)的引入为相关问题的解决带来了契机。
(1)本体是共享概念模型的形式化的、明确的规范说明(ontology is a formal,explicit specification of a shared conceptualization,studer 1998)。
本体的目标是捕获相关领域的知识,确定该领域共同认可的词汇,并明确定义这些词汇及词汇间的相互关系,提供对该领域知识的共同理解,并以规范化的形式在计算机中加以存储。
(2)规定了论域。
领域本体以一个特定的领域为描述对象,提供该特定领域的概念定义和概念之间的关系、主要理论、基本原理,以及领域中发生的活动等。
(3)知识表示、共享和重用。
共享知识体系的表示是“机器可处理”的语义,它以RDF为基础,以URI作为命名机制、以XML为语法,将不同的应用集成在一起,对Web上的数据进行抽象表示。本体通过这种通用框架的表示方式,允许跨越不同应用程序、企业和团体的边界进行数据的共享和重用。
(4)信息交流的语义基础。
由本体所提供的领域内共同认可的知识体系包括术语集、关系集和规则集,会为不同主体提供一种共识,为不同背景和领域下的人、机器、软件系统等进行信息交流提供了可能。
正是由于以上的特点和优势,所以本体为语义理解、智能检索等提供了可能。20世纪90年代,本体技术得到了知识工程、人工智能等多个领域的广泛关注和研究,并取得了一定的成果。
然而,目前构建较为详细的、囊括所有领域知识体系的通用本体,并基于这个通用本体建立信息检索系统并不现实。因此,有必要从某一领域出发,构建领域本体,实现对该专业领域知识的智能检索。目前,相关智能检索技术中尚不存在基于领域本体的用户输入的句型模式匹配方法和语义距离测量的结果优化排序方法,且尚不存在包含该方法的智能检索系统,导致智能检索系统面临一系列技术问题,并未如预期一样在检索性能上比传统检索系统有明显的提高和改善。
发明内容
本发明的主要目的在于提供一种基于领域本体实现智能检索的系统,旨在正确理解用户需求,提供高效的专业领域信息服务,改进现有信息检索系统的不足。
本发明的另一个目的还在于提供一种用于上述基于领域本体的智能检索系统的句型模式匹配方法和语义距离测量等方法,利用该方法可以正确理解用户输入的自然查询语句,对查询结果进行语义相关度的计算,为用户返回最相关的专业领域信息。
为达到上述发明目的,本发明是通过下述技术方案实现的:
本发明实施例公开了一种基于领域本体的智能检索系统,其特征在于,该系统包括:用于分析用户输入自然查询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行特定查询的查询处理模块,以及用于查询结果处理的结果优化排序模块,所述系统还包括:基于某一领域所构建的领域本体库、数据资源库、以及索引数据库;
其中,本体推理模块包括分词预处理单元和句型模式匹配单元;
分词预处理单元,用于接收用户输入的自然查询语句,对查询语句进行分词、词性标注、领域本体角色标注等预处理,去除弱语义词汇,得到强语义词汇集合;
句型模式匹配单元,用于将强语义词汇集合与事先定义的句型模式进行匹配处理,得到新的检索式;
索引处理模块包括本体语义索引处理单元和全文索引处理单元;
本体语义索引处理单元,用于获取数据资源文档,解析、处理并提取文档主体内容信息,基于领域本体库合成文档语义向量,建立基于本体的语义索引库;
全文索引处理单元,用于获取数据资源文档,提取文档信息,建立全文索引库;
查询处理模块包括语义查询处理单元、扩展查询处理单元和全文检索处理单元;
语义查询处理单元,用于基于领域本体概念及概念间关联进行专业领域信息的智能查询处理;
扩展查询处理单元,用于基于领域本体概念及概念间关联进行扩展查询处理;
全文检索处理单元,用于按照传统的检索方式,即按照关键字匹配原理进行全文检索的处理;
数据资源库,包括:本地领域数据库内的资源或从网上抓取的领域内的资源数据;
索引数据库,包括:由索引处理模块建立的本体语义索引库和全文索引库。
本发明实施例还公开了一种基于领域本体的智能检索方法,其特征在于,该方法包括下述步骤:
A.对用户输入的自然查询语句进行分词、词性标注,并基于领域本体进行角色标注;
B.分析、判断上述步骤A中的词汇集,进行本体角色非空项的判断,并按照一定的规则进行相应的查询;
C.对查询结果进行语义距离测量,按照语义距离值进行结果的优化,并将检索结果排序输出,返回给用户。
其中上述步骤B所述的本体角色非空项的判断进一步包括:
B1.如果用户输入的自然查询语句中不包括本体概念,则进行全文检索;
B2.如果用户输入的自然查询语句中包括本体概念,则进行句型模式的匹配判断。
其中上述步骤B2所述的句型模式匹配判断进一步包括:
B21.如果句型模式匹配成功,则进行语义查询;
B22.如果句型模式匹配成功,则访问领域本体库,进行适当的语义扩展处理,进行扩展查询。
因此,本发明实施例提供的基于领域本体的智能检索系统和方法,具有以下的优点:本发明所述的基于领域本体的智能检索系统及方法充分利用了领域本体库中的概念及其相互关系,能够正确理解用户需求,优化检索结果,为用户更全、更准地返回专业领域信息,能够显著提高专业技术领域内信息检索的性能。
附图说明
根据下述附图及实施例的描述,可以充分说明本发明的特征及优点。在附图中:
图1是本发明实施例的一种基于领域本体的智能检索系统的结构框图;
图2是本发明实施例中的语义本体索引处理单元创建语义索引数据库的流程图;
图3是图1所示的本发明实施例的智能检索系统为用户执行专业领域知识查询过程的流程图;
图4是本发明实施例所采用的检索方式图;以及
图5是本发明实施例的领域本体概念间语义的距离示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下参照附图以及实施例,对本发明作进一步详细描述。应当理解,下述所举的实施例仅被用作解释本发明、并不用于限制本发明,即本发明的保护范围不限于下述的实施例,相反,根据本发明的构思,本领域普通技术人员可以进行适当更改,这些改变可以落入权利要求书所限定的发明范围之内。
本发明的基本思想是:本发明的一个实施例基于领域本体库提供了多种检索方式,如图4所示,包括:全文检索402、扩展检索403和语义检索404。如果用户输入的词汇中不包含本体概念,则进行全文检索;否则结合领域本体对用户输入的自然查询语句进行句型模式匹配处理。如果匹配成功,则访问语义本体索引库进行语义检索;如果匹配不成功,则基于领域本体库进行适当的语义扩展查询。最后,对查询结果进行语义距离测量,并将结果优化排序并输出,为用户返回专业领域信息。
图1示出的本发明提供的基于领域本体的智能检索系统包括:本体推理模块102、索引处理模块109、查询处理模块115和结果优化排序模块119,以及领域本体库105、数据资源库106和索引数据库112。
图1中的索引处理模块109针对数据资源库106中的本地数据资源107或网上资源108,并结合领域本体库105,通过本体语义索引处理单元110和全文索引处理单元111生成索引数据库112;本体推理模块102接收用户101输入的自然语言查询语句,结合领域本体库105,使用分词预处理单元103和句型模式匹配单元104生成相应的检索式。接着,将检索式传入索引数据库112。索引数据库112接收检索式,按照对应的规则访问相应的本体语义索引库113或全文索引库114,然后,通过查询处理模块115中的语义查询处理单元116、扩展查询处理单元117和全文检索处理单元118进行相应的查询处理,最后,通过结果优化排序模块119优化检索结果,将查询结果返回给用户101。
图1中的本发明实施例的领域本体库105采用仪器仪表领域的数据进行分析和构建,根据本发明开发了一种针对结构化数据自动构建领域本体库的工具,该工具能自动进行领域本体知识库的构建,极大地提高了领域本体库构建的效率。
图1中的全文索引处理单元111采用一般的处理方法和技术,对所要处理数据资源的标题、摘要、全文等建立索引,以便检索时提高系统的查全率,由于相关技术已经非常成熟,在此不再详述。
图2示出了图1中本体语义索引处理单元110的处理流程,具体步骤详述如下:
1)文档获取201,用于获取专业领域内的系统数据资源,此处文档可以包括html、asp、pdf、doc、txt、excel、ppt、ps、图片等多种格式,Web页面信息的获取是通过网络爬虫进行抓取的。
例如,本发明的实施例采用heritrix爬虫框架,根据用户设定的种子去请求一个页面,并将有效的URL添加到队列中等候处理,然后提取队列中等候的第一个链接对其进行页面解析,并根据user-defined-extractor自定义的抽取器提取出有效的文本信息,以镜像存储结构存储到本地。同时将页面中有效的URL再次加入队列等候处理,如此不断地分析下去,直到最后一个链接无任何有效链接为止,完成一次任务的抓取,如此不断循环往复,直至抓取完所需的预定网上资源。
本地专业领域数据库内的数据可以直接从图1的本地数据资源107中提取,实施例采用国家基础条件重点平台项目“先进制造与自动化科学数据共享网”中的仪器仪表数据库中的数据;对于领域本体文件,可以访问事先创建的领域本体库,进行直接获取。
2)内容解析202,对通过步骤1)获得的文档进行解析,即:通过对文档内容进行格式解析,获取各类文档中的具体内容。具体流程为:首先以流的方式把文件读取到内存中,然后对各类型文件的存储格式进行分析,最后按照各自的存储格式从内存中提取出文件的有效信息。
3)分词、词性标注203,这一步对步骤2)中的解析文档进行分词处理,以及词性的标注。具体是通过系统的分词工具对文档中词汇进行分割,并标注出各个词汇的词性,特别是针对专业领域词汇的分词做了特定的处理。其中名词、动词、数词、形容词、前置词、助词、连词、标点等词性标记分别为n、v、m、a、p、u、c、wp等符号。
例如,针对以下文档内容:“双金属温度计是利用两种不同金属在温度改变时膨胀程度不同的原理工作的。工业用双金属温度计主要的元件是一个用两种或多种金属片叠压在一起组成的多层金属片。”进行分词和词性的标注,最后的处理结果是:“双金属温度计/n/是/v 利用/v 两种/m 不同/a 金属/n 在/p 温度/n 改变/v 时/n 膨胀程度/n 不同/a 的/u 原理/n 工作/v 的/u。/wp 工业/n 用/p 双金属温度计/n 主要/b的/u 元件/n 是/v 一个/m 用/p 两种/m 或/c 多种/m 金属片/n 叠压/v 在/p一起/nl 组成/v 的/u 多/a 层/q 金属片/n。/wp”。
4)本体角色标注204,对词汇在本体中所充当的角色进行分析并标注,如本体类概念(Class)标记为C、对象属性(ObjectProperty)标记为OP、数据属性(DatatypeProperty)标记为DP、本体实例(Individuals)标记为I等的标注。另外,根据需要也可以进行更详细标注,如仪表实例(yb_Individuals)标记为yb_I、标准实例(bz_ Individuals)标记为bz_I等。
例如,将上述步骤3)的结果进一步进行本体角色的判断,最后标注为:“双金属温度计/n/yb_C是/v/null 利用/v/OP两种/m/null 不同/a/null 金属/n/C 在/p/null温度/n/DP  改变/v/null  时/n/null  膨胀程度/n/DP 不同/a/null 的/u/null 原理/n/DP 工作/v/null 的/u/null。/wp/null 工业/n/null 用/p/null 双金属温度计/n/yb_C 主要/b/null 的/u/null 元件/n/C 是/v/null 一个/m/null 用/p/null 两种/m/null 或/c/null 多种/m/null 金属片/n/C 叠压/v/null 在/p/null 一起/nl/null 组成/v/OP 的/u/null 多/a/null 层/q/null 金属片/n/C。/wp/null”。
5)提取核心词汇205,此步是针对步骤4)的标注结果,将其中的本体角色为空的词汇去除,保留本体角色为非空词汇的过程。一般情况下,如果文档中某个词汇没有被收录到该领域的领域本体库之中,则该词汇对于领域专业信息检索过程而言,基本为干扰信息或不相干信息,因此,为提高专业领域检索的效率,不必为该词创建索引信息。
对步骤4)提取核心词汇如下所示:“双金属温度计/n/yb_C 利用/v/OP 金属/n/C温度/n/DP 膨胀程度/n/DP 原理/n/DP 双金属温度计/n/yb_C 元件/n/C 金属片/n/C组成/v/OP 金属片/n/C”。
6)合成语义向量206,将文档中所有在领域本体中出现的概念,即步骤5)提取的核心词汇合成语义向量,中间允许同一概念出现多次,不同的位置对最终文档相似度的计算结果会有不同的影响。
将步骤5)中的核心词汇合成语义向量后的结果是:“(双金属温度计,利用,金属,温度,膨胀程度,原理,双金属温度计,元件,金属片,组成,金属片)”。
7)建立语义索引207,基于领域本体知识库,对提取的语义向量建立索引。
本发明所采用的语义索引创建的方式不但能节省空间、提升检索效率,还能最大限度地保留文档语义。
图3示出了基于领域本体进行专业领域知识查询的流程,其中用户输入检索语句301、分词、词性标注302、以及本体角色标注303与前面本体语义索引处理单元110中的处理过程类似,所以,此处不再赘述。通过用户输入检索语句301?本体角色标注303的流程处理后,得到标有词性和角色的分词词汇集合。
例如,用户输入自然查询语句:“能够测量人体温的仪表及生产厂家”,经过分词、词性及本体角色标注等过程处理后的结果是:{能够,v,null}、{测量,v,ObjectProperty}、{人,n,X}{体温,n,X}、{的,u,X}、{仪表,n,yb_Class}、{及,c,null}、{生产厂商,n,ObjectProperty}。
以下是从本体角色非空项判断304处开始的详细处理流程:
1)本体角色非空项304对标注后的强语义词汇集进行分析,判断其词汇集合中是否含有本体概念。
a)如果本体角色均为空,则利用分词的词汇集合访问提取核心词汇305,然后利用核心词汇访问全文索引库306进行全文检索匹配处理。
例如,“儿童的营养健康问题”,分词的词汇集合为:“儿童/的/营养/健康/问题/”,提取核心词汇为:“儿童/营养/健康/”,利用此核心词汇集访问全文索引库进行全文检索处理。
b)如果查询语句中含有一个或一个以上的本体概念,则进行提取强语义词汇307的处理,然后访问句型模式匹配308。
例如,对“温度计的种类有哪些”分词后:“温度计/n的/u种类/n有/v哪些/r”,对其进一步进行本体角色标注并提取强语义词汇,最后得到“温度计/n/C”。其中,需要注意的是,句型模式是根据领域本体知识库中的概念和各概念之间的相互关系以及推理规则等事先建立的一种自定义的句型模式,该句型模式的建立在一定程度上,还必须根据用户需求分析以及在领域专家的指导下制定和定义。句型模式建立的越丰富,智能查询的效果越好。
b1)如果含有本体概念的强语义词汇集与句型模式M匹配成功,则执行此步骤,最后形成智能检索式;
下述是一个匹配成功的实施例:
例如,用户输入“能够测量人体温的仪表及生产厂家”,经过分词和提取核心词汇最后得到的词汇集是:“测量/人/体温/仪表/生产厂家”。该检索语句与句型模式M1相匹配。句型模式M1被定义为:“本体属性P1+X+本体类概念C+本体属性P2”,且存在如下关系:C拥有属性P1、P2,其中“X”为任意成分,强语义词汇集与句型模式匹配的具体对应关系为:“测量/(本体属性P1)人/(X)体温/(X)仪表/(本体概念C)生产厂家/(本体属性P2)”
结合上述的实施例,符合模式M1的处理规则是:将仪表(本体类C)下测量(属性P1)的值包含“人体温”(X)的所有仪表(本体类C)实例及该仪表(本体类C)实例的生产厂家(属性P2)的对应值按照一定格式返回,简单地说就是将满足测量人体温的仪表实例及其生产厂家按照规定格式输出。
当句型模式匹配成功后,根据既定模式下的处理规则,访问领域本体库,经过本体推理,形成符合系统索引格式要求的智能语义检索式。
检索式应为:[R1∪(F1,...,Fm)]∪[R2∪(F1,...,Fn)]∪,...,∪[Ri∪(F1,F2,...,Fk)]。其中,m≥1,n≥1,k≥1,R表示满足条件的仪表,F表示仪表R对应的一个或多个生产厂家。例如,当i=1,k=3时的检索式应为:R1∪(F1,F2,F3),即,R1F1∪R1F2∪R1F3
b2)如果含有本体概念的强语义词汇集与句型模式匹配失败,则执行此步骤,最后形成扩展检索式。
例如,“温度计的种类有哪些”,经分词后的词汇中含有本体概念“温度计”,但是在句型模式中没有定义;同理,当用户输入“光谱仪”,经分词后的词汇“光谱仪”属于本体概念,但是在句型模式中也没有定义。
当模式匹配失败后,访问领域本体库309,进行语义扩展,形成扩展查询检索式。具体处理过程是:将查询语句中的强语义词汇x,y与领域本体库309中的相关概念X,Y进行映射,并根据本体概念间的上下级关系、同义关系,以及其它关系进行适当的查询扩展处理。(X,X1,...,Xa)∪(Y,Y1,...,Yb),其中a,b为正整数,例如,X1为X的同义词,Y1,Y2为概念Y的下位概念,即,a=1,b=2时,那么查询的检索式为:(X,X1)∪(Y,Y1,Y2),即。XY∪XY1∪XY2∪X1Y1∪X1Y2
b3)通过上述步骤b1)和b2)之后,形成查询检索式311,具体为形成对应的语义查询检索式和扩展查询检索式。利用查询检索式311访问语义索引库312,进行相应的语义查询或扩展查询处理。
2)结果排序
a)语义距离测量
a1)句型模式匹配成功时的语义距离测量算法:实施例参照步骤1)中的b1)所述,对检索式中的每一项RF的相关“语义距离”进行计算,Drf为本体中R和F两概念间的最短语义距离,其中Drf为正整数,其取值是将R和F联系起来经过最少本体概念节点时,概念连接线的条数。如图5所示,有多条语义关系线可以将A、B连接起来,最短只经过两条连接线、一个本体节点即可将二者连接起来,即Drf=2。drf为索引库中每条记录的语义向量中的维差,如文档语义向量K=(a1,a2,a3,a4,a5,a6,a7),其中a3=R,a6=F,则drf=3。当R或F没有在文档语义向量中出现时,则语义距离无限远,实际计算时计为103,当均没出现时,此项drf不做任何计算。
a2)句型模式匹配失败时的语义距离测量算法:当用户输入的检索式中含有本体概念,但是,其强语义词汇集与本体句型模式匹配失败时,语义距离测量采用下述的方式。实施例参照步骤1)中的b2)所述,强语义词汇集可能包含1个或多个本体概念词汇,当本体概念数量为1时,查询检索式应为:X∪X1∪...∪Xm,其中,X1...Xm为X的扩展概念。此时不涉及语义距离问题,这种情况下,设定Drf=drf=1。当本体核心概念数量为多个时,返回的查询检索式的形式如前面所述为:(X,X1,...,Xa)∪(Y,Y1,...,Yb)∪,...,∪(Z,Z1,...,Zb),此时,Drf、drf的值为任意组合检索式的概念之间距离的平均值。
b)根据语义距离进行排序计算
排序计算的公式为:Z=q1*∑f1(qiAi,B)+q2*f2(g1(Drf),g2(drf))。
其中A为一个检索式形成的多个检索向量组成的矩阵,Ai为A中一个检索向量,∑是在i为不同值时所有f1的和,B为文档语义向量,f1(qiAi,B)表示Ai、B两向量的相关函数,qi为查询扩展系数,qi∈(0,1],如果为原概念,则qi=1,如果为同义词或下位概念等,则根据查询扩展策略中不同的相似度设定查询扩展系数qi,如:
f1(Ai,B)=qi*(a1+a2+...+aj)*(b1+b2+...+bk),其中aj,bk分别为Ai,B两向量维数为i时的概念,当且仅当aj与bk为同一概念时,f(A,B)自增qi
f2(g1,g2)为g1,g2的相似函数,如,f2(g1,g2)=∑qi/(|g1(Drf)-g2(drf)|+1)。其中qi为与距离Drf对应的语义向量的查询扩展系数,g1(Drf)为同一检索式中不同向量的本体语义距离标准化函数,如g1(Drf)=1/Drf。g2(drf)与g1(Drf)含义雷同,∑是对不同的qi,Drf,drf下式子求和。q1,q2分别为两函数f1,f2的权值。
可以通过对q1,q2大小的设定以及f1,f2,g1,g2等函数的修改实现排序方法的调整。另外可以以此排序算法为内核,结合其它常用的排序方法,能够达到更好的效果。
注:全文检索结果排序:根据事先对标题、摘要、全文等不同匹配区域设定的权值,以及关键词命中个数等信息计算相似度并排序。具体排序算法不在详细叙述。
3)将上述处理后的排序结果返回给用户。
尽管上述已经详细地描述了本发明,应当理解本发明的实施例仅仅是示范性地图解了本发明的原理,在不脱离本发明构思和范围的情况下,本发明的实施例还有各种变化,替代和修改。这些改变都应该包含在本发明的范围内,不应被看作与本发明的精神和范围的脱离。

一种基于领域本体的智能检索系统及方法.pdf_第1页
第1页 / 共18页
一种基于领域本体的智能检索系统及方法.pdf_第2页
第2页 / 共18页
一种基于领域本体的智能检索系统及方法.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《一种基于领域本体的智能检索系统及方法.pdf》由会员分享,可在线阅读,更多相关《一种基于领域本体的智能检索系统及方法.pdf(18页珍藏版)》请在专利查询网上搜索。

本发明涉及中文信息检索(IR)领域,特别涉及一种基于领域本体(Domain ontology)的智能检索方法,以及包含该方法的智能检索系统。其中该系统包括:用于分析用户输入自然查询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行特定查询的查询处理模块,以及用于查询结果处理的结果优化排序模块,所述系统还包括:基于某一领域所构建的领域本体库、数据资源库、以及索引数据库。本发明所述的基于领域本。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1