《一种基于百科数据对实体进行分类的方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种基于百科数据对实体进行分类的方法及系统.pdf(11页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410838639.7(22)申请日 2014.12.29G06F 17/30(2006.01)(71)申请人 北京奇虎科技有限公司地址 100088 北京市西城区新街口外大街28 号 D 座 112 室(德胜园区)申请人 奇智软件(北京)有限公司(72)发明人 龚颖坤 胡士文 项碧波(74)专利代理机构 北京路浩知识产权代理有限公司 11002代理人 李相雨(54) 发明名称一种基于百科数据对实体进行分类的方法及系统(57) 摘要本发明涉及一种基于百科数据对实体进行分类的方法及系统,该方法包括:解析百科数据中实体的条目以得到所述实。
2、体对应的描述属性集合 ;提取百科数据中设定的类别以及与类别对应的属性模板集合 ;基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。本发明通过将百科数据中的描述属性集合与预先设定的属性模板集合相比较,将对实体进行分类,并将相似度低于阈值的数据进行聚类,从而实现了对数据进行分类的目的。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书7页 附图2页(10)申请公布号 CN 104484461 A(43)申请公布日 2015.04.01CN 104484461 A1/1 页21.一种基于百科数据对实体进行分类的方。
3、法,包括 :解析百科数据中实体的条目以得到所述实体对应的描述属性集合 ;提取百科数据中设定的类别以及与类别对应的属性模板集合 ;基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。2.根据权利要求 1 所述的方法,基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类,进一步包括 :计算所述描述属性集合与所述属性模板集合的相似度 ;判断所述相似度是否高于第一预定阈值 ;如果高于预定阈值,则按照百科数据中设定的类别对所述实体进行分类。3.根据权利要求 1 或 2 所述的方法,如果低于预定阈值,则对实体进行聚类分析。4.根据权利要。
4、求 1-3 任一项所述的方法,所述描述属性集合包括至少一个属性信息。5.根据权利要求 1-4 任一项所述的方法,所述属性模板集合为各类别预先设置的各个条目的关键信息。6.根据权利要求 1-5 任一项所述方法,对实体进行聚类分析的步骤进一步包括 :获取实体的描述属性集合,将描述属性集合相似度高于第二预定阈值的实体确定为一个类别。7.根据权利要求 1-6 任一项所述方法,对实体进行聚类分析的步骤进一步包括 :获取实体的描述属性,将描述属性重合度高于第三预定阈值的实体确定为一个类别。8.一种对实体进行分类的系统,该系统包括 :百科数据库,适于存储百科数据 ;条目解析单元,解析百科数据中实体的条目以得。
5、到所述实体对应的描述属性集合 ;类别与属性模板集合提取单元,用于提取百科数据中设定的类别以及与类别对应的属性模板集合 ;实体分类单元,用于基于所述描述属性集合与所述属性模板集合的相似度,确定实体的类别并对所述实体进行分类。9.根据权利要求 8 所述的系统,所述实体分类单元进一步包括 :第一属性集合相似度计算子单元,用于计算所述描述属性集合与所述属性模板集合的相似度 ;第一属性集合相似度判断子单元,用于判断所述相似度是否高于第一预定阈值 ;第一类别标识子单元,用于在所述相似度高于预定阈值的情况下按照百科数据中设定的类别对实体进行分类。10.根据权利要求 8 或 9 所述的系统,该系统还包括实体聚。
6、类分析单元,用于在所述相似度低于预定阈值的情况下对实体进行聚类分析。权 利 要 求 书CN 104484461 A1/7 页3一种基于百科数据对实体进行分类的方法及系统技术领域0001 本发明涉及计算机搜索技术领域,尤其是涉及一种基于百科数据对实体进行分类的方法及系统。背景技术0002 计算机快速发展和普及的今天,为了更方便地、清晰地获取信息、学习知识,更经常的使用搜索引擎服务来进行信息搜索和查询。由于搜索引擎是基于爬虫抓取的方式获得网络资源信息,以关键词匹配的方式给出相应的搜索结果,然而往往搜索结果纷繁多样,有时不能直接满足用户特定的精准需求或全面性需求,用户可能还需调整搜索关键词发起多次搜。
7、索请求,效率比较低,用户体验也较差,因此对于搜索资源尚待进一步的挖掘及更准确的分类。发明内容0003 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种基于百科数据对实体进行分类的方法及系统。0004 根据本发明的一个方面,提供一种基于百科数据对实体进行分类的方法,包括 :0005 解析百科数据中实体的条目以得到所述实体对应的描述属性集合 ;0006 提取百科数据中设定的类别以及与类别对应的属性模板集合 ;0007 基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。0008 其中,基于所述描述属性集合与所述属性模板集。
8、合的相似度,确定所述实体的类别并对所述实体进行分类,进一步包括 :0009 计算所述描述属性集合与所述属性模板集合的相似度 ;0010 判断所述相似度是否高于第一预定阈值 ;0011 如果高于预定阈值,则按照百科数据中设定的类别对所述实体进行分类。0012 另外,如果低于预定阈值,则对实体进行聚类分析。0013 优选地,所述描述属性集合包括至少一个属性信息。0014 其中,所述属性模板集合为各类别预先设置的各个条目的关键信息。0015 其中,对实体进行聚类分析的步骤进一步包括 :0016 获取实体的描述属性集合,0017 将描述属性集合相似度高于第二预定阈值的实体确定为一个类别。0018 其中。
9、,对实体进行聚类分析的步骤进一步包括 :0019 获取实体的描述属性,0020 将描述属性重合度高于第三预定阈值的实体确定为一个类别。0021 根据本发明的另一个方面,提供一种对实体进行分类的系统,该系统包括 :0022 百科数据库,适于存储百科数据 ;说 明 书CN 104484461 A2/7 页40023 条目解析单元,解析百科数据中实体的条目以得到所述实体对应的描述属性集合;0024 类别与属性模板集合提取单元,用于提取百科数据中设定的类别以及与类别对应的属性模板集合 ;0025 实体分类单元,用于基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。。
10、0026 其中,所述实体分类单元进一步包括 :0027 第一属性集合相似度计算子单元,用于计算所述描述属性集合与所述属性模板集合的相似度 ;0028 第一属性集合相似度判断子单元,用于判断所述相似度是否高于第一预定阈值 ;0029 第一类别标识子单元,用于在所述相似度高于预定阈值的情况下按照百科数据中设定的类别对实体进行分类。0030 优选地,该系统还包括实体聚类分析单元,用于在所述相似度低于预定阈值的情况下对实体进行聚类分析。0031 优选地,所述描述属性集合包括至少一个属性信息。0032 其中,所述属性模板集合为各类别预先设置的各个条目的关键信息。0033 其中,所述实体聚类分析单元进一步。
11、包括 :0034 第二属性集合获取子单元,用于获取实体的描述属性集合,0035 第二属性集合相似度计算单元,用于计算实体间的描述属性集合的相似度 ;0036 第二类别标识子单元,用于将所述相似度高于第二预定阈值的实体分为一个类别。0037 其中,所述实体聚类分析单元进一步包括 :0038 第三属性获取子单元,用于获取实体的描述属性,0039 第三属性集合相似度计算单元,用于计算实体间的描述属性的重合度 ;0040 第三类别标识子单元,用于将所述相似度高于第三预定阈值的实体分为一个类别。0041 本发明的有益效果为 :0042 本发明的基于百科数据对实体进行分类的方法及系统,通过将百科数据中的描。
12、述属性集合与预先设定的属性模板集合相比较,将对实体进行分类,并将相似度低于阈值的数据进行聚类,从而实现了对数据进行分类的目的。0043 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明0044 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中 :0045 图 1 示意性地示出了本发明。
13、中一种基于百科数据对实体进行分类的方法的流程说 明 书CN 104484461 A3/7 页5图。0046 图 2 示意性地示出了本发明中一种基于百科数据对实体进行分类的方法的步骤S3 的流程图。0047 图 3 示意性地示出了本发明中对实体进行分类的系统的结构框图。具体实施方式0048 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。0049 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语 ( 包括技术术语和。
14、科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。0050 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。0051 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。。
15、0052 根据本发明的一个方面,提供一种基于百科数据对实体进行分类的方法。0053 图 1 示意性地示出了一种基于百科数据对实体进行分类的方法的流程图。0054 参照图 1,本发明实施例的基于百科数据对实体进行分类的方法,包括步骤 :0055 S1、解析百科数据中实体的条目以得到所述实体对应的描述属性集合 ;0056 实体 (entity) 表示数据库中描述的现实世界中的对象或概念,是客观世界中存在的且可互相区分的事物,实体可以是人也可以是物体实物,也可以是抽象概念。0057 描述属性集合指的是对实体的描述属性信息的集合,其包括至少一个用于描述实体的属性信息。如当一个实体是“老虎”时,该实体包。
16、含至少一个属性信息为“全身披毛”,也可以包括属性信息为“胎生、哺乳”等。0058 现有的百科数据中,热门词汇几乎都具有描述属性集合,因此,解决了含有描述属性集合的实体的分类问题,就解决了高浏览量的实体的分类问题。0059 S2、提取百科数据中设定的类别以及与类别对应的属性模板集合。0060 属性模板集合为百科数据中各类别预先设置的各个条目的关键信息,如在百科数据中,哺乳纲动物的属性模板集合中包括属性 :体温恒温、全身披毛、胎生、哺乳等。0061 S3、基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。0062 在上述过程中,比较描述属性集合与属性模板集合的。
17、相似度,选取相似度高且具有一定梯度下降的类别,作为该实体的类别。0063 上述实施例中,老虎的描述属性集合中的三个属性均在哺乳动物的属性模板集合中包含,因此可以将老虎归入到哺乳纲动物的类别中。说 明 书CN 104484461 A4/7 页60064 如在又一个实施例中,实体“麻雀”的描述属性集合中包含的属性有 :会飞、卵生、体覆羽毛、体呈流线型、杂食动物等。由于麻雀的描述属性中的属性与哺乳纲的属性模板集合中的属性的相似度很低,因此,实体麻雀不属于哺乳纲动物。0065 在上述实施例中,对于描述属性集合与属性模板集合的相似度的计算通过属性模板集合中属性的数量及性质设定。0066 图 2 示意性地。
18、示出了本发明的一种基于百科数据对实体进行分类的方法的步骤S3 的流程图。0067 参照图 3,在一个实施例中,上述步骤 S3 进一步包括 :0068 S31、计算所述描述属性集合与所述属性模板集合的相似度 ;0069 S32、判断所述相似度是否高于第一预定阈值 ;0070 S33、如果高于预定阈值,则按照百科数据中设定的类别对所述实体进行分类。0071 S34、如果低于预定阈值,则对实体进行聚类分析。0072 在另一个实施例中,对实体进行聚类分析的过程进一步包括 :0073 S341、获取实体的描述属性集合,0074 S342、将描述属性集合相似度高于第二预定阈值的实体确定为一个类别 ;007。
19、5 或者,在又一个实施例中,将描述属性重合度高于第三预定阈值的实体确定为一个类别。0076 通过上述过程,对低于阈值的实体进行聚类,通过对大类的实体进行人工筛选,在扩充召回的同时,又能发现新类别,从而丰富了类别的总数。0077 为使本发明实施例容易理解,现举例对其进行具体说明。0078 以实体 PM2.5 为例,PM2.5 的描述属性集合至少包括以下描述属性,如 :直径小于或等于 2.5 微米的颗粒物,存在于大气中,汽车排放尾气中包含,雾霾。0079 PM2.5 常用来描述当前的空气质量,因此在百科数据中,寻找关于空气质量类型的属性模板集合,即在百科数据中对空气质量预先设定的属性集合。0080。
20、 如在空气质量类型中,其属性模板集合中包括以下属性 :污染物浓度,车辆尾气,空气中细颗粒物的浓度、雾霾。0081 将 PM2.5 的描述属性集合中的描述属性与空气质量类型中的属性模板进行相似度对比,判断其相似度,由于实体 PM2.5 中直径小于或等于 2.5 微米的颗粒物的属性实际上定义为细颗粒物,由于上述 PM2.5 中的属性都是描述空气中包括的细颗粒物,因此,上述PM2.5 可以归入到描述空气质量的类别中。0082 又如当实体为汽车时,则该实体汽车的描述属性集合中包含的属性信息可以有 :动力驱动、载运人员或货物。在百科数据中,交通工具的属性模板集合中可以包括 :人类代步、运载货物、动力驱动。
21、、动物驱动、人力驱动等,因此,通过二者的相似度比较,可知实体汽车可以归入到交通工具类别中。0083 上述实施例的方法中,通过比较实体的描述属性集合以及属性模板集合之间的相似度,对实体进行分类,从而使得百科数据中的实体分类清楚,便于查询和进一步的处理。0084 在本发明的有一个实施例中,提供一种对实体进行分类的系统。0085 图 3 示意性地示出了本发明的对实体进行分类的饿系统的结构框图。0086 参照图 3,本发明的实施例的对实体进行分类的系统具体包括 :说 明 书CN 104484461 A5/7 页70087 百科数据库 10,用于存储百科数据 ;0088 条目解析单元 20,用于解析百科。
22、数据中实体的条目以得到所述实体对应的描述属性集合 ;0089 类别与属性模板集合提取单元 30,用于提取百科数据中设定的类别以及与类别对应的属性模板集合 ;0090 实体分类单元 40,用于基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。0091 其中,所述实体分类单元 40 进一步包括 :0092 第一属性集合相似度计算子单元 401,用于计算所述描述属性集合与所述属性模板集合的相似度 ;0093 第一属性集合相似度判断子单元 402,用于判断所述相似度是否高于第一预定阈值;0094 第一类别标识子单元 403,用于在所述相似度高于预定阈值的情况下按照。
23、百科数据中设定的类别对实体进行分类。0095 上述实施例中,所述描述属性集合包括至少一个属性信息,所述属性模板集合为各类别预先设置的各个条目的关键信息。0096 在另一个实施例中,该系统还包括实体聚类分析单元 50,用于在所述相似度低于预定阈值的情况下对实体进行聚类分析。0097 并且所述实体聚类分析单元进一步包括 :0098 第二属性集合获取子单元 501,用于获取实体的描述属性集合,0099 第二属性集合相似度计算单元 502,用于计算实体间的描述属性集合的相似度 ;0100 第二类别标识子单元 503,用于将所述相似度高于第二预定阈值的实体分为一个类别。0101 在又一个实施例中,所述实。
24、体聚类分析单元 50 进一步包括 :0102 第三属性获取子单元 504,用于获取实体的描述属性,0103 第三属性集合相似度计算单元 505,用于计算实体间的描述属性的重合度 ;0104 第三类别标识子单元 506,用于将所述相似度高于第三预定阈值的实体分为一个类别。0105 本发明所述的基于百科数据对实体进行分类的方法及系统,可以用于在构建知识图谱过程中对数据进行分类处理,也可以用于对知识图谱进行更新过程中的数据处理,同时,构建其他类型的数据结构的过程中对数据进行分类同样可以使用本发明的方法来实现。0106 本发明的基于百科数据对实体进行分类的方法及系统,通过将百科数据中的描述属性集合与预。
25、先设定的属性模板集合相比较,将对实体进行分类,并将相似度低于阈值的数据进行聚类,从而实现了对数据进行分类的目的。0107 需要说明的是 :0108 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种说 明 书CN 104484461 A6/7 页8编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。0109 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的。
26、实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。0110 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图 :即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都。
27、作为本发明的单独实施例。0111 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和 / 或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书 ( 包括伴随的权利要求、摘要和附图 ) 中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书 ( 包括伴随的权利要求、摘要和附图 ) 中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代。
28、替。0112 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。0113 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器 (DSP) 来实现根据本发明实施例的服务器、客户端,和系统等设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里。
29、所描述的方法的一部分或者全部的设备或者装置程序 ( 例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。0114 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为说 明 书CN 104484461 A7/7 页9名称。说 明 书CN 104484461 A1/2 页10图1图2说 明 书 附 图CN 104484461 A。