一种基于百科数据提取集成的查询系统.pdf

摘要
申请专利号：	CN200910088677.4	申请日：	2009.07.07
公开号：	CN101615193A	公开日：	2009.12.30
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30公开日:20091230\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京大学
发明人：	伍伟; 高军; 王腾蛟; 杨冬青
地址：	100871北京市海淀区颐和园路5号北京大学信息学院
优先权：
专利代理机构：	北京纪凯知识产权代理有限公司	代理人：	徐宁;关畅
PDF下载：	PDF下载

内容摘要

本发明涉及一种基于百科数据提取集成的查询系统，其特征在于：它包括数据提取模块、数据集成模块和数据查询模块；数据提取模块用于从因特网上提取百科网页，定位和初步过滤各类百科网页中的表格，之后进行基于视觉特征的定位和提取；将提取的表格统一转换成行表的形式，将具有相同特征参数的表格归为一类，提取和识别出每类表格的分类信息，将分类信息保存在信息数据库和XML数据库中；数据集成模块对表格进行分类并按类别打分；之后采用集成的方法，将具有相同属性的表格归并到同一个模式库中；对各模式库中的模式信息进行聚类，输出模式聚类和推荐模式；数据查询模块在信息数据库中查找对应的表格信息；输出查询结果和推荐模式。

权利要求书

1、  一种基于百科数据提取集成的查询系统，其特征在于：它包括数据提取模块、数据集成模块和数据查询模块；所述数据提取模块用于从因特网上提取百科网页，定位和初步过滤各类百科网页中的表格，之后进行基于视觉特征的定位和提取；将提取的表格统一转换成行表的形式，将解析得到的行表的参数数据缓存在系统的内存中并进行归类；将具有相同特征参数的表格归为一类，提取和识别出每类表格的分类信息，将分类信息保存在信息数据库和XML数据库中；
所述数据集成模块对表格进行分类并按类别打分；之后采用集成的方法，将具有相同属性的表格归并到同一个模式库中；对各模式库中的模式信息进行聚类，输出模式聚类和推荐模式；
所述数据查询模块对用户输入的查询条件进行解释，提取出关键词，根据关键词的类型在所述XML数据库中查找分类目录，在信息数据库中查找对应的表格信息；输出查询结果和推荐模式。

2、  如权利要求1所述的一种基于百科数据提取集成的查询系统，其特征在于：所述基于视觉特征的定位和提取方法为，利用网页中表格包含的标记定位并过滤无效表格；再通过辨别所述标记内的表格结构标记来提取表格。

3、  如权利要求1所述的一种基于百科数据提取集成的查询系统，其特征在于：所述特征函数的归类方法为，采用机器学习的分类模型对判断表格是否符合各项设定的一致性特征的要求，将具有相同参数数据的表格归纳为一类。

4、  如权利要求2所述的一种基于百科数据提取集成的查询系统，其特征在于：所述特征函数的归类方法为，采用机器学习的分类模型对判断表格是否符合各项设定的一致性特征的要求，将具有相同参数数据的表格归纳为一类。

5、  如权利要求1或2或3或4所述的一种基于百科数据提取集成的查询系统，其特征在于：所述分类信息包括表格的参数数据、单元格内容数据和分类目录，所述参数数据和单元格内容数据存储在所述信息数据库中，所述分类目录存储在所述XML数据库中。

6、  如权利要求1或2或3或4所述的一种基于百科数据提取集成的查询系统，其特征在于：所述集成的方法为，首先创建一个结果集合，集成开始之前所述结果集合中只包含有分数最高的表格；之后从一个类别中读取出所有表格，对所有表格进行打分，再将表格按照分数从高到低进行排序，然后放入结果集合中；将所述结果集合内外的表格的属性进行比较判断，将具有相同属性的表格归并到同一个模式库中。

7、  如权利要求5所述的一种基于百科数据提取集成的查询系统，其特征在于：所述集成的方法为，首先创建一个结果集合，集成开始之前所述结果集合中只包含有分数最高的表格；之后从一个类别中读取出所有表格，对所有表格进行打分，再将表格按照分数从高到低进行排序，然后放入结果集合中；将所述结果集合内外的表格的属性进行比较判断，将具有相同属性的表格归并到同一个模式库中。

说明书

一种基于百科数据提取集成的查询系统
技术领域
本发明涉及一种数据检索系统，特别是一种基于百科数据提取集成的查询系统。
背景技术
随着网络信息技术的迅速发展，互联网的数据量发生了爆炸式的增长，用户越来越多地希望在查询信息的同时，查询系统能够直接将信息以结构化的表格形式呈现出来，例如：对同一类别的某种产品各个性能参数的查询，对气象信息的查询等。因此，如何快速、有效地检索到需要的网络数据受到了广泛的关注，目前的查询技术为基于关键词的信息检索技术。
传统的基于关键词的信息检索技术具有几下几种缺陷：一方面，网页中的内容组织形式越来越多样化，基于关键词的查找不能反映出结构化数据的信息特征；另一方面，越来越多的数据以结构化的形式存在于网页中，特别是描述性网页文件中，比如百科网页等。因此，传统的基于关键词的信息检索技术已经满足不了查找结构化信息的要求。
发明内容
针对上述问题，本发明的目的是提供一种能够直接将查询到的结构化表格呈现出来的基于百科数据提取集成的查询系统。
为实现上述目的，本发明采取以下技术方案：一种基于百科数据提取集成的查询系统，其特征在于：它包括数据提取模块、数据集成模块和数据查询模块；所述数据提取模块用于从因特网上提取百科网页，定位和初步过滤各类百科网页中的表格，之后进行基于视觉特征的定位和提取；将提取的表格统一转换成行表的形式，将解析得到的行表的参数数据缓存在系统的内存中并进行归类；将具有相同特征参数的表格归为一类，提取和识别出每类表格的分类信息，将分类信息保存在信息数据库和XML数据库中；所述数据集成模块对表格进行分类并按类别打分；之后采用集成的方法，将具有相同属性的表格归并到同一个模式库中；对各模式库中的模式信息进行聚类，输出模式聚类和推荐模式；所述数据查询模块对用户输入的查询条件进行解释，提取出关键词，根据关键词的类型在所述XML数据库中查找分类目录，在信息数据库中查找对应的表格信息；输出查询结果和推荐模式。
所述基于视觉特征的定位和提取方法为，利用网页中表格包含的标记定位并过滤无效表格；再通过辨别所述标记内的表格结构标记来提取表格。
所述特征函数的归类方法为，采用机器学习的分类模型对判断表格是否符合各项设定的一致性特征的要求，将具有相同参数数据的表格归纳为一类。
所述分类信息包括表格的参数数据、单元格内容数据和分类目录，所述参数数据和单元格内容数据存储在所述信息数据库中，所述分类目录存储在所述XML数据库中。
所述集成的方法为，首先创建一个结果集合，集成开始之前所述结果集合中只包含有分数最高的表格；之后从一个类别中读取出所有表格，对所有表格进行打分，再将表格按照分数从高到低进行排序，然后放入结果集合中；将所述结果集合内外的表格的属性进行比较判断，将具有相同属性的表格归并到同一个模式库中。
本发明由于采取以上技术方案，其具有以下优点：1、本发明通过提取网络中百科数据中的表格信息，采用了基于类别的表格集成技术，能够将不同网页中相同类别的信息聚合起来，与现有的信息检索技术相比，查询的结果更加具有可显示特性和可展示特性，数据质量比传统网页的数据质量更高。2、本发明提供了多种检索方法，用户不仅可以输入关键词进行信息检索，而且可以通过输入标签检索格式和结构化查询语言的方式进行信息检索。3、本发明对底层的数据采取信息数据库的存储方式，并使用XML数据库辅助查询，与传统的XML数据库查询相比，不仅能够保留结构化信息，还具有查询速度快，操作简单的优点。本发明可广泛用于网络的数据检索领域。
附图说明
图1是本发明的百科数据提取模块结构示意图
图2是本发明的百科数据集成模块结构示意图
图3是本发明的查询模块结构示意图
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明的系统包括：数据提取模块1、数据集成模块2和数据查询模块3。如图1所示，数据提取模块1包括文档提取和过滤模块11、元数据类别识别模块12、表格数据定位模块13、定位和提取模块14、识别类型模块15、表格解析模块16、特征函数模块17和关系类型识别模块18。其中，文档提取和过滤模块11用于从因特网上的百科数据库中提取出用户需要的百科网页，然后对百科网页文档进行过滤，即去掉主题与用户查询的主题不相关的网页，如广告、带有垃圾信息的网页等。元数据类别识别模块12用于对过滤后的百科网页文档进行元数据类别的识别，即提取出百科网页的主题和百科网页中表格标题的中心词，之后根据这些中心词将相同类别主题的百科网页归并在一起。表格数据定位模块13利用因特网的配置文件定位经过过滤并归类过的百科网页中的表格信息，即找到各类百科网页中符合要求的表格，同时过滤掉一些不符合要求的表格，即对表格进行一次过滤；比如，如果表格的行和列的数目都比较小，则一般不是有用的表格数据。本发明的实施例中，表格数据定位模块13过滤掉不符合以下条件的表格：行和列的数目分别大于等于3，表格内部图片的数目不能超过一个定值，每一个单元格的内容不能超过设定的最大长度值。
定位和提取模块14用于将初步过滤后的表格进行基于视觉性特征的表格数据的定位和提取，即对表格进行二次过滤。本发明对表格进行基于视觉规则的定位和提取的方法是：由于百科网页中的结构化表格信息主要采用HTML的表格形式，即一个表格由多个单元格组成，而HTML页面中网页显示符合规范的表格通常包含在标记<table>与</table>之间；因此本发明利用这些标记定位并过滤掉表格中的无效表格。无效表格通常为表格格式不整齐、结构复杂、本身表格一般不具备实际意义的表格，如(1)框架表格：这种表格不含有实际的内容，仅起到装饰网页的作用；(2)无<table>标记的表格：不是以<table>标记而是利用其他标记如<div>、<li>等表示的表格；(3)嵌套表格：即在一个大的表格中，再嵌进去一个或几个小的表格，即插入到表格单元格中的表格。
对表格定位并过滤后，通过辨别<table>标记内的表格结构标记来提取表格。如<caption>表示表格标题信息；<th>表示表格内的表头单元格信息；<tr>表示表格行信息；<td>表示数据项信息；<NULL>表示表格中的无意义的单元格；还有一些像<td bgcolor>、<font>等用作装饰的表格结构标记，这些表格结构标记均用来标识表格的显示信息。本发明的实施例中采用的表格结构标记如表1所示，通过对表1中的7项表格结构标记进行设定，然后按照这7项表格结构标记对表格进行提取，表格结构标记可以任意选取及组合，不限于表1中的组合形式。
表1：表格结构标记

序号视觉特征描述 1 是否含有<caption>标签 2 是否含有<th>标签 3 表格行的数目

4 表格列的数目 5 表格NULL值的百分比 6 表格平均单元格长度 7 表格含有超链接信息比

识别类型模块15对经过定位和提取模块14二次过滤后的表格中的每一个单元格的内容进行识别，然后将表格统一转换成行表的形式，即将表格中的所有表示属性的词在表格的第一行呈现。例如：产品价格描述，生产时间，原料来源等，而第一行以下是表格各列的属性所对应的具体数值。
表格解析模块16对经过二次过滤并且已经统一为行表形式的表格进行解析，将得出的表格结构标记、行参数和列参数等参数数据缓存在系统的内存中。再由特征函数模块17对这些经过解析后的表格根据其参数数据进行归类。特征函数模块17的归类方法是：由于表格是对结构化信息的描述工具，因此具有一致性的特征，即表格通常会有很多内容相近的单元格，例如：表格中若有一列的内容的属性是邮政编码，则这一列的内容全部是表示邮政编码的数字类型的数据格式。因此，特征函数模块17采用机器学习的分类模型对表格进行判断，判断其是否符合各项设定的一致性特征的要求，将具有相同特征参数的表格归纳在一类中。本发明的实施例中设置的表格的一致性特征如表2所示，表格的一致性特征可以由人为选取并组合，不限于本发明实施例中的组合方式。
表2：表格的一致性特征
序号一致性特征描述 8 表格行数的标准差(dC) 9 表格列数的标准差(dR) 10 表格行的内容一致性(CCR) 11 表格列的内容一致性(CCC)

为了便于对一致性特征进行描述，本发明对上述的一致性特征归纳出一致性特征函数：
dC=1rnΣi=1rn(ci-cn)×(ci-cn)]]>
dR=1cnΣj=1cn(rj-rn)×(rj-rn)]]>
CCR=1rnΣi=1rn{1ci-1Σj=2cidiff(cnci,j-1,cnci,j)}]]>
CCC=1cnΣj=1cn{1ri-1Σi=2ridiff(cnci,j-1,cnci,j)}]]>
其中，r_n表示表格的行数，c_n表示表格的列数，r_j表示有意义的行的数量，c_i表示有意义的列的数量；c_i，j表示有意义的单元格的数量；dC、dR、CCR、CCC为特征参数。将特征函数模块17进行归类后的表格分类集合作为训练集，然后将训练集输入关系类型识别模块18。在关系类型识别模块18中对单元格信息不完整的表格进行定位，再根据信息不完整的单元格的上下行及前后列的内容补全单元格信息或者置空，以保证表格形式上的一致性。之后对表格的属性和类型进行判断，根据训练集中的各类表格进行统计，从而识别出能明显标识出表格属性的分类信息，以便对表格类型进行匹配。最后将提取和识别出的分类信息存储到数据库和XML数据库中。分类信息包括表格的参数数据、单元格内容数据和分类目录，其中参数数据和单元格内容数据等表格信息存储在信息数据库中，分类目录存储在XML数据库中。
如图2所示，数据集成模块2包括分类目录与元数据提取模块21、表格模式打分模块22、分类别合并模块23、模式统计规则模块24、模式匹配模块25。分类目录与元数据提取模块21从XML数据库中读取出分类信息中的单元格内容数据和分类目录，根据表格所属的单元格内容数据和分类目录对所有表格进行分类。表格模式打分模块22从信息数据库中读取出的单元格内容数据，按类别对表格进行打分。打分是对表格中单元格内容数据的完整性进行评价，分数越高说明表格中的单元格内容数据越完整。分类别合并模块23中采用集成的方法，首先创建一个结果集合，集成开始之前结果集合中只包含有分数最高的表格；之后从一个类别中读取出所有表格，对所有表格进行打分，再将表格按照分数从高到低进行排序，然后放入结果集合中。将集合之外的表格的属性与结果集合中的表格的属性进行比较判断，分类别合并模块23将具有相同属性的表格归并到同一个模式库中。对已经提取出的模式库进行统计，最后在模式统计规则模块24中对所有未被分类的表格信息模式库进行模式匹配，判断其与已有模式库中的表格的属性的重合度和打分结果。例如：未分类的表格中若与模式库中的表格的属性重合度较高，且打分较高，则将此表格合并到这一模式库中，直到合并所有的表格信息。最终，对各模式库中的模式信息进行聚类，输出模式聚类和推荐模式，即当用户输入的一个查询条件范围过大时，由系统推荐给用户一些范围较小的符合用户需求的数据，以方便用户查询。
如图3所示，由于本发明同时采取信息数据库和XML数据库的格式保存表格的结构化数据信息，因此采取基于关键词和XPATH相结合的查询方法对百科数据进行结构化查询。查询时，用户首先键入一查询关键词或者若干彼此之间存在限制关系的查询关键词，数据查询模块3中的查询解释器31对用户输入的查询条件进行解释，提取出其中的关键词，根据关键词的类型，在XML数据库中查找相应的分类目录，根据分类目录在信息数据库中查找对应的表格信息。信息数据库与互联网上的源文件进行交互，目的是为了补充查找互联网上与用户查询内容相关的网页。对查询的结构进行结构化输出和展示，并输出系统的推荐模式。
下面通过一实施例，对本发明的系统及方法进一步说明：
当用户查询与电脑产品价格相关的表格信息时，可以输入“电脑价格”这个查询关键词，也可以输入“电脑//价格”或者“select价格from电脑”这样的查询语言进行查询。查询解释器31对查询的结构进行结构化输出和展示，并通过数据提取模块1和数据集成模块2推荐相应模式关系。当查询“电脑价格”时，首先由文档提取和过滤模块11从互联网上提取并下载网页，保留网页中正文内容，去掉网页中的广告等内容。元数据类别识别模块12对所有提取出来的网页进行归类，将与“电脑价格”相关主题的网页归为一类，再利用配置文件定位清洗并归类过的网页中的表格信息，过滤掉不符合要求的表格。比如过滤掉行和列的数目分别小于等于3、表格内的图片的数目不能超过一个定值或者每一个单元格的内容不超过事先设定的最大长度值的表格。将经过初步过滤后的表格输入定位和提取模块14，进行基于视觉性特征的表格数据提取，即对定位后的表格数据进行二次过滤，提取出满足事先设定的视觉规则的表格数据。
识别类型模块15对定位和提取模块14提取出的表格的内容进行识别，即表格的属性识别，如“电脑生产厂商”、“电脑价格”，“电脑生产日期”，“电脑保修时间”等均属于电脑产品价格表格的属性。然后将这些属性在表格第一行呈现，第一行以下是表格各列的属性所对应的具体数值，即将所有表格均转换为行表的形式。表格解析模块16对经过两次过滤且格式统一的表格进行解析，将得到的表格的表格结构标记、行参数和列参数等参数数据缓存在内存中。特征函数模块17将具有相同参数数据的表格归纳在一类中。
关系类型识别模块18对表格中信息不完整的单元格信息进行定位，根据信息不完整的单元格的上下行和前后列的内容补全单元格的信息内容或者置空，对表格的属性和类型进行判断，根据已经提取出的表格进行统计，从而识别出较好的分类信息，以便对未知类型进行类型匹配。比如当需要提取包含电脑产品价格的表格时，如果有的表保修时间属性没有提取出来，就可以根据这列单元的内容和表名来判断其属性，判断其列是时间。最后将提取和识别出的分类信息存储到信息数据库和XML数据库中。
分类目录与元数据提取模块21从信息数据库和XML数据库中读取提取出分类信息中的单元格内容数据和分类信息。根据表格的分类信息对所有提取出来的表格进行分类，将所有关于“电脑价格”的表格数据归并为一类，经过表格模式打分模块22中对所有“电脑价格”类别中的表格进行打分后，选出分数最高的表格，这个表格所包含的“电脑价格”信息最全面，表格模式内容比较清晰。在分类别合并模块23中选取其他电脑产品价格类的表格与这个表格进行比较，判断其与已有模式库中的表格的属性的重合度和打分结果，直到将所有的表格信息合并成一个较大的表格模式，该模式主要存储电脑产品价格的信息。在模式统计规则模块24中对模式信息进行聚类输出，并输出推荐模式，比如当用户输入查询关键词为“电脑”时，由于这个查询范围过大，此时由系统向用户推荐一些范围较小的查询范围，以供用户选择。
当用户接收系统的推荐，将输入范围缩小至“电脑价格”时，数据查询模块3中的查询解释器对这一查询条件进行解释，提取出其中的关键词，根据查询的类型，在XML数据库中查找相应的分类信息，根据分类信息在信息数据库中查找相应的表格信息。与此同时，信息数据库在互联网上的源文件中补充查找与“电脑价格”内容相关的网页，对查询的结构进行结构化输出和展示。
综上所述，本发明通过提取网络中百科数据中的表格信息，采用了基于类别的表格集成技术，能够将不同网页中相同类别的信息聚合起来，与现有的信息检索技术相比，查询的结果更加具有可显示特性和可展示特性，数据质量比传统网页的数据质量更高。