《搜索引擎提供结构化查询的方法.pdf》由会员分享,可在线阅读,更多相关《搜索引擎提供结构化查询的方法.pdf(4页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102073734A43申请公布日20110525CN102073734ACN102073734A21申请号201110022749222申请日20110120G06F17/3020060171申请人南京烽火星空通信发展有限公司地址210019江苏省南京市云龙山路88号烽火科技大厦A座26F72发明人汪洋凌世播彭艳兵廖闻剑54发明名称搜索引擎提供结构化查询的方法57摘要本发明公开一种利用搜索引擎来提供结构化查询的方法,通过对热门的网络应用各类属性进行整理成通用的超集,并将其页面信息进行结构化提取后入数据库,同时可以建立索引以加快检索速度。搜索引擎通过支持SQL语言的API来提。
2、供结构化数据检索服务,以此来对外提供统一的全文检索和结构化数据检索服务。这样结构化数据分析应用就可以充分利用搜索引擎的海量文本信息而不用进行复杂的程序移植和中文信息处理。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书2页CN102073740A1/1页21一种利用搜索引擎来提供结构化查询的方法,其特征在于1通过对热门的网络应用各类属性进行整理成通用的超集;2将这些涉及到的页面信息进行结构化提取后入数据库,同时可以建立索引以加快检索速度;3搜索引擎通过API对外提供SQL驱动的结构化数据访问。权利要求书CN102073734ACN102073740A1/2页3。
3、搜索引擎提供结构化查询的方法技术领域0001本发明专利涉及一种信息领域的数据查询方法,尤其涉及一种用于利用搜索引擎来提供结构化查询的方法,其利用通用的搜索引擎来进行结构化数据服务,使得结构化应用开发对非结构化数据进行挖掘成为可能。背景技术0002一般来说,搜索引擎提供非结构化文本的查询服务,数据库引擎提供结构化数据的查询服务。因此结构化应用和利用数据库实现的数据挖掘过程难以拓展到非结构化数据上。比如搜索引擎对一个公开站点进行索引后,如果试图利用结构化数据分析方法来对网站的注册用户行为进行分析,通常来说是不太可能的。比如BBS、博客和微博的顶贴人分析,哪些是假冒的明星粉丝,哪些人是托,对于一些商。
4、业化公司是有用的,特别是广告公司。目前缺乏有效的手段来进行来进行跨越站点的综合分析,一般是针对特定网站进行设计分析程序。如果能够用搜索引擎来提供结构化查询的方法,很多标准的结构化分析程序将可以派上用场。发明内容0003利用搜索引擎将网页等文本信息进行结构化解析,如果需要高速访问就按照数据库的方式建索引,然后利用数据库访问中间件来模拟数据库引擎的动作。结构化应用程序通过访问数据库访问中间件驱动搜索引擎来访问文本中的结构化信息。0004通过将文本属性分类,把一个很小的分类作为表来进行处理,比如我们可以把网站类型划分为包括但不限于博客、微博、论坛、新闻、视频等等小分类属性。在一些应用场合比如ICP的。
5、内部,邮件信息也可以拿来作为一个分类。0005按照不同的分类提供一些通用的数据表,这些表将大多数热门网络应用的相同信息如博客的作者相关信息的所有字段拿过来作为一个超集;对于不同的数据可以定义不同的表和字段;维护一个超集到不同网站字段名称映射的大表。如对于博客,有作者名称等作者信息作为作者信息表,可以通过网站名称、字段名等找到超集里通用字段来表述;发表的博文等有博文标题、博文发表的时间、博文发表的站点和板块等也如此做相应的处理。0006同样可以对BBS、新闻等的评论、电子邮件等不同分类的非结构化数据做相同的事情,用相同的通用表去描述所有网络上属于这个分类的相同属性如博客作者相关信息、顶贴人相关信。
6、息等的非结构化数据;用不同的通用表去描述不同分类的不同属性。0007这种跨越数据集和网站的通用表的好处是可以让结构化应用、挖掘和分析过程变得更容易。如果使用不同网络来源如不同站点的每一个分类的相同属性使用不同的表,挖掘的时候转换的开销会比较大。当然本专利也支持不同网络来源的每一个分类的相同属性使用不同的表,以保证兼容性。0008通过将非结构化数据中可以结构化信息进行字段化处理后,就可以利用成熟的信息提取技术来从非结构化数据中提取结构化的信息。提取后的结构化数据入常规的数据库说明书CN102073734ACN102073740A2/2页4如MYSQL、ORACLE等并建立索引,由常规数据库提供数。
7、据查询服务。也可以由搜索引擎自己建立索引并维护查询、存储管理的工作。0009搜索引擎利用上述数据对外提供服务的语法符合标准的SQL语法。下面给出一个例子进行说明,但这个例子不代表最终的专利实现方式0010SELECTTITTLEFROMBLOGWHEREWEBSITEBLOGSINACOMANDAUTHORXU;0011上面的SQL语句是查询BLOG类别里面站点BLOGSINACOM里叫XU的作者的所有博文的标题。0012在搜索引擎的API里集成了对常规搜索引擎检索的支持和结构化查询的支持。通过标准SQL查询语法,可以利用数据访问中间件来访问搜索引擎的API来为结构化应用程序提供直接访问非结构。
8、化文本数据的能力,同时也拓展了搜索引擎的服务功能。0013在搜索引擎的界面上提供高级搜索功能,利用从界面上的字段选项选择来拼装字段后利用搜索引擎API直接查询从搜索引擎里解析出来的结构化数据。0014基于结构化数据的分析程序能够利用上述引擎来无缝访问非结构化文本来完成数据的分析,不用进行复杂的移植和调整。附图说明具体实施方式0015实施方式如下00161、收集和构造一些热门网络应用如博客、论坛、微博、评论等类别包括但不限于这些类型的网络应用的文本文档的结构化信息字段;00172、构造这些字段的超集,并维护字段超集到每个类别信息的字段映射;00183、然后利用信息提取工具将抓取或者接收到的上述文本信息中的结构化信息提取出来作为结构化数据,入常规数据库或者由搜索引擎自己建立索引、管理这些结构化数据的存储;00194、搜索引擎利用上述数据进行处理,使用搜索引擎的API对外提供标准SQL语法的结构化查询服务0020通过上述步骤后,结构化数据分析程序就可以通过搜索引擎来访问非结构化的WEB页面之类的文本数据。进一步地通过数据访问中间件来屏蔽数据源的结构化和非结构化差异,利用上述搜索引擎和其他的数据库引擎作为混合数据源,对结构化数据和非结构化数据的混合查询,综合提供搜索引擎和数据库查询服务。说明书CN102073734A。