自动构建用于相关信息浏览的信息组织结构的方法和系统 【技术领域】
本发明一般地涉及信息组织,更具体而言,涉及用于自动构建用于相关信息浏览的信息组织结构的方法和系统。
背景技术
随着网络信息技术的飞速发展,市场上与数据挖掘相关的技术和工具越来越多,从而用户可能收集到大量其感兴趣的信息,而这些收集到的信息可能与某些特殊实体(例如查询项目)相关。
面对收集到的信息集合,用户可能存在两种基本需求。一是定位到他/她正在寻找的信息,二是浏览整个信息集合所覆盖的所有内容并执行更深入的分析。前者被称为“信息检索需求”,而后者被称为“信息组织需求”。
某些搜索引擎可以被应用到信息集合,并且可以作为一种合适的工具以用于满足信息检索需求。然而,对于信息组织需求,由搜索引擎所提供的搜索结果列表通常无法有效地满足,这是因为阅读整个列表和生成组织方法都需要人为参与,因此需要花费用户大量的时间和人力。为了帮助用户浏览收集到的信息集合,首先应该针对信息集合建立有效的组织结构。具有良好可读性的信息组织结构能够帮助用户更容易地理解信息对象并且更快速地导航到其感兴趣的信息,因此如何针对收集到的信息集合构建优质的组织结构已经成为本领域内的一个普遍问题。
通常,建立信息组织结构的传统做法是自动提取出信息集合中的信息元素,并根据信息集合中信息元素之间的关系来建立适当的结构。例如,2004年7月30日递交的题为“System and Method for CategoryOrganization”的美国专利申请US 2006/0026190A1提出了一种从收集到的文档集合中自动发现组织结构的方法。该美国申请的全部内容通过引用被结合于此,以用于所有目的。根据该方法,用户首先生成在文档集合中最频繁出现的前N(例如N=50)个词项的列表。然后,针对该列表生成一位矢量矩阵(大小为N×M)。矩阵中的每一行代表列表中的一个词项,其构成一长度为M的位矢量,其中M为文档集合中文档的数目。该位矢量中的每一位可以基于该词项在文档中的状态生成,如果该词项存在于文档中则为1,如果不存在则为0。在生成位矢量矩阵之后,将基于该矩阵生成所有位矢量之间的所有预测关系,并将得到的预测关系存储在词项预测矩阵中。所述词项预测矩阵是一个大小为N×N的矩阵。然后,基于该预测矩阵来确定肯定对列表和否定对列表,并通过预定过程最终构建出组织结构。例如,图1示出利用该方法所生成的信息组织结构示例。
参考图1所示示例,可以发现,根据现有技术所提供的方法生成的信息组织结构不具有良好的可读性。具体而言,在生成的信息组织结构上的各个信息对象类别难以被用户所理解。例如,图1所示结构上的各个类别“not-battery-will-charge”、“screen”、“screen-dim”等含义模糊,使得用户难以理解。另外,在某些情况下,所生成的类别树缺乏合理性。例如,在图1所示示例中总共生成两个并列的根节点,即“main”和“main2”,这为用户随后进行的信息导航带来困难。
【发明内容】
鉴于现有技术中存在的上述问题,研制了本发明。本发明提出一种针对实体相关信息自动构建信息组织结构的方法和系统,其相对于现有技术,大大提高了所生成的信息组织结构的可读性。
根据本发明第一方面,提出了一种用于自动构建信息组织结构的方法,该方法包括:输入目标实体;从信息对象集合中检索出与所述目标实体相关的信息对象;提取出与所述目标实体相关的多个主题;基于提取出的所述主题搜索现有结构资源,以识别出与所述目标实体相关的现有结构及其对应地实体;以及通过比较所述目标实体和每个所述识别出的实体,从所述识别出的现有结构中选择匹配结构,用于组织所述检索出的与所述目标实体相关的信息对象。
根据本发明第二方面,提出了一种用于自动构建信息组织结构的系统,该系统包括:输入装置,用于输入目标实体;信息对象检索装置,用于从信息对象集合中检索出与所述目标实体相关的信息对象;主题提取装置,用于提取出与所述目标实体相关的多个主题;现有结构识别装置,用于基于提取出的所述主题搜索现有结构资源,以识别出与目标实体相关的现有结构及其对应的实体;以及匹配结构获取装置,用于通过比较所述目标实体和每个所述识别出的实体,从所述识别出的现有结构中选择匹配结构,用于组织检索出的与所述目标实体相关的信息对象。
随着网络信息的不断积累,已经存在大量用于详细描述特定实体的知识源(例如wikipedia、Baidu Baike等)以及相关网站。例如“中国杭白菊在线”http://www.chinahbj.com就是这样一种介绍和详细描述中国茶叶的网站。在这些知识源和网站中已经存在很多现有结构能够被更新和借鉴,以用于组织其他实体。利用本发明所提出的方法,通过借鉴现有结构,所生成的信息组织结构具有良好的可读性。具体地讲,可以主要体现在以下两个方面:
首先,现有结构的节点通常表现为简单的短语或句型,因此其内容容易被用户所理解。例如,“不配备可充电电池组”这样的信息类别显然比上述现有技术中所形成的“not-battery-will-charge”之类的类别更容易被用户所接受。因此,根据本发明所形成的信息组织结构上的节点比从文档自动生成的节点具有更好的可读性。
其次,通过挖掘和分析尽可能多的相似结构并且考虑到信息对象在结构中的分配,本发明所提出的系统能够整合、调整并改进现有结构,进而针对给定实体建立更全面且更合适的组织结构。例如,假设在网络上已经存在若干关于不同种类中国茶叶(例如绿茶、红茶等等)的网站。从这些网站中可以提取出用于组织已知茶叶种类(即绿茶和红茶)的多个结构,这些结构上的相关节点被称为“信息类别(category)”,用于详细描述相关茶叶种类的各个方面,例如常识、品种、精品、功效、鉴别等等。从所有这些已知方面来描述一种新的茶叶种类(例如菊花茶)一定是非常全面的。此外,通过删除掉所含信息较少的类别(例如,针对菊花茶,“鉴别”类别的信息可能较少)以及针对包含大量信息项目的类别创建更多更详细的子类别(例如,针对菊花茶,可以将“功效”类别进一步划分成“保健”、“医疗”、“营养价值”等子类别),则可以进一步调整和改进所生成的信息组织结构。
从下面结合附图的详细描述中,可以更明确地看出本发明的以上及其他特征和优点。注意,本发明并不局限于图中所示的示例或者任何具体的实施例。
【附图说明】
结合附图,从下面对本发明优选实施例的详细描述,将更好地理解本发明,附图中类似的参考标记指示类似的部分,其中:
图1是示出利用现有技术建立的信息组织结构的示例的示意图;
图2是示出根据本发明第一实施例的信息组织结构自动创建系统200的结构框图;
图3是示出根据本发明第二实施例的信息组织结构自动创建系统300的结构框图;
图4是示出图3所示系统300的工作过程的示例的流程图;
图5是用于举例说明主题提取过程和现有结构识别过程的示意图;
图6是用于举例说明结构集成过程的示意图;以及
图7是用于举例说明信息对象分配过程和结构调整过程的示意图。
【具体实施方式】
下面参考附图描述根据本发明的示例性实施例。应当意识到,所描述的实施例仅是用于举例说明的目的,本发明并不限于所描述的具体实施例。
图2以框图形式示出根据本发明第一实施例的信息组织结构自动创建系统200的内部结构。如图所示,该系统200主要包括输入装置201、信息对象检索装置202、主题提取装置203、现有结构识别装置204和匹配结构获取装置205。另外,为了配合系统模块的操作,系统200还包括信息对象集合206、外部资源库207和背景知识数据库208。在图2所示系统中,用户可以首先通过输入装置201输入适当的目标实体。所谓“实体”,可以是用户感兴趣的信息集合所讨论的主题,也可以被扩展到用户所输入的查询返回的结果所呈现的主题。例如,在以下描述中,目标实体可以是“菊花茶”、“软件”等由用户输入的感兴趣的项目。
用户通过输入装置201所输入的目标实体随后被发送到信息对象检索装置202。信息对象检索装置202可以利用目标实体检索信息对象集合206,以获取与目标实体相关的信息对象的集合,并将其存储到背景知识数据库208中(即信息对象2081)。随后,在外部资源库207中所存储的外部资源的配合下,系统200通过相关主题提取、现有结构识别、匹配结构选择等过程生成适当的信息组织结构,以用于组织信息对象检索装置202检索出的与目标实体相关的信息对象。关于系统200以及内部组件的工作过程随后将更详细描述。
图3示出根据本发明第二实施例的信息组织结构自动创建系统300的内部结构。与图2所示第一实施例的系统200相比,系统300的区别在于除了上述系统200所包含的必要组件之外,系统300还包括结构集成装置209、信息对象分配装置210和匹配结构调整装置211。图3中以虚线框的形式标识出这些附加组件。另外,作为示例,图3还示出匹配结构获取装置205的一种内部结构示例,其例如包括实体比较单元2051和匹配结构选择单元2052。在根据本发明的系统通过操作生成多个匹配的信息组织结构的情况下,结构集成装置209可被用于对生成的结构进行集成,以得到最终的可被用于组织信息的结构。信息对象分配装置210用于将检索出的与目标实体相关的信息对象分别分配到所生成的信息组织结构上的不同类别。匹配结构调整装置211被配置用于根据信息对象的分配结果对所生成的信息组织结构进行调整。关于系统300中附加组件的工作过程随后将更详细描述。
图4是示出图3所示系统300的工作过程的示例的流程图,其中步骤401-405与根据第一实施例的系统200的工作过程相对应,而以虚线框示出的步骤406-408示出系统300中的附加组件结构集成装置209、信息对象分配装置210和匹配结构调整装置211的操作。参考图4,首先,在步骤401中,用户可以通过输入装置201输入目标实体E,该目标实体例如是“菊花茶”。然后,在步骤402中,信息对象检索装置202利用传统方法从信息对象集合206中检索出与目标实体E相关的信息对象的集合DS,并将其存储到背景知识数据库208中(即信息对象2081)。例如,用户可以将目标实体“菊花茶”送到搜索引擎或者自有的文档数据库,从而检索出与“菊花茶”相关的文档,作为信息对象存储到背景知识数据库208中。在背景知识数据库208中,可以采取任意简单的数据结构来存储检索出的信息对象。例如,该数据结构可以包含两个字段,即信息对象ID和信息对象本身。在步骤403中,主题提取装置203可以从检索出的信息对象的集合DS中直接提取出与目标实体E相关的多个主题TS,并将提取出的主题同样存储到背景知识数据库208中,作为主题2082。例如,主题提取装置203从信息对象集合中提取主题的过程可以包括以下步骤:a)通过词语计数技术或文本分析技术提取出相关短语,b)基于提取出的短语或它们之间的关系进行聚类。显然,上述步骤b)是可选的。在另一实施例中,主题提取装置203也可以通过参考来自外部资源库207中的相关查询历史2071来提取出相关主题。所述相关查询历史2071可以是来自某一搜索引擎,例如百度(www.baidu.com)的搜索历史。例如,在图5所示示例中,针对输入的目标实体“菊花茶”,可以从来自搜索引擎的搜索历史中得到如标号501所示的主题列表,其中包含“菊花茶的功效”、“菊花茶的作用”等多个相关主题。由于相关查询历史2071通常表现为短语或简单句型的形式,因此更易于提取出与目标实体相关的主题。这里,可以应用任意传统方法来进行主题提取。
然后,在提取出与目标实体相关的主题之后,在步骤404中,主题提取装置203可以基于提取出的主题从某些现有结构资源中识别出与目标实体相关的现有结构及其对应的实体,记作<Er,SEr>(其中Er是相关实体,SEr是其对应的现有结构)。识别出的现有结构以及实体随后也被存储在背景知识数据库208中,作为现有结构&实体2083。根据本发明的实施例,现有结构资源可以是来自Web的网站集合,也可以是预先组织的信息对象库。例如,在图3中,分别示出被存储在外部资源库207中的Web网站集合2072和预先组织的信息对象库2073,作为现有结构资源的示例。
图5示出以Web网站作为现有结构资源的示例。如图5所示,用户可以首先基于提取出的主题生成查询。例如,对于图5所示主题列表,可以建立一个简单的查询“菊花茶功效药用”。然后,该查询可以被提交到搜索引擎,以从Web收集覆盖部分主题的相关网站的URL。通过分析收集到的网站,用户可以确定该网站是否覆盖了部分提取出的主题,并从中识别出相关的现有结构和实体。例如,如图5所示,根据生成的查询可以搜索到相关的网站“中国杭白菊在线”http://www.chinahbj,com,并从中提取出相关的实体“杭白菊”以及现有结构502。
另外,如果在外部资源库207中已经存在预先组织的信息对象库2073,用户则也可以从该信息对象库中获取覆盖部分主题(或关键短语)的信息对象。例如,信息对象库可以存储文档集合,从中获取的信息对象通常是特定文档集合的索引页面。因此,可以容易地从信息对象中提取出相关现有结构和实体。
接下来,在步骤405中,匹配结构获取装置205从在步骤404中识别出的实体中选择与目标实体相似度高的实体,并选择与其对应的现有结构作为匹配结构,以用于组织与目标实体相关的信息对象。提取出的匹配结构随后可以被存储到背景知识数据库208中,作为匹配结构2084,以用于随后的信息组织和分析。在图3所示示例中,匹配结构获取装置205被示为包含实体比较单元2051和匹配结构选择单元2052。在某些示例中,实体比较单元2051可以通过比较目标实体和每个识别出的实体的名称和/或名称的语义相似度来识别与目标实体相似度高的实体。在此情况下,实体比较单元2051可以使用任意传统的语义相似性测量方法。根据实体比较单元2051计算出的目标实体的名称与每个识别出的实体的名称之间的相似性得分,匹配结构选择单元2052可以从中选择相似性得分较高的那些实体,并将相应的现有结构提取出来,作为匹配结构。例如,针对目标实体“菊花茶”,如果背景知识数据库208中存储有已经识别出的实体“绿茶”,由于实体“绿茶”与目标实体“菊花茶”在语义级别上非常相似,因此匹配结构选择单元2052则可以认为“绿茶”与“菊花茶”相匹配,并将已经获取的与“绿茶”相关的现有结构提取出来,作为匹配结构。另外,在其他示例中,匹配结构获取装置205也可以通过计算目标实体和每个识别出的实体所对应的信息对象所覆盖的相似主题的数目来找到相似度最高的实体,并将其对应的现有结构作为匹配结构。
截止到步骤405为止,用户已经建立了与目标实体相关的匹配结构,即图2所示根据本发明第一实施例的系统200的操作已经完成。所生成的匹配结构随后可被用于组织与目标实体相关的信息对象。
作为对本发明的扩展,图3所示系统300还可以包含附加组件:结构集成装置209、信息对象分配装置210和匹配结构调整装置211。其中结构集成装置209可被配置用于实现多个匹配结构候选的集成,而信息对象分配装置210和匹配结构调整装置211可被配置用于实现对匹配结构的调整。关于这些附加组件的操作随后将通过参考图4中的步骤406-408来更详细地描述。
如图3所示,匹配结构的集成与调整是两个完全独立的可扩展模块。根据不同用户需求,其中任何一个模块可以单独存在,也可以联合使用。
1.结构集成过程
如果匹配结构获取装置205从现有结构中识别出的匹配结构的数目大于1,则可以利用结构集成装置209对这些结构候选进行集成,以生成最终的匹配结构(步骤406)。图6示出了结构集成过程的一个示例。
在图6所示示例中,例如输入的目标实体为“软件”。通过主题提取以及现有Web网站资源搜索,假设可以搜索到两个相关网站,即图6所示相关网站1和相关网站2。随后,匹配结构获取装置205可以从相关网站1和相关网站2中分别识别出两种匹配结构,即匹配结构候选1和匹配结构候选2。这两种匹配结构都可以被用于组织与实体“软件”相关的信息对象。然后,结构集成装置209可以生成更全面的集成匹配结构。如图6所示,该集成匹配结构不仅包含来自结构2的信息类别“桌面工具”,也包含来自结构1的信息类别“DOS工具”。
2.结构调整过程
由匹配结构获取装置205识别出的匹配结构还可以被提供到信息对象分配装置210,以用于组织信息对象,并由匹配结构调整装置211根据信息对象分配结果对匹配结构进行调整。另外,在存在多个匹配结构候选的情况下,可以首先由结构集成装置209对多个结构候选进行集成,然后再将集成后的最终匹配结构提供到信息对象分配装置210和匹配结构调整装置211,以进行信息对象匹配和结构调整。
继续参考图4,在步骤407中,信息对象分配装置210可以将检索出的与目标实体相关的信息对象分配到集成后的匹配结构。图7示出信息对象分配过程的一个示例。
在图7所示示例中,假设存在总共50个与目标实体“菊花茶”相关的信息对象,并且所生成的匹配结构如701所示。经过对象分配,50个相关的信息对象被分配到所选匹配结构中的不同节点(即类别)。例如,如结构702所示,被分配到类别“常识”的信息对象数目为4,被分配到类别“品种”的信息对象数目为6,以此类推。
在将信息对象分配到所选匹配结构之后,用户可以利用匹配结构调整装置211来根据信息对象的分配结果对所生成的信息组织结构进行调整(步骤408)。图7也示出结构调整过程的一个示例。
对于所选匹配结构的调整例如可以包含两个方面,一是对所含信息对象数目较少的节点(类别)的删除,二是对所含信息对象数目较多的节点的进一步细化。
在图7所示示例中,由于节点“鉴别”中包含的信息对象数目较少(为0),因此将该节点从所选结构上删除,从而得到结构703。这是因为在信息对象集合中可能不存在关于该主题“鉴别”的信息对象,因此该主题对于实体“菊花茶”就是没有意义的。实际上,对于用户而言,鉴别“菊花茶”或许比鉴别“绿茶”要容易得多。
另一方面,类别“功效”则包含数目较多的信息对象(30个)。因此,有必要对该节点中的信息对象进一步细化分类。即,用户可以应用某些现有的自动类别生成技术建立针对该节点的子类别。例如,在图7所示示例中,类别“功效”被进一步划分为多个子类别“保健”、“医疗”和“营养价值”,并将其中的30个信息对象进一步划分到适当的子类别。通过生成子类别,可以帮助用户更容易地浏览这30个信息对象。经过匹配结构调整装置211的调整操作,形成的最终信息组织结构例如如图7中的结构704所示。
以上通过参考附图详细描述了根据本发明的信息组织结构自动创建系统200以及作为其扩展形式的系统300的结构以及工作原理。根据以上描述可以看出,根据本发明所创建的信息组织结构相对于现有技术具有更好的用户可读性,可以更全面地进行信息对象的组织。
虽然上面已经参考附图描述了根据本发明的具体实施例,但是本发明并不限于图中示出的特定配置和处理。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。