《对网站中的内容按语义排列等级.pdf》由会员分享,可在线阅读,更多相关《对网站中的内容按语义排列等级.pdf(20页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102939602 A (43)申请公布日 2013.02.20 C N 1 0 2 9 3 9 6 0 2 A *CN102939602A* (21)申请号 201080067532.7 (22)申请日 2010.04.19 G06F 17/30(2006.01) (71)申请人惠普发展公司,有限责任合伙企业 地址美国德克萨斯州 (72)发明人 S.J.刘 S.林 J.金 Y.熊 P.M.乔施 N.巴蒂 J.J.刘 J.范 S.杨 (74)专利代理机构中国专利代理(香港)有限公 司 72001 代理人段俊峰 卢江 (54) 发明名称 对网站中的内容按语义排列等级 (。
2、57) 摘要 使用计算机化排列等级装置(105)对网站 (110)中的内容按语义排列等级包括:使用计算 机化排列等级装置(105)将来自网站(110)的内 容解析成多个自治的内容块(415-1到415-17), 以及使用所述计算机化排列等级装置(105),基 于内容块(415-1到415-17)的主旨与多个预定 义类别之一相关的程度,向所述内容块(415-1到 415-17)中的每一个分配重要性等级。 (85)PCT申请进入国家阶段日 2012.12.19 (86)PCT申请的申请数据 PCT/CN2010/000525 2010.04.19 (87)PCT申请的公布数据 WO2011/130。
3、870 EN 2011.10.27 (51)Int.Cl. 权利要求书2页 说明书7页 附图10页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 7 页 附图 10 页 1/2页 2 1.一种使用包括至少一个处理器(125)的计算机化排列等级装置(105)按语义对网站 (110)中的内容排列等级的方法,所述方法包括: 使用所述计算机化排列等级装置(105)将来自所述网站(400)的内容解析成多个自治 的内容块(415-1到415-17);以及 对于所述内容块(415-1到415-17)中的每一个,使用所述计算机化排列等级装置 (105),基于所述内容块。
4、(415-1到415-17)的主旨与多个预定义类别之一的相关程度,向所 述内容块(415-1到415-17)分配重要性等级。 2.根据权利要求1的方法,其中所述网站(110)包括多个不同的网页(405,410-1到 410-6),并且从所述网页(405,410-1到410-6)中的每一个解析所述内容。 3.根据权利要求1-2的任一项的方法,还包括对每个所述内容块(415-1到415-17)执 行关键字分析以确定所述内容块(415-1到415-17)的所述主旨与所述多个预定义类别中 的所述一个相关的所述程度。 4.根据权利要求1-3的任一项的方法,其中所述重要性等级分配还基于所述内容块 (415。
5、-1到415-17)在所述网站(110)的分级结构(400)之内的位置。 5.根据权利要求1-4的任一项的方法,其中所述重要性等级分配还基于所述内容对象 (415-1到415-17)与其最相关的所述预定义类别的加权重要性分数。 6.根据权利要求1-5的任一项的方法,还包括根据所述内容块(415-1到415-17)的所 述重要性等级将所述内容块(415-1到415-17)的至少一些自动布置到文档(500,900)中。 7.根据权利要求6的方法,其中与文档模板(300)一致地将所述内容块(415-1到 415-17)布置到所述文档(500)中,所述文档模板(300)指定所述预定义类别和所述文档 (。
6、500)中分派给所述预定义类别的每一个的空间(305,310,315)。 8.根据权利要求6-7的任一项的方法,其中按照由分配给所述内容块(415-1到 415-17)的所述重要性等级确定的重要性的下降次序,将所述内容块(415-1到415-17)布 置到所述文档(900)中。 9.一种用于按语义对网站(110)中的内容排列等级的计算机化排列等级装置(105), 所述计算机化排列等级装置包括: 处理器(125);以及 通信地耦合到所述处理器(125)的存储器(130),所述存储器(130)包括在其上存储的 可执行代码,使得在执行所述可执行代码时,所述处理器(125)被配置成: 抓取网站(110。
7、)以从所述网站(110)获得内容; 将来自所述网站(110)的所述内容解析成多个自治的内容块(415-1到415-17);以及 基于所述内容块(415-1到415-17)的主旨与多个预定义类别之一相关的程度,为每个 内容块(415-1到415-17)分配重要性等级。 10.根据权利要求9的计算机化排列等级装置(105),其中所述处理器(125)还被配 置成对每个所述内容块(415-1到415-17)执行关键字分析以确定所述内容块(415-1到 415-17)的所述主旨与所述多个预定义类别的所述一个相关的所述程度。 11.根据权利要求9-10的任一项的计算机化排列等级装置(105),其中所述重要。
8、性等 级分配还基于所述内容块(415-1到415-17)在所述网站(110)的分级结构(400)之内的位 置。 权 利 要 求 书CN 102939602 A 2/2页 3 12.根据权利要求9-11的任一项的计算机化排列等级装置(105),其中所述重要性等 级分配还基于分配给所述内容对象(415-1到415-17)与其最相关的所述预定义类别的加 权重要性分数。 13.根据权利要求9-12的任一项的计算机化排列等级装置(105),其中所述处理器 (125)还被配置成根据所述内容块(415-1到415-17)的所述重要性等级自动将所述内容块 (415-1到415-17)的至少一些布置到文档(50。
9、0,900)中。 14.根据权利要求13的计算机化排列等级装置(105),其中与文档模板(300)一致地将 所述内容块(415-1到415-17)布置到所述文档(500)中,所述文档模板(300)指定所述预 定义类别和所述文档(500)中分派给所述预定义类别的每一个的空间(305,310,315)。 15.一种用于基于网站(110)中按语义排列等级的内容创建印刷文档(500,900)的系 统(100),所述系统(100)包括: 印刷装置(145); 通信地耦合到所述印刷装置(145)的处理器(125);以及 通信地耦合到所述处理器(125)的存储器(130),所述存储器(130)包括在其上存储。
10、的 可执行代码,使得在执行所述可执行代码时,所述处理器(125)被配置成: 抓取网站(110)以从所述网站(110)获得内容; 将来自所述网站(110)的所述内容解析成多个自治的内容块(415-1到415-17); 基于所述内容块(415-1到415-17)的主旨与多个预定义类别之一相关的程度,为每个 内容块(415-1到415-17)分配重要性等级; 基于所述内容块(415-1到415-17)的所述重要性等级将所述内容块(415-1到 415-17)的至少一些布置到文档(500,900)中;以及 使所述印刷装置(145)印刷所述文档(500,900)。 权 利 要 求 书CN 1029396。
11、02 A 1/7页 4 对网站中的内容按语义排列等级 背景技术 0001 常常出现这样的情况:组织将维持在互联网上的存在,以为客户、商业伙伴和其他 信息搜索者提供关于该组织的廉价且易得的信息。当前,实现这种类型的互联网存在的最 常见方法是通过网站。因为几乎所有人都可以通过这种或那种方式访问互联网,所以网站 在向那些搜索关于该组织的信息的人们暴露该组织方面可能是非常有效的。 0002 由组织维持的网站可以是各种内容的储存库。因此,在一些情况下在其他类型的 媒体(诸如印刷的营销媒体)中重新使用为网站开发的内容可能是实用的。尽管如此,在创 建这些其他类型的媒体时,并非网站上的所有内容都具有相等价值。。
12、例如,在用于组织的印 刷的营销小册子中,网站上的那个组织的联系信息可能比网站上的涉及在线申请职位的内 容更有用。结果,筛选网站的内容以确定哪个内容最适合在特定的应用中重新使用可能是 耗时的过程。 附图说明 0003 附图说明了这里描述的原理的各种实施例,并且附图是说明书的一部分。说明的 实施例仅仅为示例并且不限制权利要求的范围。 0004 图1是根据这里所描述的原理的一个示范性实施例的用于按语义对网站中的内 容排列等级的说明性系统的框图。 0005 图2是根据这里所描述的原理的一个示范性实施例的由说明性计算机化的网站 内容排列等级实现的功能块的框图。 0006 图3是根据这里所描述的原理的一个。
13、示范性实施例的被设计用于重新使用从网 站提取的按语义排列等级的内容的媒体文章(article)的说明性模板的图。 0007 图4是根据这里所描述的原理的一个示范性实施例的表示说明性网站的分级结 构的树形图。 0008 图5是根据这里所描述的原理的一个示范性实施例的结合了从网站提取的内容 的说明性目标媒体文章的图。 0009 图6是根据这里所描述的原理的一个示范性实施例的对结合了从网站提取的按 语义排列等级的内容的媒体文章进行创建的说明性方法的流程图。 0010 图7是根据这里所描述的原理的一个示范性实施例的通过说明性计算机化的网 站内容排列等级装置实现的功能块的框图。 0011 图8是根据这里。
14、所描述的原理的一个示范性实施例的说明性内容等级列表的图。 0012 图9是根据这里所描述的原理的一个示范性实施例的结合了从网站提取的内容 的说明性营销小册子的图。 0013 图10是根据这里所描述的原理的一个示范性实施例的对结合了从网站提取的按 语义排列等级的内容的媒体文章进行创建的说明性方法的流程图。 0014 在所有附图中,相同的附图标记表示类似但未必相同的元件。 说 明 书CN 102939602 A 2/7页 5 具体实施方式 0015 如上所述,在一些情况下,从网站提取内容以在另一种类型的媒体中重新使用可 能是节省成本的。然而,网站上可用的所有内容可能不具有相等价值,或者甚至与目标媒。
15、体 文章的创建相关。特别是在大的网站的情况下,筛选整个网站来手动地提取相关的内容以 在目标媒体文章中重新使用可能是耗时并且繁重的。于是,可能期望的是提供一种对网站 内容自动按语义排列等级以在创建目标媒体文章中使用的方法。 0016 鉴于这些考虑,本说明书公开了用于对网站中的内容按语义排列等级的各种方 法、系统和装置。对网站内容按语义排列等级的过程包括:将来自网站的内容解析成多个 自治的内容块,基于内容块的主旨(substance)将每个内容块分配到预定义的类别,以及根 据与其分配的预定义的类别相关联的重要性的程度对每个内容块排列等级。在某些实施例 中,然后可以根据等级将内容块自动组装成目标媒体。
16、文章。 0017 这里描述的原理有利地实现了基于可改变的一组语义根据其重要性自动组织来 自网站的内容,从而消除在整个网站中手动地搜寻适于在期望的应用中重新使用的内容的 需求。通过这样做,这里描述的系统、方法和装置简化了为新应用重新使用网站内容的过 程,使得网站的所有者可以提高该内容的价值。 0018 尽管主要关于其中基于从网站提取的信息使用按语义排列等级的内容来自动生 成文档的实施例描述了在本说明书中阐述的原理,但是应当理解的是,这些原理不限于这 样的实施例。相反,预期的是,也可以将这里描述的新原理应用于其中可以利用按语义排列 等级的网站内容的任何其他的应用。 0019 如在本说明书中和在所附。
17、权利要求书中所使用的,术语“网站”是指网页或共享共 同的统一资源定位符(URL)域的网页集合。 0020 如在本说明书中和在所附权利要求书中所使用的,术语“网页”是指可以通过网络 连接从服务器检索并在web浏览器应用中观看的文档。 0021 在以下的描述中,为了解释的目的,大量特定的细节被阐述以便提供对本系统和 方法的透彻理解。然而,对于本领域的技术人员而言将显而易见的是,本系统和方法可以在 没有这些特定细节的情况下实现。在说明书中对“实施例”、“示例”或类似语言的引用意味 着在至少那一个实施例中,但未必在其他实施例中,包括结合该实施例或示例来描述的特 定特征、结构或特性。短语“在一个实施例中。
18、”或类似短语在本说明书中各处的各种实例未 必全都指相同的实施例。 0022 现在将关于用于按语义对网站中的内容排列等级的说明性系统、装置和方法论述 这里公开的原理。 0023 现在参考图1,用于按语义对网站中的内容排列等级的说明性系统(100)包括网 站内容排列等级装置(105),其可以访问由网站服务器(115)存储的网站(110)。在本示例 中,网站内容排列等级装置(105)和网站服务器(115)是通过连接通信地耦合到公共网络 (120)的分离的计算装置。然而,在本说明书中阐述的原理同样地扩展到任何替代配置,其 中网站内容排列等级装置(105)可以完全访问网站(110)。照此,在本说明书的原。
19、理范围内 的替代实施例包括,但不限于,其中由同一计算装置实现网站内容排列等级装置(105)和网 站服务器(115)的实施例、其中网站内容排列等级装置(105)和网站服务器(115)通过总线 直接通信而无需中间的网络装置的实施例、以及其中网站内容排列等级装置(105)可以访 说 明 书CN 102939602 A 3/7页 6 问所存储的网站(110)的本地副本的实施例。 0024 本示例的网站内容排列等级装置(105)是被配置成抓取由网站服务器(115)主控 的网站(110)并根据一组语义对网站(110)中存在的内容排列等级的计算装置。实际上, 网站内容排列等级装置(105)通过使用适当的网络。
20、协议(例如,网际协议(“IP”)从网站服 务器(115)请求与网站(110)相关联的所有网页来抓取网站(110)。网站内容排列等级装 置(105)可以存储并处理从网站服务器(115)返回的网页中的每一个以对网站内容排列等 级。在下文中将更详细地阐述按语义对网站内容排列等级的说明性过程。 0025 为了实现其期望的功能,网站内容排列等级装置(105)包括各种硬件部件。在这 些硬件部件中可以是至少一个处理器单元(125)、至少一个存储器单元(130)、外围装置适 配器(135)和网络适配器(140)。可以通过使用一个或多个总线将这些硬件部件互连。 0026 处理器单元(125)可以包括从存储器单元。
21、(130)检索可执行的代码并执行该可执 行的代码所必需的硬件架构。在由处理单元(125)执行时,可执行的代码可以使处理单元 (125)实现抓取网站(110)并按语义对来自网站(110)的内容排列等级的功能。在执行代 码的过程中,处理单元(125)可以从一个或多个其余的硬件单元接收输入并向一个或多个 其余的硬件单元提供输出。 0027 存储器单元(130)可以被配置成以数字方式存储由处理单元(125)消耗和产生的 数据。存储器单元(130)可以包括各种类型的存储器模块,包括易失性和非易失性存储器。 例如,本示例的存储器单元(130)包括随机存取存储器(RAM)、只读存储器(ROM)、其他类型 的。
22、非易失性和易失性固态存储器和硬盘驱动器(HDD)存储器。在现有技术中很多其他类型 的存储器是可用的,以及本说明书考虑如可能适合这里描述的原理的特定应用那样在存储 器单元(130)中使用任何类型的存储器(130)。在某些示例中,可以针对不同的数据存储需 求使用存储器单元(130)中的不同类型的存储器。例如,在某些实施例中,处理单元(125) 可以从ROM引导,维持HDD存储器中的非易失性存储,并执行在RAM中存储的程序代码。 0028 网站内容排列等级装置(105)中的硬件适配器(135,140)被配置成使处理单元 (125)能够与网站内容排列等级装置(105)外部和内部的各种其他硬件元件对接。。
23、例如,外 围装置适配器(135)可以提供到输入/输出装置的接口,以创建用户接口和/或访问存储 器的外部存储源。外围装置适配器(135)还可以创建处理单元(125)和印刷机(145)或其 他媒体输出装置之间的接口。例如,在网站内容排列等级装置(105)被配置成基于其对网 站的内容的自动排列等级生成文档的实施例中,网站内容排列等级装置(105)可以进一步 被配置成指示印刷机(145)创建文档的一个或多个物理副本。 0029 网络适配器(140)可以提供到网络(120)的接口,从而实现向网络(120)上的其 他装置(包括网站服务器(115)发送数据和从网络(120)上的其他装置(包括网站服务器 (1。
24、15)接收数据。 0030 现在参考图2,示出了由与这里所描述的原理一致的网站内容排列等级装置 (105,图1)实现的说明性功能(200)的框图。图中的每个模块表示由网站内容排列等级装 置(105,图1)的处理单元(125)执行的功能元素。模块之间的箭头表示在模块之中的通信 和互操作性。 0031 在图2的示例中,网站内容排列等级装置(105,图1)被配置成使用针对目标文档 的模板根据来自网站的内容与模板的相关性按语义对来自网站的内容排列等级。一旦已经 说 明 书CN 102939602 A 4/7页 7 对网站内容排列了等级,与模板最相关的内容就可以被用于以与模板一致的方式用来自网 站的内容。
25、自动填充目标文档。 0032 通过重新使用从网站提取的内容,可以想象,可以生成很多不同类型的目标文档。 这样的文档的示例包括,但绝不限于,小册子、营销附属品、旅游日志、业务通讯、产品传单、 目录等。不同类型的文档将可能具有不同的设计要求集合。例如,关于饭店的小册子可能 与关于旅行社的小册子具有不同的外观和感觉。因此,预先制作的模板可以指定对于特定 目标文档所期望的特定类型的内容和设计要求。使用这样的模板,网站内容排列等级装置 (105,图1)可以执行图2中所说明的功能以从网页提取与模板最相关的内容。 0033 在本示例中,由站点内多页抓取器模块(205)接收网站的URL(201)。该URL(2。
26、01) 可以是简单的域名(例如,),其用作到网站中的所有页面的根。此外或可替代 地,在被讨论的网站仅具有一个网页的情况下,URL可以是单个网页的web地址。可以由网 站内容排列等级装置(105)的用户指定或者可替代地自动确定网站URL(201)。站点内多 页抓取器模块(205)然后可以从网站服务器下载网站的每个网页以获得所有可用的网站内 容。使该网站内容对于内容块提取模块(210)是可用的,其将网站内容划分成多个自治的 内容块。 0034 考虑用于将网站内容解析成内容块的各种不同的方法。在一些示例中,可以基于 各种准则将网站内容解析成内容块,所述准则包括,但不限于,网页、内容中存在的标题和 副。
27、标题、标点符号、图像元数据、它们的组合等。如适合这里所描述的原理的特定应用那样, 可以使用将网站内容解析成内容块的任何其他方法。 0035 然后可以由块语义提取模块(215)确定每个内容块的主旨并提供给匹配模块 (220)。在某些实施例中,可以使用对每个内容块的文本分析(例如,关键字提取)确定内容 块的主旨。此外,适合这里所描述的原理的特定应用的按语义确定每个内容块的主旨的任 何其他方法可以被使用。 0036 模板内容语义模块(225)向匹配模块提供模板的主旨。模板的主旨可以包括多个 预定义类别,使得根据其与模板的相关性或重要性对每个类别排列等级。 0037 匹配模块(220)然后可以基于每个。
28、内容块的主旨将该内容块分配到模板语义中的 预定义类别之一。在某些实施例中,每个类别可以关联关键字,使得通过对内容块采用关键 字提取,匹配模块(220)可以确定预定义类别中与每个内容块最相关的。此外或可替代地, 匹配模块(220)可以基于检测到的内容块之内的字符模式将该内容块分配到特定的预定义 类别。例如,可以将具有表示电话号码或电子邮件地址的字符模式的内容块分配给模板的 “联系信息”类别。 0038 然后可以根据模板的语义对内容块排列等级。例如,可以根据它们对应的被分配 的类别对内容块排列等级。此外,在某些实施例中,可以根据它们与每个类别的相关性和/ 或重要性在那个特定类别之内对内容块排列等级。
29、。 0039 匹配模块(220)然后可以根据模板内容语义,从对网站内容的分类和排列等级确 定内容块中的哪些将被包括在目标文档中。然后可以从匹配模块(220)以由模板指定的格 式输出所选的内容块。 0040 图3-5说明根据图1-2所描述的功能使用从网站提取的内容基于模板自动创建目 标文档的特定示例。 说 明 书CN 102939602 A 5/7页 8 0041 具体参考图3,示出了用于网站内容排列等级的说明性模板(300)。可以使用此特 定模板(300)来创建印刷文档,诸如使用从网站提取的内容的营销小册子。如图3所示,说 明性模板(300)包括被分成三个部分(305,310,315)的页面布。
30、局,所述三个部分也对应于 模板(300)中的类别。这些类别是“关于我们”、“联系信息”和“地图”。因此,网站内容排列 等级装置(105,图1)的任务可以是确定来自网站的哪个内容与这三个类别最相关。然后可 以基于此模板(300)使用等级被排列为与这些类别最相关的内容来自动生成营销小册子。 0042 图4是根据这里所描述的原理的从其提取内容并按语义排列等级的网站的树形 分级结构(400)的图。根网页(405)可以是向到达网站的访问者初始显示的默认网页或主 网页。通过根网页(405)上的链接可以访问各种二级网页(410-1到410-5)。在本示例中, 这些二级网页(410-1到410-5)包括“关于。
31、”网页(410-1)、“产品”网页(410-2)、“联系我 们”网页(410-3)、“在线商店”网页(410-4)和“常见问题”网页(410-5)。可以从“产品”网 页(410-2)访问说明性的三级网页(410-6,410-7)。 0043 网站内容排列等级装置(105,图1)的多页抓取器块(205,图2)可以检索这些网 页(405,410-1到410-7)的每一个中的网站内容,并且内容块提取模块(210,图2)可以将 网站内容划分成多个自治的内容块(415-1到415-17)。这些内容块可以包括文本块、图像、 其他内容对象或它们的组合。块语义提取模块(215,图2)然后可以确定每个内容块(4。
32、15-1 到415-7)的主旨。 0044 模板内容语义模块(225,图2)可以评估可适用的模板(300,图3)的语义。具体而 言,模板内容语义模块(225,图2)可以确定与模板(300,图3)的部分(305,310,315,图3) 对应的预定义类别。在本示例中,模板(300,图3)包括三个部分(305,310,315),具有分别 与其相关联的“关于我们”、“联系信息”和“地图”的类别。除了识别这些类别之外,模板内 容语义模块(225,图2)还可以识别与将内容块(415-1到415-17)分配到模板(300,图3) 的每个相应类别相关联的任何关键字或其他语义。可以由模板(300,图3)、网站内。
33、容排列 等级装置(105,图1)中的软件、或两者,提供这些关键字或其他语义。然后使模板(300,图 3)的类别以及用于向其分配内容块(415-1到415-7)的语义对于匹配模块(220,图2)是可 用的。 0045 匹配模块(220,图2)然后可以根据内容块(415-1到415-7)的主旨将任何相关内 容块(415-1到415-17)匹配到由模板(300,图3)定义的三个类别。将分配到由模板(300, 图3)定义的类别的相关内容块(415-1到415-17)视为与模板(300,图3)最相关的内容块。 此外,可以对每个类别中的内容块(415-1到415-17)排列等级以确定哪些内容块(415-1。
34、 到415-17)与每个个体类别最相关。然后可以使用被视为与模板(300,图3)相关的内容 块(415-1到415-17)通过如下方式生成符合模板(300,图3)的文档:从确定为跟与每个 部分(305,310,315,图3)相关联的类别最相关的内容块(415-1到415-17)开始填充模板 (300,图3)的该部分(305,310,315,图3),直到用完与该类别相关的所有内容块(415-1到 415-17)或者模板(300,图3)的格式化约束防止在该部分(305,310,315,图3)中放置额外 的内容块。 0046 为了说明的目的,假设匹配模块(220,图2)确定来自根页(405)的内容块。
35、(415-3) 和来自“关于”页(410-1)的内容块(415-6)是与模板(300,图3)的“关于我们”类别最相 关的内容块,并且是将符合于与“关于我们”类别对应的模板(300,图3)的部分(305,图3) 说 明 书CN 102939602 A 6/7页 9 的仅有的两个内容块。假设关于模板(300,图3)的“联系信息”部分(310,图3)对“联系 我们”页(410-3)中的内容块(415-9)做了类似的确定,以及关于模板(300,图3)的“地图” 部分(315,图3),对“联系我们”页(410-3)中的内容块(415-10)做了类似的确定。 0047 现在参考图5,在以上假设之下,如图所。
36、示可以使用内容块(415-3,415-6,415-9, 415-10)自动生成小册子文档(500)。可以将此小册子文档印刷和/或保存为电子文件并 分发给客户或网站所有者的其他联系人。 0048 现在参考图6,示出了流程图,该流程图总结了对网站中的内容按语义排列等级以 自动生成基于网站的文档的说明性模板驱动的方法(600)。该方法(600)包括抓取(步骤 605)网站以检索网站内容并将网站内容解析(步骤610)成多个自治的内容块。然后基于模 板的语义确定(步骤615)每个内容块与文档模板中定义的类别的相关性,并基于每个内容 块与定义的类别之一的相关性向该内容块分配(步骤620)重要性等级。最后,。
37、通过按照它 们被分配的重要性次序在文档模板约束之内使用与每个类别相关的内容块填充模板中为 该类别保留的空间,自动生成(步骤625)文档。 0049 图7-10展示了基于从网站获得的内容自动生成文档的稍不同的方式。在此实施 例中,文档的类别布局不由模板指定。相反,基于分配给每个内容对象的纯重要性等级在文 档的布局约束之内布置内容对象。在这样的实施例中,基于如何在网站中组织内容对象,连 同具有加权概念分数的内容类别的预先确定的列表一起,确定内容对象的重要性。 0050 现在具体参考图7,示出了与本实施例一致的网站内容排列等级装置(105,图1) 的底层功能(700)的框图。本示例的模块性功能(70。
38、0)类似于在图2的实施例中所示出的 模块性功能。然而,确实存在一些差异。例如,本示例的内容块提取模块(710),除了将网站 内容解析成内容块之外,还可以被配置成为每个内容块标记从网站的根页(405,图4)到达 该特定内容块所需的点击数(即内容对象在网站分级结构(400,图4)内的位置)。这样的信 息是有用的,因为到达内容对象所需的较低的点击数可能通常指示该特定内容对象中的信 息的较高的重要性和一般可适用性。 0051 图7中所示出的模块化功能(700)和图2中所示出的模块化功能中的另一差异是, 重要性等级计算模块(730)为匹配模块(720)提供了指导(rubric),用于基于内容对象在 网站。
39、分级结构(400,图4)内的位置、内容对象与内容等级列表(725)中的任何类别相关的 程度以及内容等级列表(725)中的相关类别的加权重要性分数,来确定每个内容对象的重 要性。 0052 图8示出了说明性内容等级列表(725)。内容等级列表包括多个类别,每个类别都 具有被分配的重要性分数和关联的关键字。返回到图7,匹配模块(720)可以首先通过内容 对象中的文本和/或元数据的关键字匹配,确定每个内容对象与等级列表(725)中的类别 之一的相关性。匹配模块(720)然后可以使用以上所描述的重要性等级计算指导为每个内 容块分配特定的基于语义的重要性等级。 0053 可以通过从具有最高重要性的那些内。
40、容对象开始,根据每个内容对象的重要性等 级,用内容对象填充空白文档来自动生成文档。将与期望的特定文档的布局约束一致地执 行内容对象的这种放置。 0054 现在参考图9,示出了可以基于图7的功能自动生成的说明性小册子文档(900)。 如图9所示,根据分配给类别的重要性下降的次序,在小册子文档(900)中布置与图8的表 说 明 书CN 102939602 A 7/7页 10 格中的类别相关联的内容对象。 0055 现在参考图10,示出了流程图,该流程图总结了对网站中的内容按语义排列等级 以自动生成基于网站的文档的说明性模板驱动的方法(1000)。该方法(1000)包括抓取(步 骤1005)网站以检。
41、索网站内容并将网站内容解析(步骤1010)成多个自治的内容块。然后 基于内容等级列表的语义确定(步骤1015)每个内容块的主旨与内容等级列表中定义的类 别的相关性。基于每个内容块的主旨与定义的类别之一的相关性和内容块在网站内的层级 位置,向该内容块分配(步骤1020)重要性等级。最后,通过在文档模板的约束之内按照分 配的重要性次序,使用内容块填充空白文档中的空间,自动生成(步骤1025)文档。 0056 给出前面的描述仅仅是为了说明和描述所描述的原理的实施例和示例。本描述并 非旨在穷举或将这些原理限制于公开的任何精确形式。根据以上教导,能够进行很多修改 和变化。 说 明 书CN 1029396。
42、02 A 10 1/10页 11 图 1 说 明 书 附 图CN 102939602 A 11 2/10页 12 图 2 说 明 书 附 图CN 102939602 A 12 3/10页 13 图 3 说 明 书 附 图CN 102939602 A 13 4/10页 14 图 4 说 明 书 附 图CN 102939602 A 14 5/10页 15 图 5 说 明 书 附 图CN 102939602 A 15 6/10页 16 图 6 说 明 书 附 图CN 102939602 A 16 7/10页 17 图 7 说 明 书 附 图CN 102939602 A 17 8/10页 18 图 8 说 明 书 附 图CN 102939602 A 18 9/10页 19 图 9 说 明 书 附 图CN 102939602 A 19 10/10页 20 图 10 说 明 书 附 图CN 102939602 A 20 。