《用于确定目标页面所对应的页面描述信息的方法和设备.pdf》由会员分享,可在线阅读,更多相关《用于确定目标页面所对应的页面描述信息的方法和设备.pdf(33页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102999576 A (43)申请公布日 2013.03.27 CN 102999576 A *CN102999576A* (21)申请号 201210452843.6 (22)申请日 2012.11.13 G06F 17/30(2006.01) (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦 2 层 (72)发明人 唐振江 董冰峰 (74)专利代理机构 北京汉昊知识产权代理事务 所 ( 普通合伙 ) 11370 代理人 罗朋 周建华 (54) 发明名称 用于确定目标页面所对应的页面描述信息的 方法和设备 (5。
2、7) 摘要 本发明的目的是提供一种用于确定目标页面 所对应的页面描述信息的方法和设备。具体地, 确定待处理的目标页面所对应的分类相关信息 ; 根据所述分类相关信息, 对所述目标页面所对应 的候选描述信息进行相应调整处理, 以获得所述 目标页面所对应的页面描述信息。与现有技术相 比, 本发明通过根据确定的目标页面的分类相关 信息, 对所述目标页面所对应的候选描述信息进 行相应调整处理, 以获得所述目标页面所对应的 页面描述信息, 从而使目标页面的页面描述信息 更加准确, 不仅提高了用户获取信息效率, 还提升 了用户的浏览阅读体验及用户设备的资源节约。 (51)Int.Cl. 权利要求书 4 页 。
3、说明书 26 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 4 页 说明书 26 页 附图 2 页 1/4 页 2 1. 一种用于确定目标页面所对应的页面描述信息的方法, 其中, 该方法包括以下步 骤 : a 确定待处理的目标页面所对应的分类相关信息 ; b 根据所述分类相关信息, 对所述目标页面所对应的候选描述信息进行相应调整处理, 以获得所述目标页面所对应的页面描述信息。 2. 根据权利要求 1 所述的方法, 其中, 该方法还包括 : - 根据经标注分类信息的多个训练页面, 进行机器学习处理, 以获得用于页面分类的页 面分类模型 ; 其中, 所述。
4、步骤 a 包括 : - 根据所述页面分类模型, 基于所述目标页面的页面相关信息, 确定所述分类相关信 息。 3. 根据权利要求 1 所述的方法, 其中, 该方法还包括 : c 根据所述页面描述信息, 确定与所述目标页面相对应的呈现信息, 其中, 所述呈现信 息与所述页面描述信息相匹配。 4. 根据权利要求 3 所述的方法, 其中, 所述步骤 a 包括 : - 获取用户所访问的访问页面, 以作为所述目标页面 ; a1 确定所述目标页面所对应的分类相关信息 ; 其中, 该方法还包括 : d 根据所述呈现信息, 对所述目标页面进行更新处理, 以生成对应的结果页面, 其中, 所 述结果页面包括所述呈现。
5、信息 ; - 将所述结果页面提供给所述用户。 5. 根据权利要求 4 所述的方法, 其中, 所述步骤 a1 包括 : - 结合所述用户的用户操作信息, 确定所述目标页面所对应的分类相关信息 ; 其中, 所述用户操作信息包括以下至少任一项 : - 所述用户关于所述访问页面的页面访问会话信息 ; - 所述用户的页面访问记录信息 ; - 所述访问页面所对应的页面搜索记录。 6. 根据权利要求 4 或 5 所述的方法, 其中, 该方法还包括 : - 确定所述呈现信息在所述目标页面中所对应的目标位置信息 ; 其中, 所述步骤 d 包括 : - 根据所述呈现信息, 并结合所述目标位置信息, 对所述目标页面。
6、进行更新处理, 以生 成对应的所述结果页面, 其中, 所述结果页面在所述目标位置信息对应处包括所述呈现信 息。 7. 根据权利要求 4 或 5 所述的方法, 其中, 该方法还包括 : - 确定所述呈现信息在所述目标页面中所对应的目标样式信息 ; 其中, 所述步骤 d 包括 : - 根据所述呈现信息, 并结合所述目标样式信息, 对所述目标页面进行更新处理, 以生 成对应的所述结果页面, 其中, 所述结果页面包括与所述目标样式信息相对应的所述呈现 信息。 权 利 要 求 书 CN 102999576 A 2 2/4 页 3 8. 根据权利要求 3 所述的方法, 其中, 该方法还包括 : - 确定所。
7、述目标页面的内容敏感度信息 ; 其中, 所述步骤 c 包括 : - 根据所述页面描述信息, 并结合所述内容敏感度信息, 确定与所述目标页面相对应的 呈现信息, 其中, 所述呈现信息与所述页面描述信息及所述内容敏感度信息相匹配。 9. 根据权利要求 1 所述的方法, 其中, 所述分类相关信息包括以下至少任一项 : - 虚拟主题 ; - 精确匹配对象 ; - 广义匹配对象 ; - 失配对象 ; 其中, 所述相应调整处理操作包括以下至少任一项 : - 当所述分类相关信息包括所述虚拟主题, 根据所述候选描述信息在虚拟主题数据库 中进行匹配查询, 以将对应的匹配查询结果作为所述页面描述信息 ; - 当所。
8、述分类相关信息包括所述精确匹配对象, 将所述候选描述信息作为所述页面描 述信息 ; - 当所述分类相关信息包括所述广义匹配对象, 根据所述候选描述信息在广义对象数 据库中进行匹配查询, 以将所述候选描述信息及其对应的匹配查询结果作为所述页面描述 信息 ; - 当所述分类相关信息包括所述失配对象, 将所述候选描述信息清空, 以作为所述页面 描述信息。 10. 根据权利要求 1 所述的方法, 其中, 该方法还包括 : - 获取与查询序列相对应的一个或多个搜索结果 ; - 根据所述搜索结果所对应页面的页面描述信息与所述查询序列的匹配度信息, 对所 述一个或多个搜索结果进行后续处理 ; - 将经后续处。
9、理的所述一个或多个搜索结果中至少一个提供给所述查询序列所对应的 应用。 11. 一种用于确定目标页面所对应的页面描述信息的信息确定设备, 其中, 该信息确定 设备包括 : 分类装置, 用于确定待处理的目标页面所对应的分类相关信息 ; 确定装置, 用于根据所述分类相关信息, 对所述目标页面所对应的候选描述信息进行 相应调整处理, 以获得所述目标页面所对应的页面描述信息。 12. 根据权利要求 11 所述的信息确定设备, 其中, 该信息确定设备还包括 : 模型建立装置, 用于根据经标注分类信息的多个训练页面, 进行机器学习处理, 以获得 用于页面分类的页面分类模型 ; 其中, 所述分类装置用于 :。
10、 - 根据所述页面分类模型, 基于所述目标页面的页面相关信息, 确定所述分类相关信 息。 13. 根据权利要求 11 所述的信息确定设备, 其中, 该信息确定设备还包括 : 匹配装置, 用于根据所述页面描述信息, 确定与所述目标页面相对应的呈现信息, 其 权 利 要 求 书 CN 102999576 A 3 3/4 页 4 中, 所述呈现信息与所述页面描述信息相匹配。 14. 根据权利要求 13 所述的信息确定设备, 其中, 所述分类装置包括 : 获取单元, 用于获取用户所访问的访问页面, 以作为所述目标页面 ; 分类单元, 用于确定所述目标页面所对应的分类相关信息 ; 其中, 该信息确定设备。
11、还包括 : 生成装置, 用于根据所述呈现信息, 对所述目标页面进行更新处理, 以生成对应的结果 页面, 其中, 所述结果页面包括所述呈现信息 ; 提供装置, 用于将所述结果页面提供给所述用户。 15. 根据权利要求 14 所述的信息确定设备, 其中, 所述分类单元用于 : - 结合所述用户的用户相关信息, 确定所述目标页面所对应的分类相关信息 ; 其中, 所述用户相关信息包括以下至少任一项 : - 所述用户关于所述访问页面的页面访问会话信息 ; - 所述用户的页面访问记录信息 ; - 所述访问页面所对应的页面搜索记录。 16. 根据权利要求 14 或 15 所述的信息确定设备, 其中, 该信息。
12、确定设备还包括 : 位置确定装置, 用于确定所述呈现信息在所述目标页面中所对应的目标位置信息 ; 其中, 所述生成装置用于 : - 根据所述呈现信息, 并结合所述目标位置信息, 对所述目标页面进行更新处理, 以生 成对应的所述结果页面, 其中, 所述结果页面在所述目标位置信息对应处包括所述呈现信 息。 17. 根据权利要求 14 或 15 所述的信息确定设备, 其中, 该信息确定设备还包括 : 样式确定装置, 用于确定所述呈现信息在所述目标页面中所对应的目标样式信息 ; 其中, 所述生成装置用于 : - 根据所述呈现信息, 并结合所述目标样式信息, 对所述目标页面进行更新处理, 以生 成对应的。
13、所述结果页面, 其中, 所述结果页面包括与所述目标样式信息相对应的所述呈现 信息。 18. 根据权利要求 13 所述的信息确定设备, 其中, 该信息确定设备还包括 : 敏感度装置, 用于确定所述目标页面的内容敏感度信息 ; 其中, 所述匹配装置用于 : - 根据所述页面描述信息, 并结合所述内容敏感度信息, 确定与所述目标页面相对应的 呈现信息, 其中, 所述呈现信息与所述页面描述信息及所述内容敏感度信息相匹配。 19. 根据权利要求 11 所述的信息确定设备, 其中, 所述分类相关信息包括以下至少任 一项 : - 虚拟主题 ; - 精确匹配对象 ; - 广义匹配对象 ; - 失配对象 ; 其。
14、中, 所述相应调整处理操作包括以下至少任一项 : - 当所述分类相关信息包括所述虚拟主题, 根据所述候选描述信息在虚拟主题数据库 权 利 要 求 书 CN 102999576 A 4 4/4 页 5 中进行匹配查询, 以将对应的匹配查询结果作为所述页面描述信息 ; - 当所述分类相关信息包括所述精确匹配对象, 将所述候选描述信息作为所述页面描 述信息 ; - 当所述分类相关信息包括所述广义匹配对象, 根据所述候选描述信息在广义对象数 据库中进行匹配查询, 以将所述候选描述信息及其对应的匹配查询结果作为所述页面描述 信息 ; - 当所述分类相关信息包括所述失配对象, 将所述候选描述信息清空, 以。
15、作为所述页面 描述信息。 20. 根据权利要求 11 所述的信息确定设备, 其中, 该信息确定设备还包括搜索处理装 置, 用于 : - 获取与查询序列相对应的一个或多个搜索结果 ; - 根据所述搜索结果所对应页面的页面描述信息与所述查询序列的匹配度信息, 对所 述一个或多个搜索结果进行后续处理 ; - 将经后续处理的所述一个或多个搜索结果中至少一个提供给所述查询序列所对应的 应用。 21. 一种计算机设备, 包括如权利要求 11 至 20 中任一项所述的信息确定设备。 权 利 要 求 书 CN 102999576 A 5 1/26 页 6 用于确定目标页面所对应的页面描述信息的方法和设备 技术。
16、领域 0001 本发明涉及互联网技术领域, 尤其涉及一种用于确定目标页面所对应的页面描述 信息的技术。 背景技术 0002 当前, 随着互联网技术的发展及互联网应用对用户学习、 工作与生活的渗透, 人们 越来越多地通过网络获取信息, 例如浏览页面或者搜索关于特定主题的页面结果。 相应地, 若能精确地确定目标页面的页面描述信息, 将能够大幅提高用户获取信息的效率, 例如为 搜索用户提供更合适的页面结果, 或者为页面浏览用户推供更为相关的其他信息。 然而, 现 有技术中往往仅通过先对页面分词再统计词频来确定该页面的描述信息, 这样获得的页面 描述信息往往存在较大误差, 例如关注 “作文” 的用户在。
17、浏览作文写作页面, 若该页面包括 一篇关于 “粽子” 的范文, 现有技术则会得到 “粽子” 为该页面的描述信息, 而不是 “作文” 。 特别地, 随着目前搜索引擎优化或网站优化技术的泛滥, 利用该现有技术获得的页面描述 信息越来越不可靠, 严重影响了人们获取信息的效率和使用体验。 发明内容 0003 本发明的目的是提供一种用于确定目标页面所对应的页面描述信息的方法与设 备。 0004 根据本发明的一个方面, 提供了一种用于确定目标页面所对应的页面描述信息的 方法, 其中, 该方法包括以下步骤 : 0005 a 确定待处理的目标页面所对应的分类相关信息 ; 0006 b 根据所述分类相关信息, 。
18、对所述目标页面所对应的候选描述信息进行相应调整 处理, 以获得所述目标页面所对应的页面描述信息。 0007 根据本发明的另一个方面, 还提供了一种用于确定目标页面所对应的页面描述信 息的信息确定设备, 其中, 该信息确定设备包括 : 0008 分类装置, 用于确定待处理的目标页面所对应的分类相关信息 ; 0009 确定装置, 用于根据所述分类相关信息, 对所述目标页面所对应的候选描述信息 进行相应调整处理, 以获得所述目标页面所对应的页面描述信息。 0010 根据本发明的又一个方面, 还提供了一种计算机设备, 该计算机设备包括如前述 根据本发明另一个方面的用于确定目标页面所对应的页面描述信息的。
19、信息确定设备。 0011 与现有技术相比, 本发明通过根据确定的目标页面的分类相关信息, 对所述目标 页面所对应的候选描述信息进行相应调整处理, 以获得所述目标页面所对应的页面描述信 息, 从而使目标页面的页面描述信息更加准确, 不仅提高了用户获取信息效率, 还提升了用 户的浏览阅读体验及用户设备的资源节约。 而且, 本发明还可根据所述页面描述信息, 确定 与所述目标页面相对应的呈现信息, 从而进一步地提高了信息提供效率及用户获取信息效 率。进一步地, 本发明还可确定所述目标页面的内容敏感度信息, 根据所述页面描述信息, 说 明 书 CN 102999576 A 6 2/26 页 7 并结合所。
20、述内容敏感度信息, 确定与所述目标页面相对应的呈现信息, 从而进一步地提高 了信息提供效率及用户获取信息效率, 进而也相应地提升了用户的浏览阅读体验。 此外, 本 发明还可根据搜索结果所对应页面的页面描述信息与查询序列的匹配度信息, 对搜索结果 进行后续处理, 更进一步地缩短了用户网页搜索的时间, 减少了用户访问流量, 提高了用户 获取信息的效率, 并提升了用户的搜索浏览体验。 附图说明 0012 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本发明的其它 特征、 目的和优点将会变得更明显 : 0013 图 1 示出根据本发明一个方面的用于确定目标页面所对应的页面描述信息的设 备。
21、示意图 ; 0014 图 2 示出根据本发明一个优选实施例的用于确定目标页面所对应的页面描述信 息的设备示意图 ; 0015 图 3 示出根据本发明另一个方面的用于确定目标页面所对应的页面描述信息的 方法流程图 ; 0016 图 4 示出根据本发明一个优选实施例的用于确定目标页面所对应的页面描述信 息的方法流程图。 0017 附图中相同或相似的附图标记代表相同或相似的部件。 具体实施方式 0018 下面结合附图对本发明作进一步详细描述。 0019 图 1 示出根据本发明一个方面的用于确定目标页面所对应的页面描述信息的信 息确定设备 1, 其中, 信息确定设备 1 包括分类装置 11 和确定装置。
22、 12。具体地, 分类装置 11 确定待处理的目标页面所对应的分类相关信息 ; 确定装置 12 根据所述分类相关信息, 对所 述目标页面所对应的候选描述信息进行相应调整处理, 以获得所述目标页面所对应的页面 描述信息。在此, 信息确定设备 1 包括但不限于网络设备、 用户设备或网络设备与用户设备 通过网络相集成所构成的设备。 在此, 所述网络设备包括但不限于如网络主机、 单个网络服 务器、 多个网络服务器集或基于云计算的计算机集合等实现 ; 或者由用户设备实现。在此, 云由基于云计算(Cloud Computing)的大量主机或网络服务器构成, 其中, 云计算是分布式 计算的一种, 由一群松散。
23、耦合的计算机集组成的一个超级虚拟计算机。 在此, 所述用户设备 可以是任何一种可与用户通过键盘、 鼠标、 触摸板、 触摸屏、 或手写设备等方式进行人机交 互的电子产品, 例如计算机、 手机、 PDA、 掌上电脑 PPC 或平板电脑等。所述网络包括但不限 于互联网、 广域网、 城域网、 局域网、 VPN 网络、 无线自组织网络 (Ad Hoc 网络 ) 等。本领域 技术人员应能理解上述信息确定设备 1 仅为举例, 其他现有的或今后可能出现的网络设备 或用户设备如可适用于本发明, 也应包含在本发明保护范围以内, 并在此以引用方式包含 于此。 在此, 网络设备及用户设备均包括一种能够按照事先设定或存。
24、储的指令, 自动进行数 值计算和信息处理的电子设备, 其硬件包括但不限于微处理器、 专用集成电路 (ASIC)、 可编 程门阵列 (FPGA)、 数字处理器 (DSP)、 嵌入式设备等。 0020 具体地, 分类装置 11 首先通过诸如浏览器、 搜索引擎等第三方设备提供的应用 说 明 书 CN 102999576 A 7 3/26 页 8 程序接口 (API), 获取待处理的目标页面 ; 或者, 通过 ASP、 JSP 等动态网页技术, 获取用户 通过用户设备输入的查询序列, 再将该查询序列提交给搜索引擎, 并接收搜索引擎所反馈 的与该查询序列相对应的搜索结果, 以作为待处理的目标页面 ; 或。
25、者, 通过 http、 htths 等 约定通信方式, 获取待处理的目标页面 ; 然后, 分类装置 11 确定所述目标页面所对应的 分类相关信息。在此, 所述分类相关信息包括但不限于以下至少任一项 : 1) 虚拟主题, 在 此, 所述虚拟主题意旨所述目标页面的页面主体内容可反映的访问该目标页面的用户的 访问意旨, 例如, 假设目标页面如 “划船比赛作文范文” (http:/ sinj/101176.Html) 的主体内容为一篇划船比赛作文范文, 而浏览该页面的用户希望学习 作文写作方面的信息, 则该目标页面所对应的分类相关信息为虚拟主题如作文 ; 再如, 假 设目标页面如 “鲜花素材下载” (。
26、http:/ 的主体内容 为鲜花的图片, 而浏览该页面的用户希望获取有关鲜花的素材以用于艺术类创作, 则该目 标页面所对应的分类相关信息为虚拟主题如艺术类素材 ; 2) 精确匹配对象, 在此, 所述精 确匹配对象意旨所述目标页面包含了与用户需求完全一致的内容信息, 且所述用户需求具 有不可替代性, 例如, 假设目标页面如 “北京口腔专家 - 好大夫在线” (http:/www.haodf. com/jibing/kouqiangkuiyang/daifu.htm ? province beijing) 包含了关于疾病 “口腔 溃疡” 的医院及主治医师等相关信息, 而浏览该页面的用户希望查询得到。
27、关于治疗疾病如 “口腔溃疡” 并不是其他疾病如 “鼻炎” 的相关信息的页面, 则该目标页面所对应的分类相 关信息为精确匹配对象 ; 再如, 假设目标页面如 “IBM 小型机 IBMPOWER720” (http:/www. POWER720的产 品简介、 规格参数等信息, 而浏览该页面的用户希望查询得到关于 IBM 小型机 IBMPOWER720 而不是其他型号产品如 “IBM POWER 550” 相关信息的页面, 则该目标页面所对应的分类 相关信息为精确匹配对象 ; 3) 广义匹配对象, 在此, 所述广义匹配对象意旨所述目标页面 的内容信息与用户需求具有相关性, 例如, 假设目标页面如 。
28、“iphone5 粉色且背面具有心 形图案的外壳保护套” (http:/ ? ), 而浏览该 页面的用户还可能对 iphone5 设备的其他配件如 “苹果数据线”及与 “iohone5”属于同 类产品如智能机的其他品牌如 “nokia” 智能机等感兴趣, 则该目标页面所对应的分类相 关信息为广义匹配对象 ; 4) 失配对象, 在此, 所述失配对象意旨所述目标页面的内容信息 不适宜包含供用户获取处该目标页面的内容信息之外的呈现信息, 例如, 用户浏览新闻报 导如 “专家称奥巴马对华亦敌亦友将深化重返亚太战略” (http:/ sd/2012-11-08/021925532469.shtml) 时。
29、, 除关注该新闻的内容报导之外, 不会再关注该页 面中的其他内容信息, 则该页面所对应的分类相关信息为失配对象如新闻报导。本领域技 术人员应能理解上述分类相关信息仅为举例, 其他现有的或今后可能出现的分类相关信息 如可适用于本发明, 也应包含在本发明保护范围以内, 并在此以引用方式包含于此。 0021 例如, 用户在浏览器地址栏中输入网址 http:/ 按 Enter 键, 分类装置 11 通过诸如新闻网站等第三方设备提供的应用程序接口 (API) 获取到与该网址 http:/ 相对应的网页。再如, 用户通过其用户设备如 PC 机在搜索栏 中输入关键词 “iphone 配件” , 点击搜索按钮。
30、, 则分类装置 11 通过 JSP 或 ASP 等动态网页技 术, 从该用户设备获取到该用户输入的查询序列, 并基于该查询序列向搜索引擎提交搜索 请求, 通过搜索引擎提供的应用程序接口 (API) 获取搜索引擎根据关键词 “iphone 配件” 匹 说 明 书 CN 102999576 A 8 4/26 页 9 配查询得到的与关键词 “iphone 配件” 相匹配的一个或多个搜索结果, 如 “iphone 配件 【行 情价格评价正品行货】 ” 、“iphone 配件 Apple Store( 中国 )” 等, 作为待处理的目标页面。 0022 本领域技术人员应能理解上述获取待处理的目标页面的方。
31、式仅为举例, 其他现有 的或今后可能出现的获取待处理的目标页面的方式如可适用于本发明, 也应包含在本发明 保护范围以内, 并在此以引用方式包含于此。 0023 接着, 分类装置 11 确定待处理的目标页面所对应的分类相关信息, 在此, 分类装 置 11 确定所述目标页面所对应的分类相关信息的方式包括但不限于以下至少任一项 : 0024 1) 根据所述目标页面的页面主题内容, 确定所述目标页面所对应的分类相关信 息。具体地, 分类装置 11 首先通过诸如页面 HTML 标签分析方法, 提取所述目标页面的 页面主体内容, 或者, 根据 VIPS(Vision-based Page Segmenta。
32、tion, 基于视觉的页面分 段 ) 算法, 利用网页前景颜色、 背景颜色、 字体颜色和大小、 边框、 逻辑块和逻辑块之间的 间距、 元素位置等视觉特征, 对所述目标页面进行分块处理, 以获得所述目标页面的主体 内容分块 ; 然后, 分类装置 11 根据所述目标页面的页面主体内容, 确定所述目标页面所 对应的分类相关信息。例如, 假设分类装置 11 首先获取到的所述目标页面为新闻报导 如 “专家称奥巴马对华亦敌亦友将深化重返亚太战略” (http:/ sd/2012-11-08/021925532469.shtml), 则分类装置 11 通过诸如页面 HTML 标签分析方法, 提取到该目标页面。
33、的页面主体内容为 “奥巴马对华亦敌亦友将深化重返亚太战略” 的新闻 报导, 则分类装置 11 确定该目标页面所对应的分类相关信息为失配对象。再如, 假设分类 装置 11 首先获取到的所述目标页面为关于治疗疾病如 “口腔溃疡” 相关信息的页面 “北京 口腔专家 - 好大夫在线” (http:/ ? province beijing), 该目标页面包含了与用户需求完全一致的内容信息, 则分类装置 11 确定该目标页面所对应的分类相关信息为精确匹配对象。 0025 2) 根据访问所述目标页面的用户的页面访问记录信息, 确定所述目标页面所对应 的分类相关信息。例如, 用户 user 正在浏览页面如 “。
34、iphone 配件唯品会抄底低价!数码配 件专场限时特惠” (http:/ 而该用户user还 对 iphone5 设备的其他配件如 “苹果数据线” 及与 “iohone5” 属于同类产品如智能机的其 他品牌如 “nokia” 智能机等感兴趣, 则分类装置 11 确定该目标页面所对应的分类相关信息 为广义匹配对象。 0026 本领域技术人员应能理解上述确定所述分类相关信息的方式仅为举例, 其他现有 的或今后可能出现的确定所述分类相关信息的方式如可适用于本发明, 也应包含在本发明 保护范围以内, 并在此以引用方式包含于此。 0027 确定装置 12 根据所述分类相关信息, 对所述目标页面所对应的。
35、候选描述信息进 行相应调整处理, 以获得所述目标页面所对应的页面描述信息。在此, 所述候选描述信息 包括但不限于如所述目标页面主体内容信息的描述、 所述目标页面所对应的所述分类相关 信息的描述。具体地, 确定装置 12 首先通过诸如对所述目标页面的页面内容进行词频统 计, 或者, 调用所述目标页面所属的第三方网站所提供的页面候选描述信息应用程序接口 (API), 获得所述目标页面所对应的候选描述信息 ; 然后, 确定装置 12 根据分类装置确定的 所述分类相关信息, 对所述目标页面所对应的候选描述信息进行相应调整处理, 以获得所 述目标页面所对应的页面描述信息。本领域技术人员应能理解上述候选描。
36、述信息仅为举 说 明 书 CN 102999576 A 9 5/26 页 10 例, 其他现有的或今后可能出现的候选描述信息如可适用于本发明, 也应包含在本发明保 护范围以内, 并在此以引用方式包含于此。 在此, 所述相应调整处理操作包括以下至少任一 项 : 0028 - 当所述分类相关信息包括所述虚拟主题, 根据所述候选描述信息在虚拟主题数 据库中进行匹配查询, 以将对应的匹配查询结果作为所述页面描述信息 ; 0029 - 当所述分类相关信息包括所述精确匹配对象, 将所述候选描述信息作为所述页 面描述信息 ; 0030 - 当所述分类相关信息包括所述广义匹配对象, 根据所述候选描述信息在广义。
37、对 象数据库中进行匹配查询, 以将所述候选描述信息及其对应的匹配查询结果作为所述页面 描述信息 ; 0031 - 当所述分类相关信息包括所述失配对象, 将所述候选描述信息清空, 以作为所述 页面描述信息。 0032 例如, 假设分类装置 11 确定待处理的目标页面如 “划船比赛作文范文” (http:/ 所对应的所述分类相关信息为所述虚拟主题, 而确定装置 12 首先调用该目标页面 http:/ 所属的第三方网站 qc99 所提供的页面候选描述信息应用程序接口 (API), 获得该目标页 面 http:/ 的所述候选描述信息包括 “划船比 赛作文范文” 内容等, 则确定装置 12 根据该候选。
38、描述信息在虚拟主题数据库中进行匹配 查询, 得到匹配查询结果如 “页面主体内容 : 划船比赛作文范文 - 对应分类相关信息 : 虚拟 主题 ( 作文 )” , 然后该匹配查询结果作为所述页面描述信息, 在此, 所述虚拟主题数据库 存储有多个虚拟主题, 其可位于信息确定设备 1 中, 还可位于与信息确定设备 1 通过网络 相连的服务器中 ; 再如, 假设分类装置 11 确定待处理的目标页面如关于治疗疾病如 “口腔 溃疡”相关信息的页面 “北京口腔专家 - 好大夫在线” (http:/ kouqiangkuiyang/daifu.htm ? province beijing) 的所述分类相关信息为。
39、精确匹配对 象, 而确定装置 12 首先对该目标页面的页面内容进行词频统计, 获得该目标页面 http:/ ? province beijing 的所述候选 描述信息包括 “疾病 “口腔溃疡” 治疗 - 对应分类相关信息 : 精确匹配对象” 等, 则确定装置 12 将该候选描述信息作为所述页面描述信息 ; 又如, 假设分类装置 11 确定待处理的目标页 面如 “iphone 配件唯品会抄底低价!数码配件专场限时特惠” (http:/ show-0-48369-0.html ? ) 的所述分类相关信息为广义匹配对象, 而确定装置 12 首先对该 目标页面 http:/ ?的页面内容进行词频统计。
40、, 获得该目标页面 http:/ ?的所述候选描述信息 包括 “数码配件专场” 等, 则确定装置 12 根据该候选描述信息在广义对象数据库中进行匹 配查询, 获得匹配查询结果如 “iphone 数码配件 ( 保护外壳配件、 充电器等 )-nokia 数码配 件 -.” 等, 将该候选描述信息及其对应的匹配查询结果作为所述页面描述信息, 在此, 所 述广义对象数据库包括广义对象的分类集合, 每一广义对象可再次细化分类, 其可位于信 息确定设备 1 中, 还可位于与信息确定设备 1 通过网络相连的服务器中 ; 还如, 假设分类装 置 11 确定待处理的目标页面为新闻报导如 “专家称奥巴马对华亦敌亦。
41、友将深化重返亚太 战略” (http:/ 的所述分类相 说 明 书 CN 102999576 A 10 6/26 页 11 关信息为失配对象, 而确定装置 12 首先首先调用该目标页面所属的第三方网站 sina 所提 供的页面候选描述信息应用程序接口(API), 获得该目标页面的所述候选描述信息包括 “新 闻报道 - 对应分类相关信息 : 失配对象” , 则确定装置 12 将该候选描述信息清空, 以作为所 述页面描述信息, 即该目标页面所对应的页面描述信息为空缺。 0033 本领域技术人员应能理解上述对所述目标页面所对应的候选描述信息进行相应 调整处理的方式仅为举例, 其他现有的或今后可能出现。
42、的对所述目标页面所对应的候选描 述信息进行相应调整处理的方式如可适用于本发明, 也应包含在本发明保护范围以内, 并 在此以引用方式包含于此。 0034 本领域技术人员应能理解上述获得所述目标页面所对应的页面描述信息的方式 仅为举例, 其他现有的或今后可能出现的获得所述目标页面所对应的页面描述信息的方式 如可适用于本发明, 也应包含在本发明保护范围以内, 并在此以引用方式包含于此。 0035 信息确定设备 1 的各个装置之间是持续不断工作的。具体地, 分类装置 11 持续确 定待处理的目标页面所对应的分类相关信息 ; 确定装置 12 持续根据所述分类相关信息, 对 所述目标页面所对应的候选描述信。
43、息进行相应调整处理, 以获得所述目标页面所对应的页 面描述信息。在此, 本领域技术人员应当理解 “持续” 是指信息确定设备 1 的各装置分别不 断地进行分类相关信息的确定及页面描述信息的获取, 直至信息确定设备 1 在较长时间内 停止分类相关信息的确定。 0036 优选地, 信息确定设备1还包括模型建立装置(未示出), 具体地, 模型建立装置根 据经标注分类信息的多个训练页面, 进行机器学习处理, 以获得用于页面分类的页面分类 模型 ; 其中, 分类装置 11 根据所述页面分类模型, 基于所述目标页面的页面相关信息, 确定 所述分类相关信息。 0037 具体地, 模型建立装置根据经标注分类信息。
44、的多个训练页面, 进行机器学习处理, 以获得用于页面分类的页面分类模型。例如, 假设经标注分类信息的多个训练页面如下 : 0038 I : 划船比赛作文范文 0039 http:/ 虚拟主题 0040 II : sina/ 读书 / 小说馆 / 世界名著 /基督山伯爵 0041 http:/ 虚拟主题 0042 III : 北京口腔专家 - 好大夫在线 0043 http:/ ? 0044 province beijing, 精确匹配对象 0045 IV : sina 体育新闻 http:/ 失配对象 0046 V : sina 财经新闻 http:/ 失配对象 0047 VI : 唯品网数码。
45、配件 0048 http:/ ?, 广义匹配对象 0049 VII : 当当网个护产品 http:/ 广义匹配对象则模型建 立装置根据该经标注分类信息的多个训练页面, 进行机器学习处理, 如对所述训练集进行 线性回归分析、 或者对所述训练集进行非线性回归分析等方式, 获得用于页面分类的页面 分类模型如决策树, 该决策树的每一节点对应于每一页面分类, 其中, 所述页面分类包括多 个所述训练页面, 如页面分类如虚拟主题分类包括页面 I 与 II、 精确匹配对象分类包括页 说 明 书 CN 102999576 A 11 7/26 页 12 面 III、 失配对象分类包括页面 IV 与 V、 广义匹配。
46、对象分类包括页面 VI 和 VII。 0050 接着, 分类装置 11 根据所述页面分类模型, 基于所述目标页面的页面相关信息, 确定所述分类相关信息。在此, 所述页面相关信息包括但不限于如页面主体内容类别、 页 面结构特征等。例如, 假设分类装置 11 首先获取的待处理的目标页面为 “划船比赛作文范 文” http:/ 则分类装置 11 可根据模型建立装 置获得的所述页面分类模型, 基于该目标页面的页面相关信息如页面主体内容信息, 将该 目标页面的页面主体内容类别与所述页面分类模型中每一页面分类所包括的训练页面的 页面主体内容类别相比较, 如假设确定该目标页面的页面主体内容类别为作文类型, 与虚 拟主题的页面分类所包括的训练页面的页面内容类别相一致, 则分类装置 11 确定该目标 页面的所述分类相关信息为虚拟主题。 0051 优选地, 信息确定设备1还包括搜索处理装置(未示出), 具体地, 搜索处理装置首 先获取与查询序列相对应的一个或多个搜索结果 ; 然后, 根据所述搜索结果所对应页面的 页面描述信息与所述查询序列的匹配度信息, 对所述一。