《一种网页标题的抽取方法与装置.pdf》由会员分享,可在线阅读,更多相关《一种网页标题的抽取方法与装置.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102929882 A (43)申请公布日 2013.02.13 CN 102929882 A *CN102929882A* (21)申请号 201110227641.7 (22)申请日 2011.08.09 G06F 17/30(2006.01) (71)申请人 阿里巴巴集团控股有限公司 地址 英属开曼群岛大开曼岛资本大厦一座 四层 847 号邮箱 (72)发明人 陈宏杰 张小洵 薛贵荣 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 逯长明 王宝筠 (54) 发明名称 一种网页标题的抽取方法与装置 (57) 摘要 本发明提供了一种网页标题。
2、抽取方法。该方 法包括 : 确定检索词在网页标题中的位置 ; 判断 网页标题的首字符到所述检索词的末字符的长度 是否小于等于预设标题呈现长度, 如果否, 则查找 断句符, 当网页标题中的一段文字的文字长度小 于等于预设标题呈现长度且包含完整检索词和查 找到的断句符时, 将相应文字作为结果返回。 本发 明还提供了一种网页标题抽取装置。本发明呈现 出来的网页标题, 既具有较强的可读性和保留了 较多的核心信息, 又带有 “标红” 记号便于检索者 快速获得检索内容。 (51)Int.Cl. 权利要求书 2 页 说明书 9 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权。
3、利要求书 2 页 说明书 9 页 附图 3 页 1/2 页 2 1. 一种网页标题的抽取方法, 其特征在于, 该方法包括 : 确定检索词在网页标题中的位置 ; 判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题 呈现长度, 如果是, 则自网页标题起始位置度量预设标题呈现长度, 将该对应位置前的文字 作为结果返回 ; 如果否, 则 : 查找断句符, 当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含 完整检索词和查找到的断句符时, 将所述一段文字作为结果返回。 2. 根据权利要求 1 所述的方法, 其特征在于, 当所述查找到的断句符包括位于检索词 之前的前断句符。
4、时, 则 : 将网页标题中的文字长度小于等于预设标题呈现长度且包含完整 检索词和前断句符的一段文字作为结果返回。 3. 根据权利要求 1 所述的方法, 其特征在于, 当所述查找到的断句符包括位于检索词 之后的后断句符时, 则 : 将网页标题中的文字长度小于等于预设标题呈现长度且包含完整 检索词和后断句符的一段文字作为结果返回。 4. 根据权利要求 1 所述的方法, 其特征在于, 当所述查找到的断句符包括位于检索词 之前的前断句符和位于检索词之后的后断句符时, 则 : 将网页标题中的文字长度小于等于 预设标题呈现长度且包含完整检索词、 前断句符和后断句符的一段文字作为结果返回。 5. 根据权利要。
5、求 1 所述的方法, 其特征在于, 在将网页标题中的文字长度小于等于预 设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时, 该方法 还包括 : 从该段文字的首字符向前寻找第一位置, 将第一位置到该段文字的首字符之间的文字 同该段文字一起作为结果返回, 所述第一位置到该段文字的末字符间的文字长度小于等于 预设标题呈现长度 ; 或, 从该段文字的末字符向后寻找第二位置, 将该段文字的末字符到第二位置之间的文字 同该段文字一起作为结果返回, 所述第二位置到该段文字的首字符间的文字长度小于等于 预设标题呈现长度 ; 或, 从该段文字的首字符向前寻找第三位置, 从该段文字的末字符向。
6、后寻找第四位置, 将 第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同 该段文字一起作为结果返回, 所述第三位置到第四位置间的文字长度小于等于预设标题呈 现长度。 6. 根据权利要求 1 所述的方法, 其特征在于, 所述方法还包括 : 当网页标题中不存在 文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时, 则 : 自网页标题起始位置度量预设标题呈现长度, 将该对应位置前的文字作为结果返回。 7. 一种网页标题的抽取装置, 其特征在于, 该装置包括 : 检索词位置确定单元、 判断单元、 断句符查找单元、 第一匹配单元和结果返回单元, 其 中。
7、 : 所述检索词位置确定单元, 用于确定检索词在网页标题中的位置 ; 所述判断单元, 用于判断网页标题的首字符到所述检索词的末字符间的文字长度是否 小于等于预设标题呈现长度, 如果是, 则触发结果返回单元 ; 如果否, 则触发断句符查找单 元 ; 权 利 要 求 书 CN 102929882 A 2 2/2 页 3 所述断句符查找单元, 用于查找断句符 ; 所述第一匹配单元, 用于当网页标题中的一段文字的文字长度小于等于预设标题呈现 长度且包含完整检索词和查找到的断句符时, 触发结果返回单元。 所述结果返回单元, 用于在受到判断单元触发时, 自网页标题起始位置度量预设标题 呈现长度, 将该对应。
8、位置前的文字作为结果返回 ; 在受到第一匹配单元触发时, 将相应文字 作为结果返回。 8. 根据权利要求 7 所述的装置, 其特征在于, 当所述断句符查找单元查找到的断句符 包括位于检索词之前的前断句符和位于检索词之后的后断句符时, 则 : 所述结果返回单元 用于将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、 前断句符和 后断句符的一段文字作为结果返回。 9. 根据权利要求 7 所述的装置, 其特征在于, 所述结果返回单元在受到触发将网页标 题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段 文字作为结果返回时, 该单元还用于 : 从该段文字的首字符。
9、向前寻找第一位置, 将第一位置到该段文字的首字符之间的文字 同该段文字一起作为结果返回, 所述第一位置到该段文字的末字符间的文字长度小于等于 预设标题呈现长度 ; 或, 从该段文字的末字符向后寻找第二位置, 将该段文字的末字符到第二位置之间的文字 同该段文字一起作为结果返回, 所述第二位置到该段文字的首字符间的文字长度小于等于 预设标题呈现长度 ; 或, 从该段文字的首字符向前寻找第三位置, 从该段文字的末字符向后寻找第四位置, 将 第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同 该段文字一起作为结果返回, 所述第三位置到第四位置间的文字长度小于等于预设标题呈 现。
10、长度。 10. 根据权利要求 7 所述的装置, 其特征在于, 所述装置还包括第二匹配单元, 用于当 网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断 句符的一段文字时, 触发结果返回单元, 则 : 所述结果返回单元还用于在受到第二匹配单元 触发时, 自网页标题起始位置度量预设标题呈现长度, 将该对应位置前的文字作为结果返 回。 权 利 要 求 书 CN 102929882 A 3 1/9 页 4 一种网页标题的抽取方法与装置 技术领域 0001 本发明涉及检索技术领域, 尤其涉及一种网页标题的抽取方法与装置。 背景技术 0002 随着互联网技术的发展, 网络信息呈爆。
11、炸性增长。 在信息海洋中, 人们为获得特定 信息往往依赖信息检索技术。通过输入待了解信息的检索词, 搜索引擎即可将包含该检索 词内容呈现在检索者面前, 呈现形式通常是以网页标题形式显示每个检索结果项, 网页标 题下附有一段包含检索词的简短文字, 人们点击该标题便可方便地链接到包含检索词的详 细页面。为加速查找与方便阅览, 网页标题通常还将检索词进行 “标红” 处理。然而, 网页 标题作为获取特定信息的重要窗口, 呈现在人们面前的网页标题不一定是真实标题的全部 内容, 标题中也可能不含检索词, 从而也没有 “标红” 记号。这种情形在一些超长的网页标 题中经常出现 : 由于搜索引擎无法将超长的网页。
12、标题全部显示出来, 搜索引擎在搜出相关 网页后, 将按照预设的网页标题呈现长度对网页标题进行截断处理, 即是从网页标题的起 始位置算起, 将预设呈现标题长度内的文字作为网页标题, 丢弃后面的标题内容。 尽管截断 后的剩余标题从网页标题是从标题起始位置开始的一段文字, 保持了较好的可读性, 且大 多数情况下也能保留下网页标题的核心信息。但是, 当检索词出现在网页标题截断处之后 时, 网页标题中就没有 “标红” 信息, 这些没有 “标红” 处理的网页标题将排序到整个搜索结 果的靠后位置, 妨碍了检索者快捷地获取欲检索的信息内容, 大大降低了用户体验。 发明内容 0003 有鉴于此, 本发明的发明目。
13、的在于提供一种网页标题的抽取方法与装置, 通过以 检索词为中心查找检索词前后的断句符, 将在断句符之间的包含检索词的文字作为结果返 回, 以确保呈现出来的网页标题既具有较强的可读性和尽可能保留核心信息, 又能带有 “标 红” 记号便于快速获得检索内容。 0004 本发明提供的一种网页标题的抽取方法包括 : 0005 确定检索词在网页标题中的位置 ; 0006 判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈 现长度, 如果是, 则自网页标题起始位置度量预设标题呈现长度, 将该对应位置前的文字作 为结果返回 ; 如果否, 则查找断句符, 当网页标题中的一段文字的文字长度小于等。
14、于预设标 题呈现长度且包含完整检索词和查找到的断句符时, 将相应文字作为结果返回。 0007 优选地, 所述查找到的断句符包括位于检索词之前的前断句符时, 则 : 将网页标题 中的文字长度小于等于预设标题呈现长度且包含完整检索词和前断句符的一段文字作为 结果返回。 0008 优选地, 所述查找到的断句符包括位于检索词之后的后断句符时, 则 : 将网页标题 中的文字长度小于等于预设标题呈现长度且包含完整检索词和后断句符的一段文字作为 结果返回。 说 明 书 CN 102929882 A 4 2/9 页 5 0009 优选地, 所述查找到的断句符包括位于检索词之前的前断句符和位于检索词之后 的后断。
15、句符时, 则 : 将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索 词、 前断句符和后断句符的一段文字作为结果返回。 0010 优选地, 在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索 词和查找到的断句符的一段文字作为结果返回时, 所述方法还包括 : 0011 从该段文字的首字符向前寻找第一位置, 将第一位置到该段文字的首字符之间的 文字同该段文字一起作为结果返回, 所述第一位置到该段文字的末字符间的文字长度小于 等于预设标题呈现长度 ; 或, 0012 从该段文字的末字符向后寻找第二位置, 将该段文字的末字符到第二位置之间的 文字同该段文字一起作为结果返回, 所述。
16、第二位置到该段文字的首字符间的文字长度小于 等于预设标题呈现长度 ; 或, 0013 从该段文字的首字符向前寻找第三位置, 从该段文字的末字符向后寻找第四位 置, 将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文 字同该段文字一起作为结果返回, 所述第三位置到第四位置间的文字长度小于等于预设标 题呈现长度。 0014 优选地, 所述方法还包括 : 当网页标题中不存在文字长度小于等于预设标题呈现 长度且包含完整检索词和查找到的断句符的一段文字时, 则 : 自网页标题起始位置度量预 设标题呈现长度, 将该对应位置前的文字作为结果返回。 0015 本发明还提供了一种网页标题。
17、的抽取装置, 该装置包括 : 0016 检索词位置确定单元、 判断单元、 断句符查找单元、 第一匹配单元和结果返回单 元, 其中 : 0017 所述检索词位置确定单元, 用于确定检索词在网页标题中的位置 ; 0018 所述判断单元, 用于判断网页标题的首字符到所述检索词的末字符间的文字长度 是否小于等于预设标题呈现长度, 如果是, 则触发结果返回单元 ; 如果否, 则触发断句符查 找单元 ; 0019 所述断句符查找单元, 用于查找断句符 ; 0020 所述第一匹配单元, 用于当网页标题中的一段文字的文字长度小于等于预设标题 呈现长度且包含完整检索词和查找到的断句符时, 触发结果返回单元。 0。
18、021 所述结果返回单元, 用于在受到判断单元触发时, 自网页标题起始位置度量预设 标题呈现长度, 将该对应位置前的文字作为结果返回 ; 在受到第一匹配单元触发时, 将相应 的文字作为结果返回。 0022 优选地, 所述断句符查找单元查找到的断句符包括位于检索词之前的前断句符和 位于检索词之后的后断句符时, 则 : 所述结果返回单元用于将网页标题中的文字长度小于 等于预设标题呈现长度且包含完整检索词、 前断句符和后断句符的一段文字作为结果返 回。 0023 优选地, 所述结果返回单元在受到触发将网页标题中的文字长度小于等于预设标 题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回。
19、时, 该单元还用 于 : 0024 从该段文字的首字符向前寻找第一位置, 将第一位置到该段文字的首字符之间的 说 明 书 CN 102929882 A 5 3/9 页 6 文字同该段文字一起作为结果返回, 所述第一位置到该段文字的末字符间的文字长度小于 等于预设标题呈现长度时 ; 或, 0025 从该段文字的末字符向后寻找第二位置, 将该段文字的末字符到第二位置之间的 文字同该段文字一起作为结果返回, 所述第二位置到该段文字的首字符到间的文字长度小 于等于预设标题呈现长度时 ; 或, 0026 从该段文字的首字符向前寻找第三位置, 从该段文字的末字符向后寻找第四位 置, 将第三位置到该段文字的。
20、首字符之间的文字和该段文字的末字符到第四位置之间的文 字同该段文字一起作为结果返回, 第三位置到第四位置间的文字长度小于等于预设标题呈 现长度时。 0027 优选地, 所述装置还包括第二匹配单元, 用于当网页标题中不存在文字长度小于 等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时, 触发结果返回 单元, 则 : 所述结果返回单元还用于在受到第二匹配单元触发时, 自网页标题起始位置度量 预设标题呈现长度, 将该对应位置前的文字作为结果返回。 0028 本发明的技术方案在确定检索词的位置后, 首先判定网页标题的首字符到检索词 的末字符间的文字长度是否小于等于预设标题呈现长度, 如。
21、果否, 则查找断句符, 然后确定 网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的 断句符的一段文字, 当满足该条件的文字块存在时, 将其作为结果返回。与现有技术相比, 本发明抛弃了无论检索词所处何位置均从网页标题起始位置计算预设标题呈现长度后截 断标题的做法, 而是以包含检索词、 断句符且满足匹配条件的方式去呈现结果, 这样既能保 证呈现出来的网页标题具有较强的可读性和保留较多的核心信息, 又能使网页标题带有 “标红” 记号, 从而方便了检索者快速地获得欲检索内容, 提高和改善了用户体验, 解决了现 有技术的技术问题。 附图说明 0029 图 1 为本发明的方法的。
22、一个实施例的流程图 ; 0030 图 2 为图 1 所示的实施例的一个网页标题抽取实例图 ; 0031 图 3 为本发明的方法的又一个实施例的流程图 ; 0032 图 4 为本发明的方法的再一个实施例的流程图 ; 0033 图 5 为本发明的装置的实施例的组成框图。 具体实施方式 0034 本发明的主要思想是 : 在确定检索词位置后, 首先判定网页标题的首字符到检索 词的末字符间的文字长度是否小于等于预设标题呈现长度, 如果否, 则查找断句符, 然后确 定网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到 的断句符的一段文字, 当满足该条件的文字块存在时, 将其作为结果。
23、返回。 0035 为使本领域技术人员进一步了解本发明的特征及技术内容, 下面结合附图和实施 例, 对本发明的技术方案进行详细描述。 0036 检索者根据欲获取的信息选择好检索词后, 将检索词输入检索框, 搜索引擎通常 很短的时间内即可在海量网页中找到关于该检索词的相关内容, 这些内容将并不直接反馈 说 明 书 CN 102929882 A 6 4/9 页 7 给检索者, 搜索引擎需要做一些处理操作, 比如, 提取检索网页的网页标题, 对超长的网页 标题进行截断, 将网页标题中的检索词 “标红” , 对所有检索结果项进行排序等等。这些操 作中需要关注的是 : 对超长网页标题进行截断的操作, 网页。
24、标题截断后可能引起三种后果 : (1) 可读性变差 : 因为网页标题通常是完整的句子, 表达某种完整含义, 如果截断方法选择 不当, 被截断后的剩余标题内容将丢失某些信息, 损害到原来语义的准确表达, 从而影响可 读性 ; (2) 核心信息丢失 : 网页标题的核心信息通常反映在几个关键的词上, 当网页标题很 长时, 有些文字可能是对另一些文字的注释、 修饰, 比如主标题与幅标题的关系, 书名与书 评的关系等, 如果截断方法选择不当, 很可能丢失掉网页标题的核心信息 ; (3) 没有 “标红” 检索词 : 网页标题中有 “标红” 记号的是检索词, 如果截断的位置选取不当, 将含有检索词的 部分给。
25、截掉, 从而导致网页标题没有 “标红” , 这样不仅降低了用户体验, 而且可能导致该项 检索结果被排到所有检索结果的靠后位置。 由此可见, 在对网页标题进行截断处理时, 需要 同时兼顾到上述三方面的要求。现有技术的做法是从网页标题的起始位置算起, 在预设标 题呈现长度对应的文字处进行截断。这种做法通常能满足可读性要求, 可读性是否好取决 于文字是否流畅, 人们的书写习惯从左至右、 句子含义的呈现也是从左至右, 因此, 选取截 断处前面的文字通常能表达出一个相对完整的意思。但是, 该方法大多数情况下不能实现 核心信息保留和 “标红” 的目的 : 按照语言表达习惯, 写在前面的文字多是修饰限定性用。
26、语, 核心内容往往在中间或靠后的位置出现, 上述不考虑核心信息可能位置而均从起始位置开 始算截断处, 极有可能丢失核心信息 ; 对于那些检索词靠后的网页标题, 由于预设标题呈现 长度的限制, 检索词也可能给截断掉, 导致没有 “标红” 。为解决上述技术问题, 本发明的实 施例提供了一种网页标题的抽取方法, 该方法既能保证呈现出来的网页标题具有较强的可 读性和保留较多的核心信息, 又能使网页标题带有 “标红” 记号, 从而方便检索者快速地获 得欲检索内容, 提高和改善用户体验。参见附图 1, 本发明的实施例给出的网页标题抽取方 法包括 : 0037 步骤 S101 : 确定检索词在网页标题中的位。
27、置 ; 0038 检索词是用户输入的欲获取特定信息的关键词, 搜索引擎通常会优先考虑将那些 网页标题中包含检索词的网页给检索出来, 因为这些网页描述该检索词相关内容的可能性 极大 ; 确定检索词在网页标题中的位置对于现在技术而言, 实现起来并非难事, 比如首先对 网页标题进行分词, 然后在进行逐一匹配, 进而查找到检索词的位置 ; 此处简要说明下 “网 页标题” 的概念, 网页标题并不仅仅指网页中文章的标题, 而且包括在每个网页的标题栏处 显示的 “网页标题” , 对于那些没有明显文章标题的网页, 搜索引擎通常也能抓取到比较贴 近该网页内容的语句, 并将此作为网页标题, 比如, 对于网络上的论。
28、坛, 大多数帖子可能并 不包含文章标题, 但此时, 搜索引擎会将该帖子的主题作为网页标题显示在网页标题栏中, 进而呈现在搜索结果列表上。 0039 步骤 S102 : 判断网页标题的首字符到所述检索词的末字符间的文字长度是否 小于等于预设标题呈现长度, 如果是, 则执行步骤 S102(a) : 自网页标题起始位置度量预 设标题呈现长度, 将该对应位置前的文字作为结果返回, 结束流程 ; 如果否, 则执行步骤 S102(b) : 查找断句符, 进入步骤 S103 ; 0040 预设标题呈现长度是指在搜索结果列表中显示出来的网页标题, 对于超长的网页 标题, 搜索引擎通常会进行预处理, 仅呈现出合。
29、适长度的标题文字 ; 该预设标题呈现长度尽 说 明 书 CN 102929882 A 7 5/9 页 8 管跟搜索引擎的技术水平有关, 越好的搜索引擎显示的标题文字长度可能会越长, 但均受 限制, 而网页标题的长度几乎没有限制, 网民可以根据自己的喜欢编辑标题, 因而, 对于超 长的标题通常均会涉及标题的截断问题 ; 在确定了检索词在网页标题中的长度后, 判断网 页标题的首字符到检索词的末字符之间的长度, 如果不大于预设标题呈现长度, 即可从网 页标题起始位置数到预设标题长度处进行截断, 该截断下来的 “剩余标题” 包含有检索词, 将出现 “标红” , 同时由于是从头到截断处, 因此也能具有较。
30、好的可读性, 预设标题长度的长 度值也能较好地保证截断后的 “剩余标题” 保留核心信息 ; 如果上述判断是否定的, 仍采取 上述的截断方法则不妥, 这时本实施例选择查找该网页标题中的断句符, 断句符起到断句 的作用, 包含断句符的文字通常能保留完整的文字含义, 这里的 “断句符” 包括通常语言习 惯中使用的各种标点符号, 还包括一段文字开始的 “段首控制符” 和段尾的 “段尾控制符” , 如回车符, 当在网页标题中未查找到别的 “断句符” 时, 将以 “段首控制符” 或 “段尾控制符” 为断句符。 0041 步骤 S103 : 当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且 包含完。
31、整检索词和查找到的断句符时, 将相应文字作为结果返回, 结束流程。 0042 由于断句符包含在网页标题之中, 从关注整个网页标题到关注网页标题中包含检 索词和断句符的小段文字块, 关注的文字长度必然大为缩短, 这样, 包含检索词和断句符的 文字块长度则存在极大的可能小于等于预设标题呈现长度 ; 如果包含完整检索词和查找 到的断句符的一段文字的文字长度小于等于预设标题呈现长度, 则将该段文字作为结果返 回, 这样抽取得到的网页标题不仅可保持较好可读性、 保留核心信息, 而且具有 “标红” 的检 索词。 0043 本实施例的技术方案在确定检索词的位置后, 首先判定网页标题的首字符到检索 词的末字符。
32、间的文字长度是否小于等于预设标题呈现长度, 如果否, 则查找断句符, 然后确 定网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到 的断句符的一段文字, 当满足该条件的文字块存在时, 则将其作为结果返回。 与现有技术相 比, 本发明抛弃了无论检索词所处何位置均从网页标题起始位置计算预设标题呈现长度后 截断标题的做法, 而是以判定包含检索词、 断句符一段文字匹配相应条件的方式去呈现结 果, 这样既能保证呈现出来的网页标题具有较强的可读性和保留较多的核心信息, 又能使 网页标题带有 “标红” 记号, 从而方便了检索者快速地获得欲检索内容, 提高和改善了用户 体验, 解决了现。
33、有技术的技术问题。 0044 为进一步阐释上述实施例, 下面举例说明。参见附图 2 所示的实例图, 假设检索者 想了解有关专利法书籍的信息, 设定检索词为 “专利法” , 海量网页信息中恰好存在这样的 一篇评论文章 : 国家知识产权局尹新天的 中国专利法详解 市价越来越趋向合理。搜索引 擎根据 “专利法” 这一检索词搜索出该文章后, 将上述标题长度 (29 个字符 ) 与预设标题呈 现长度进行比较, 通常而言, 预设标题长度可达到几十甚至上百的长度, 如果网页标题长度 小于预设标题长度则将上述标题呈现出来, 标题中的 “专利法” 三字被标红, 并在该标题下 面呈现相关文字, 检索者点击标题即可。
34、获得该篇文章全文。 为方便阐释本发明实施例起见, 这里的预设标题呈现长度为 14 个字符。按照现有技术的做法, 由于网页标题长 29 个字符, 大于预设的标题长度, 搜索引擎将从该文章标题的起始位置起算 14 个字符后截断, 并将截 断处前的文字作为网页标题呈现出来, 即网页标题为 :“国家知识产权局尹新天的 中国” 。 说 明 书 CN 102929882 A 8 6/9 页 9 该呈现出来的标题文字顺序自左向右, 我们能够容易的知道 “剩余标题” 的含义, 也可以获 知一定的核心信息, 如 “尹新天” 、“中国” , 但是, 该呈现出来的网页标题截断了检索词, 没有 “标红” 记号, 降低。
35、了用户体验, 且该网页将被搜索引擎排序到靠后的位置, 然而该文章和检 索者需要检索的主题有较大的相关性, 顺序靠前将有利于检索者迅速发现该文章, 提高用 户检索体验。 为解决上述问题, 本实施例首先在网页标题中确定检索词 “专利法” 的位置, 然 后判断网页标题首字符到检索词的末字符的长度是否小于等于预设标题呈现长度, 即判断 “国” 到 “法” 的长度是否小于等于 14 个字符,“国” 到 “法” 共 17 个字符, 显然大于预设标题 长度, 这时, 则从检索词 “专利法” 向前向后查找断句符, 向前查找到断句符 “ ” , 向后查找到 断句符 “ ” , 然后再判断前断句符到后断句符间的长。
36、度是否小于等于预设标题呈现长度, 即 判断 “ ” 到 “ ” 之间的文字长度是否小于等于 14 个字符,“ ” 到 “ ” 间共 7 个字符, 显然 小于预设标题长度, 这时, 则将前断句符 “ ” 到后断句符 “ ” 间的 “中国专利法详解” 作为 结果返回, 该返回的结果中包含了检索词 “专利法” , 且被 “标红” , 同时该结果具有较好的可 读性, 也保留下核心信息, 如 “中国” 、“专利法” 。 0045 上述所举的具体事例中, 为方便理解, 我们将查找到的断句符设定为既包括位于 检索词之前的前断句符, 又包括位于检索词之后的后断句符, 且在判定网页标题中是否存 在一段文字的文字。
37、长度小于等于预设标题呈现长度时, 所述的一段文字的起点是前断句 符、 终点是后断句符, 并将两个断句符间的文字作为结果返回。这里需要说明的是 : (1) 对 于查找断句符的方式问题, 实际上, 本发明并不限定必须像上述实例中向两个方向同时查 找两个断句符, 查找的方向可以仅是由检索词向前查找前断句符, 也可以仅是由检索词向 后查找后断句符, 甚至还可以从网页标题的起始位置开始查找前后断句符, 抑或从网页标 题的结束位置开始查找亦无不可, 无论采取哪种查找方式, 其最终的目的在于找到断句符, 以便于进行下一步的条件匹配操作 ; (2) 对于返回的一段文字的起点、 终点问题, 实际上, 本发明同样。
38、不限定必须像上述实例中以断句符为起始和终结位置, 根据现实需要, 完全可 以将前断句符再靠前的一个或数个字符所在位置作为该一段文字的起点, 或者将后断句符 再靠后的一个或数个字符所在位置作为该一段文字的终点, 只要该段文字包含检索词和至 少一个断句符, 且该段文字的文字长度满足小于等于预设标题呈现长度的条件, 均不妨碍 本发明的发明目的的实现, 阅读本专利的人员可以这样形象地理解上述内容 : 以小于等于 预设标题呈现长度的长度值做一个方框, 只要这个方框框到的文字包含检索词和至少一个 断句符, 则可将相应的文字作为结果返回。 0046 因此, 在上述实施例的步骤 S103 中, 不仅可以具体化。
39、为前断句符到后断句符间的 文字长度与预设标题呈现长度之间的关系, 实际上, 如果将步骤 S103 具体化为前断句符到 检索词末字符间的文字长度、 检索词首字符到后断句符间的文字长度与预设标题呈现长度 进行比较同样能实现本发明的发明目的, 即当前断句符到检索词末字符间的文字长度小于 等于预设标题呈现长度且包含检索词和前断句符, 或, 当检索词首字符到后断句符间的文 字长度小于等于预设标题呈现长度且包含检索词和后断句符, 将相应的文字作为结果返 回。 0047 尽管前述实施例通过比较符合匹配条件的一段文字的文字长度与预设标题呈现 长度间大小的方式已能实现本发明的发明目的, 较好地解决现有技术的问题。
40、。 但是, 我们能 够发现 : 作为结果返回的一段文字可能比预设标题长度小很多, 比如上例中预设标题长度 说 明 书 CN 102929882 A 9 7/9 页 10 为14个字符, 而呈现出来的网页标题仅7个字符, 对于剩余的7个字符的位置实际上被 “废 弃” , 这样导致呈现预设标题的信息量较少, 一个可靠的办法是在上述结果基础上进行文字 追加, 使得返回的结果尽可能接近甚至等于预设标题的长度, 检索者由此仅仅通过标题便 可获知更多关于检索词的信息。 有鉴于此, 本发明还构建出符合上述描述的又一个实施例。 参见附图2和3所示, 该实施例在上述实施例将符合匹配条件的一段文字作为结果返回时,。
41、 从该段文字的首字符向前寻找第一位置, 将第一位置到该段文字之间的文字同该段文字一 起作为结果返回, 所述第一位置为第一位置到该段文字的末字符间的文字长度小于等于预 设长度时对应的位置。下面仍以前述实例进行说明 : 通过查找前后的 “断句符” 得到 “中国 专利法详解” 后, 将该结果返回时, 由前断句符 “ ” 向前继续查找第一位置, 该第一位置到后 断句符间的文字长度小于等于预设长度 14 个字符, 查找到 “产” 字时满足上述要求, 这时将 “产” 字到前断句符间的文字 “产权局尹新天的” 与先前的 “中国专利法详解” 一起作为结果 返回, 即呈现出来的网页标题为 “产权局尹新天的中国专。
42、利法详解” , 这样则在预设标题呈 现长度范围内最大限度内呈现出专利法的相关信息, 有利于检索者仅仅根据该网页标题就 能获知更多需要内容。 0048 同样的道理, 除可以由作为结果返回的一段文字的首字符向前查找第一位置外 (方式一), 还可以由该段文字的末字符向后查找第二位置(方式二), 也能充分利用预设标 题呈现长度与前述实施例返回结果文字长度间的差值长度。该过程如下 : 在将网页标题中 的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字 作为结果返回时, 从后该段文字的末字符向后寻找第二位置, 将该段文字末字符到第二位 置之间的文字同该段文字一起作为结果返回, 所。
43、述第二位置为该段文字首字符到第二位置 间的文字长度小于等于预设长度时对应的位置。 0049 实际上, 上述或向前或向后的两种查找差值长度的字符填补预设标题呈现长度的 做法还可联合使用, 即向前查找一定长度的字符, 向后查找一定长度的字符, 使得三段字符 串的总和长度等于预设标题呈现长度, 即第三位置到该段文字首字符的文字长度 + 该段文 字的文字长度 + 该段文字的末字符到第四位置间的文字长度预设标题呈现长度, 这里 的第三位置和第四位置为第三位置到第四位置间的文字长度小于等于预设标题呈现长度 时对应的位置。实际搜索引擎可以根据需要选择上述三种方式中的任何一种, 均不妨碍本 发明的发明目的的实。
44、现。 0050 在前述的两个实施例中, 主要关注了网页标题中包含检索词和断句符的一段文字 的文字长度小于等于预设标题呈现长度的情况, 这种情形在实际应用场合占据大部分, 原 因在于预设标题长度通常其本身较长, 而网页标题内的断句符仅是网页标题中的一部分文 字, 因此包含检索词和断句符间的文字大多数时候能够满足小于预设标题长度的要求。然 而, 本发明对于文字长度大于预设标题呈现长度的情况同样进行了考虑, 由此构成本发明 的再一个实施例。 当包含检索词和断句符的一段文字的文字长度小于等于预设标题呈现长 度时, 处理的方式与前述两个实施例相同, 当含检索词和断句符的一段文字的文字长度大 于预设标题呈。
45、现长度时, 本实施例按照现有技术的方式处理, 参见附图 4, 比如 : 自网页标 题起始位置度量预设标题呈现长度, 将该对应位置前的文字作为结果返回。 0051 上述介绍的几个实施例均是本发明的方法的实施例, 相应地, 本发明还提供了一 种网页标题提取装置的实施例。参见附图 5, 本发明提供的网页标题抽取装置的实施例 500 说 明 书 CN 102929882 A 10 8/9 页 11 包括 : 检索词位置确定单元 501、 判断单元 502、 断句符查找单元 503、 第一匹配单元 504 和 结果返回单元 505, 其中 : 0052 检索词位置确定单元 501, 用于确定检索词在网页。
46、标题中的位置 ; 0053 判断单元 502, 用于判断网页标题的首字符到所述检索词的末字符间的长度是否 小于等于预设标题呈现长度, 如果是, 则触发结果返回单元 ; 如果否, 则触发断句符查找单 元 ; 0054 断句符查找单元 503, 用于查找断句符 ; 0055 第一匹配单元 504, 用于当网页标题中的一段文字的文字长度小于等于预设标题 呈现长度且包含完整检索词和查找到的断句符时, 触发结果返回单元。 0056 结果返回单元 505, 用于在受到判断单元触发时, 自网页标题起始位置度量预设标 题呈现长度, 将该对应位置前的文字作为结果返回 ; 在受到第一匹配单元触发时, 将相应的 文。
47、字作为结果返回。 0057 本装置实施例 500 的工作过程是 : 检索词位置确定单元 501 确定检索词在网页标 题中的位置后, 由判断单元 502 判断网页标题的首字符到所述检索词的末字符间的长度是 否小于等于预设标题呈现长度, 如果是, 则触发结果返回单元 505, 由该单元自网页标题起 始位置度量预设标题呈现长度, 将该对应位置前的文字作为结果返回 ; 如果否, 则触发断句 符查找单元 503 查找断句符, 然后由第一匹配单元 504 在网页标题中的一段文字的文字长 度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时触发结果返回单元 505, 由该单元将相应的文字作为结果返回。
48、。 0058 本装置实施例 500 在确定检索词的位置后, 首先判定网页标题的首字符到检索词 的末字符间的文字长度是否小于等于预设标题呈现长度, 如果否, 则查找断句符, 然后确定 网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的 断句符的一段文字, 当满足该条件的文字块存在时, 将其作为结果返回。与现有技术相比, 本实施例抛弃了无论检索词所处何位置均从网页标题起始位置计算预设标题呈现长度后 截断标题的做法, 而是以检索词为中心、 断句符为截断点的方式去呈现结果, 这样既能保证 呈现出来的网页标题具有较强的可读性和保留较多的核心信息, 又能使网页标题带有 “标 红”。
49、 记号, 从而方便用户快速地获得欲检索内容, 提高和改善了用户体验。 0059 本装置实施例的断句符查找单元查找断句符可以仅是位于检索词之前的前断句 符, 也可以仅是位于检索词之后的后断句符, 还可以既包括前断句符, 又包括后断句符。当 所述断句符查找单元 503 查找到的断句符包括位于检索词之前的前断句符和位于检索词 之后的后断句符时, 则 : 结果返回单元 505 用于将网页标题中的文字长度小于等于预设标 题呈现长度且包含完整检索词、 前断句符和后断句符的一段文字作为结果返回。 0060 本装置实施例的结果返回单元 505 除具有上述的功能外, 在受到触发将网页标题 中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文 字作为结果返回时, 还可以用于 : 从该段文字的首字符向前寻找第一位置, 将第一位置到该 段文字的首字符之间的文字同该段文字一起作为结果返回, 所述第一位置为第一位置到该 段文字的末字符间的文字长度小于等于预设标题呈现长度时对应的位置 ; 或, 0061 从该段文字的末字。