《检索关键词纠错方法及装置.pdf》由会员分享,可在线阅读,更多相关《检索关键词纠错方法及装置.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201310416495.1 (22)申请日 2013.09.12 G06F 17/30(2006.01) (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区振兴路赛 格科技园 2 栋东 403 室 (72)发明人 覃武权 柳阳 李强 林松 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 代理人 韩建伟 吴贵明 (54) 发明名称 检索关键词纠错方法及装置 (57) 摘要 本申请公开了一种检索关键词纠错方法及装 置, 其中, 该方法包括 : 对待纠错语句进行分词得 到一个或多个关键词。
2、 ; 对一个或多个关键词进行 倒排索引得到语句集合 ; 将待纠错语句与语句集 合中的每个语句进行相似度比较 ; 将语句集合中 与待纠错语句相似度最高的语句作为纠错完成的 语句。本申请解决了用户在搜索引擎中提交无意 的错误输入, 导致用户不能正确搜索的问题, 提高 了用户的搜索体验。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书7页 附图4页 (10)申请公布号 CN 104462085 A (43)申请公布日 2015.03.25 CN 104462085 A 1/2 页 2 1. 一种检索关键词纠错方法, 其特征在于包括 : 对待。
3、纠错语句进行分词得到一个或多个关键词 ; 对所述一个或多个关键词进行倒排索引得到语句集合 ; 将所述待纠错语句与所述语句集合中的每个语句进行相似度比较 ; 将所述语句集合中与所述待纠错语句相似度最高的语句作为纠错完成的语句。 2. 根据权利要求 1 所述的方法, 其特征在于, 将所述待纠错语句与所述语句集合中的 每个语句进行相似度比较包括 : 将所述待纠错语句与所述语句集合中的所述每个语句进行编辑距离计算, 其中, 编辑 距离是指将所述待纠错语句转换成所述语句集合中的语句需要的最小编辑操作次数, 所述 语句集合中编辑距离最短的语句是与所述待纠错语句相似度最高的语句。 3. 根据权利要求 2 所。
4、述的方法, 其特征在于, 所述编辑操作包括 : 字符替换操作、 字符 插入操作、 字符删除操作。 4. 根据权利要求 1 所述的方法, 其特征在于, 对所述一个或多个关键词进行倒排索引 得到所述语句集合包括 : 从数据库中对所述一个或多个所述关键词进行倒排索引得到所述语句集合, 其中, 所 述数据库中保存有语句和所述语句对应的关键词之间的关联关系, 所述语句对应的关键词 是对所述语句进行分词得到的。 5. 根据权利要求 1 至 4 中任一项所述的方法, 其特征在于, 在对所述待纠错语句进行分词得到所述一个或多个关键词之前, 所述方法还包括 : 从 用户输入的检索串中提取出所述待纠错语句 ; 在。
5、将所述语句集合中与所述待纠错语句相似度最高的语句作为纠错完成的语句之后, 所述方法还包括 : 将所述检索串中的所述待纠错语句替换成所述纠错完成的语句 ; 使用替 换完成的检索串进行搜索。 6.根据权利要求1至4中任一项所述的方法, 其特征在于, 从所述检索串中提取出所述 待纠错语句包括 : 使用预先设置的信息从所述检索串中进行匹配 ; 前缀、 后缀、 文字描述模 板, 将匹配到的信息从所述检索串中删除得到所述待纠错语句。 7. 一种检索关键词纠错装置, 其特征在于包括 : 分词模块, 用于对待纠错语句进行分词得到一个或多个关键词 ; 索引模块, 用于对所述一个或多个关键词进行倒排索引得到语句集。
6、合 ; 比较模块, 用于将所述待纠错语句与所述语句集合中的每个语句进行相似度比较 ; 处理模块, 用于将所述语句集合中与所述待纠错语句相似度最高的语句作为纠错完成 的语句。 8. 根据权利要求 7 所述的装置, 其特征在于, 所述比较模块, 用于将所述待纠错语句与 所述语句集合中的所述每个语句进行编辑距离计算, 其中, 编辑距离是指将所述待纠错语 句转换成所述语句集合中的语句需要的最小编辑操作次数, 所述语句集合中编辑距离最短 的语句是与所述待纠错语句相似度最高的语句。 9. 根据权利要求 8 所述的装置, 其特征在于, 所述编辑操作包括 : 字符替换操作、 字符 插入操作、 字符删除操作。 。
7、10. 根据权利要求 7 所述的装置, 其特征在于, 所述索引模块用于从数据库中对所述一 权 利 要 求 书 CN 104462085 A 2 2/2 页 3 个或多个所述关键词进行倒排索引得到所述语句集合, 其中, 所述数据库中保存有语句和 该语句对应的关键词之间的关联关系, 该语句对应的关键词是对该语句进行分词得到的。 11. 根据权利要求 7 至 10 任一项所述的装置, 其特征在于, 所述装置还包括 : 提取模块, 用于从用户输入的检索串中提取出所述待纠错语句 ; 检索模块, 用于将所述检索串中的所述待纠错语句替换成所述纠错完成的语句, 并使 用替换完成的检索串进行搜索。 12. 根据。
8、权利要求 11 所述的装置, 其特征在于, 所述提取模块用于使用预先设置的信 息从所述检索串中进行匹配, 其中, 所述预先设置的信息包括以下至少之一 : 前缀、 后缀、 文 字描述模板, 并将匹配到的信息从所述检索串中删除得到所述待纠错语句。 权 利 要 求 书 CN 104462085 A 3 1/7 页 4 检索关键词纠错方法及装置 技术领域 0001 本申请涉及检索领域, 具体而言, 涉及一种检索关键词纠错方法及装置。 背景技术 0002 目前, 随着网络技术的发展, 通过互联网的手段来获取各种信息日益成为人们获 取时信息和知识的主要途径。在通过互联网获取信息时, 会使用搜索引擎。 00。
9、03 在使用搜索引擎的时候, 用户会输入关键词, 在输入关键词的时候, 一般是使用输 入法, 这有可能会导致输入的关键词中出现错别字。例如, 用户希望搜索达芬奇密码, 但是 由于使用的汉语拼音作为输入法, 用户错误的输入成了大分歧密码。 对于这种错误, 搜索引 擎可能无法搜索到相关的结果, 此时, 用户可能会发现自己输入错了, 然后重新输入正确的 达芬奇密码。还有另外一种情况, 用户希望搜索莫名其妙, 但是, 其在输入关键词的时候输 入错误, 输入成了莫明其妙, 此时搜索引擎可能也无法搜索到结果, 但是, 用户无法意识到 其输入的莫明其妙是错误的, 这时候用户会以为是搜索引擎的提供商的问题。从。
10、而降低了 用户体验。 0004 针对相关技术中的用户在搜索引擎中提交无意的错误输入导致用户不能正确搜 索的问题, 尚未提出解决方案。 发明内容 0005 本申请提供了一种检索关键词纠错方法及装置, 以至少解决用户在搜索引擎中提 交无意的错误输入, 导致用户不能正确搜索的问题。 0006 根据本申请的一个方面, 提供了一种检索关键词纠错方法, 该方法包括 : 对待纠错 语句进行分词得到一个或多个关键词 ; 对所述一个或多个关键词进行倒排索引得到语句集 合 ; 将所述待纠错语句与所述语句集合中的每个语句进行相似度比较 ; 将所述语句集合中 与所述待纠错语句相似度最高的语句作为纠错完成的语句。 00。
11、07 根据本申请的另一个方面, 还提供了一种检索关键词纠错装置, 该装置包括 : 分词 模块, 用于对待纠错语句进行分词得到一个或多个关键词 ; 索引模块, 用于对所述一个或多 个关键词进行倒排索引得到语句集合 ; 比较模块, 用于将所述待纠错语句与所述语句集合 中的每个语句进行相似度比较 ; 处理模块, 用于将所述语句集合中与所述待纠错语句相似 度最高的语句作为纠错完成的语句。 0008 通过本申请, 对待纠错语句进行分词得到一个或多个关键词 ; 对该一个或多个关 键词进行倒排索引得到语句集合 ; 将待纠错语句与语句集合中的每个语句进行相似度比 较 ; 将语句集合中与待纠错语句相似度最高的语。
12、句作为纠错完成的语句, 解决了用户在搜 索引擎中提交无意的错误输入导致用户不能正确搜索的问题, 提高了用户的搜索体验。 附图说明 0009 此处所说明的附图用来提供对本申请的进一步理解, 构成本申请的一部分, 本申 说 明 书 CN 104462085 A 4 2/7 页 5 请的示意性实施例及其说明用于解释本申请, 并不构成对本申请的不当限定。在附图中 : 0010 图 1 是根据本申请实施例的检索关键词纠错方法的流程图 ; 0011 图 2 是根据本申请实施例的使用了倒排索引的优选流程图 ; 0012 图 3 是根据本申请实施例的采用了距离比较的检索关键词纠错方法的流程图 ; 0013 图。
13、 4 是根据本申请实施例的提取关键词之后检索关键词纠错方法的流程图 ; 0014 图 5 是根据本申请实施例的检索关键词纠错装置的结构图 ; 0015 图 6 是根据本申请实施例的搜索引擎的查询纠错产品的示意图 ; 0016 图 7 是根据本申请实施例的搜索引擎的查询纠错产品的架构图。 具体实施方式 0017 需要说明的是, 在不冲突的情况下, 本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。 0018 需要说明的是, 在附图的流程示意图示出的步骤可以在诸如一组计算机可执行指 令的计算机系统中执行, 并且, 虽然在流程示意图中示出了逻辑顺序, 但是在。
14、某些情况下, 可以以不同于此处的顺序执行所示出或描述的步骤。 0019 在以下描述中, 除非另外指明, 否则将参考由一个或多个计算机执行的动作和操 作的符号表示来描述本申请的各实施例。其中, 计算机可以包括个人计算机、 服务器、 移动 终端等各种产品, 在以下实施例中, 使用了 CPU、 单片机、 DSP 等具有处理芯片的设备均可以 称为计算机。 由此, 可以理解, 有时被称为计算机执行的这类动作和操作包括计算机的处理 单元对以结构化形式表示数据的电信号的操纵。 这一操纵转换了数据或在计算机的存储器 系统中的位置上维护它, 这以本领域的技术人员都理解的方式重配置或改变了计算机的操 作。维护数据。
15、的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然 而, 尽管在上述上下文中描述本申请, 但它并不意味着限制性的, 如本领域的技术人员所理 解的, 后文所描述的动作和操作的各方面也可用硬件来实现。 0020 转向附图, 其中相同的参考标号指代相同的元素, 本申请的原理被示为在合适的 计算环境中实现。以下描述基于所述的本申请的实施例, 并且不应认为是关于此处未明确 描述的替换实施例而限制本申请。 0021 优选地, 本申请实施例可以提供一个其上存储有本申请实施例的机器可读媒体。 需要说明的是, 任一适合存储设计关于本申请的指令的媒体都在本申请的范围以内。 例如, 这样的媒体可以采用。
16、磁性媒体、 光学媒体或半导体媒体的形式。 0022 在本实施例中, 提供了一种检索关键词纠错方法, 图 1 是根据本申请实施例的检 索关键词纠错方法的流程图, 如图 1 所示, 该流程包括如下步骤 : 0023 步骤 S102, 对待纠错语句进行分词得到一个或多个关键词 ; 0024 步骤 S104, 对一个或多个关键词进行倒排索引得到语句集合 ; 0025 步骤 S106, 将待纠错语句与语句集合中的每个语句进行相似度比较 ; 0026 步骤 S108, 将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。 0027 通过上述步骤, 提供了一种纠错的方法, 在该纠错方法中采用了对整个。
17、待纠错语 句进行纠错的方式, 从而可以提高纠错的准确性, 提高了搜索引擎对用户检索意图的识别 能力。在上述步骤中, 还采用了倒排索引的方式, 这种索引方式执行效率比较高。 说 明 书 CN 104462085 A 5 3/7 页 6 0028 下面对倒排索引的方式进行说明。 0029 倒排索引源于实际应用中需要根据属性的值来查找记录。 这种索引表中的每一项 都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值, 而是 由属性值来确定记录的位置, 因而称为倒排索引 (inverted index)。带有倒排索引的文件 称为倒排索引文件, 可以简称为倒排文件 (inverted。
18、 file)。 0030 倒排文件 (倒排索引) 索引对象是文档或者文档集合中的单词等, 搜索引擎的关键 步骤就是建立倒排索引, 倒排索引一般表示为一个关键词, 然后, 还可以统计关键词的频度 (出现的次数) 、 位置 (出现在哪一篇文章或网页中, 及有关的日期, 作者等信息) 等排文件索 引结构。 0031 倒排索引有很多种实现方法, 在本实施例中提供了一种比较容易实现的一种方 法, 图 2 是根据本申请实施例的使用了倒排索引的优选流程图, 如图 2 所示, 该流程包括如 下步骤 : 0032 步骤 S200, 从数据库中对一个或多个关键词进行倒排索引得到关键词与语句的对 应关系, 将来用于。
19、得到步骤 S204 中的语句集合, 其中, 该数据库中保存有语句和该语句对 应的关键词之间的关联关系, 该语句对应的关键词是对该语句进行分词得到的 ; 0033 步骤 S202, 对待纠错语句进行分词得到一个或多个关键词 ; 0034 步骤 S204, 对一个或多个关键词进行倒排索引得到语句集合 ; 0035 步骤 S206, 将待纠错语句与语句集合中的每个语句进行相似度比较 ; 0036 步骤 S208, 将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。 0037 相比于图1中示出的步骤, 该图2中增加了步骤S200, 该步骤200是一种优选的倒 排索引的建立方式, 即对于某个语。
20、句, 先进行分词得到该语句的关键词, 通过这样的方式建 立起关键词与该语句的倒排索引。 0038 例如, 对于语句 “生命不能承受之轻” , 可以采用最简单的二元分词法, 对该语句分 完得到的关键词有 :“生命” “命不” “不能” “能承” “承受” “受之” “之轻” 。该语句还可 以拆分得到如下关键词 :“生命不” “命不能” “不能承” “能承受” “承受之” “受之轻” 。该 语句还可以拆分得到如下关键词 :“生命不能” “命不能承” “不能承受” “能承受之” “承受 之轻” 。 这些关键字均可以作为该语句的关键字, 或者可以只保留两个字的关键字作为关键 字, 或者只保留三个字的关。
21、键字作为关键字, 或者可以只保留四个字的关键字作为关键字。 0039 如果用户输入的语句是 “声明不能承受之情” , 那么, 对于该语句中进行分词可以 得到关键词, 得到的关键词可以有很多, 以 “声明” “不能” “承受之情” 为例进行说明。通过 “声明” 是无法检索到正确的 “生命不能承受之轻” 的, 通过 “承受之情” 也是无法检索到正 确的 “生命不能承受之轻” 的。但是通过 “不能” 是可以检索到该 “生命不能承受之轻” 的, 通过 “不能” 还可以检索到多个词语, 例如,“不能消失的电波” “不能忽略的爱恋” “爱情不 能是生命的全部” “生命不能承受之轻” 等, 通过相似度比较,。
22、 确认 “声明不能承受之情” 与 “生命不能承受之轻” 是最接近的。因此, 使用 “生命不能承受之轻” 对用户的输入的语句进 行修正。 0040 在上个例子, 还可以引入位置的概念。例如, 如果采用二元分词法的话,“不能” 是 位于第二个位置的, 此时, 倒排索引检索到的语句中不能也应该是在第二个位置的, 此时, 就可以忽略 “不能消失的电波” “不能忽略的爱恋” , 仅将用户输入的 “声明不能承受之情” 说 明 书 CN 104462085 A 6 4/7 页 7 与 “爱情不能是生命的全部” “生命不能承受之轻” 进行比较即可。这样可以减少相似度比 较的工作量, 从而提高比较的效率。 00。
23、41 对于相似度比较, 也可以采用多种方法来进行, 在本实施例中选择了一个实现速 度比较快的方式。图 3 是根据本申请实施例的采用了距离比较的检索关键词纠错方法的流 程图, 如图 3 所示, 该流程包括如下步骤 : 0042 步骤 S302, 对待纠错语句进行分词得到一个或多个关键词 ; 0043 步骤 S304, 对一个或多个关键词进行倒排索引得到语句集合 ; 0044 步骤 S306-1, 将待纠错语句与语句集合中的每个语句进行编辑距离计算, 其中, 编 辑距离是指将待纠错语句转换成语句集合中的语句需要的最小编辑操作次数 ; 0045 步骤 S306-2, 将语句集合中编辑距离最短的语句作。
24、为与待纠错语句相似度最高的 语句 ; 0046 步骤 S308, 将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。 0047 上述步骤 S306-1 中涉及到编辑操作, 该编辑操作可以包括 : 字符替换操作、 字符 插入操作、 字符删除操作等。例如, 将 “声明不能承受之情” 变换成 “生命不能承受之轻” 只 需要三个步骤 : 将 “声” 替换为 “生” , 将 “明” 替换为 “命” , 将 “情” 替换为 “轻” 。因此, 将 “生 命不能承受之轻” 作为 “声明不能承受之情” 的相似度最高的词语。 0048 上述实施例中, 用户输入的词语认为是需要进行检索的词语, 但是, 有。
25、时候, 用户 还会输入一些非关键的词, 例如, 用户输入的是 “最新版声明不能承受之情” , 此时,“最新 版” 就是一个不需要进行纠错的词语, 这些词语具有通过的特点, 就是均是一种修饰词, 对 于存在修饰词的情况, 在本实施例中还提供了一种优选的实施方式, 图 4 是根据本申请实 施例的提取关键词之后检索关键词纠错方法的流程图, 如图 4 所示, 该流程包括如下步骤 : 0049 步骤 S400, 从用户输入的检索串中提取出待纠错语句 ; 0050 步骤 S402, 对待纠错语句进行分词得到一个或多个关键词 ; 0051 步骤 S404, 对一个或多个关键词进行倒排索引得到语句集合 ; 0。
26、052 步骤 S406, 将待纠错语句与语句集合中的每个语句进行相似度比较 ; 0053 步骤 S408, 将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句 ; 0054 步骤 S410, 将所检索串中的待纠错语句替换成纠错完成的语句, 使用替换完成的 检索串进行搜索。 0055 通过上述步骤, 并不是对用户输入的检索串的所有内容进行纠错, 而是仅仅对提 取出来的待纠错语句进行纠错, 这样可以减少计算的工作量。 0056 上述步骤 S400 中, 涉及到提取出待纠错语句, 这种提取方式可能有可能中, 在本 实施例中提供了一种优选的方式。 在本优选方式中使用预先设置的信息从该检索串中进。
27、行 匹配 ; 前缀、 后缀、 文字描述模板, 将匹配到的信息从该检索串中删除得到所述待纠错语句。 前缀可以是 “最新” “最热” 等, 文字描述模板可以是 “第 * 集” , 其中的 * 可以是任何字。即 文字描述模板是具有一个或多个通配符的字符串。 0057 在本实施例中, 还提供了一种检索关键词纠错装置, 该检索关键词纠错装置用于 实现上述的方法, 在上述实施例及优选实施方式中已经进行过说明的, 在此不再赘述。 需要 说明的是, 下述装置中的模块的名称并不构成对该模块的实际限定, 例如, 分词模块可以表 述为 “用于对待纠错语句进行分词得到一个或多个关键词” , 以下的模块均可以在处理器中。
28、 说 明 书 CN 104462085 A 7 5/7 页 8 实现, 例如, 分词模块可以表述为 “一种处理器, 用于对待纠错语句进行分词得到一个或多 个关键词” , 或者,“一种处理器, 包括分词模块” 等。 0058 图5是根据本申请实施例的检索关键词纠错装置的结构图, 如图5所示, 该装置50 包括 : 分词模块 52, 索引模块 54, 比较模块 56 和处理模块 58 下面对该装置进行说明。 0059 分词模块 52, 用于对待纠错语句进行分词得到一个或多个关键词 ; 0060 索引模块 54, 用于对一个或多个关键词进行倒排索引得到语句集合 ; 0061 比较模块 56, 用于将。
29、待纠错语句与语句集合中的每个语句进行相似度比较 ; 0062 处理模块 58, 用于将语句集合中与待纠错语句相似度最高的语句作为纠错完成的 语句。 0063 通过上述步骤, 提供了一种纠错的方法, 在该纠错方法中采用了对整个待纠错语 句进行纠错的方式, 从而可以提高纠错的准确性, 提高了搜索引擎对用户检索意图的识别 能力。在上述步骤中, 还采用了倒排索引的方式, 这种索引方式执行效率比较高。 0064 优选的, 比较模块 56, 用于将待纠错语句与语句集合中的每个语句进行编辑距离 计算, 其中, 编辑距离是指将待纠错语句转换成语句集合中的语句需要的最小编辑操作次 数, 该语句集合中编辑距离最短。
30、的语句是与待纠错语句相似度最高的语句。 0065 优选地, 检索关键词纠错装置还可以包括 : 提取模块, 用于从用户输入的检索串中 提取出待纠错语句, 检索模块, 用于将检索串中的待纠错语句替换成纠错完成的语句, 并使 用替换完成的检索串进行搜索。 0066 在本实施例中, 提取模块用于使用预先设置的信息从检索串中进行匹配, 其中, 预 先设置的信息包括以下至少之一 : 前缀、 后缀、 文字描述模板, 并将匹配到的信息从检索串 中删除得到待纠错语句。 0067 上述的实施例可以用在多个领域的搜索中, 以下以视频领域的搜索为例进行说 明。 0068 本优选实施例提出了一种服务于搜索引擎的查询纠错。
31、方案, 在用户往搜索引擎提 交检索串之时, 基于领域特定的词表对用户无意的错误输入进行纠错, 并提示用户。图 6 是 根据本申请实施例的搜索引擎的查询纠错产品的示意图, 如图6所示, 图6中搜索框是应用 本申请的一个产品设计 ; 用户在搜索引擎中提交了无意的错误输入, 搜索引擎面对无意义 的检索串, 将其纠正成为用户原意输入的检索串。 0069 图7是根据本申请实施例的搜索引擎的查询纠错产品的架构图, 如图7所示, 该架 构包括 : 词干提取模块, 该模块提取的词干就是上述带纠错语句 ; 词表检索模块 ; 距离编辑 模块 ; 词表索引模块。下面对这些模块进行说明。 0070 词干提取模块 : 。
32、从检索串中剔除用户对检索目标的各种功能词, 得到词干。 以视频 搜索领域为例, 用户在搜索一部影片 精忠岳父 的时候, 往往会携带 “最新” 、“湖南卫视” 、 “热播” 、“电视剧” 等词来加以描述, 此类词语对视频搜索领域而言有极强的规律性, 本优选 实施例称之为描述词, 将其存放在架构图中所示意的 描述词汇表 文件中。 除了描述词外, 还有 “83 版” 、“第三部” 、“第九集” 等描述影片的信息, 这些定语与前面的描述词一起, 统称 为功能词。本模块负责提出功能词, 得到词干, 作为后续的纠错对象。经过这一个环节, 检 索串 “最新精忠岳父电视剧第五集” 的词干将被提取出来, 为 “。
33、精忠岳父” 。 (实现了上述提 取模块的功能, 还可以实现上述分词模块的功能) 。 说 明 书 CN 104462085 A 8 6/7 页 9 0071 词表检索模块 : 基于已有的领域特定词表, 对敬重岳飞, 在倒排索引中初步检索出 所有相关的词表作为纠错的候选对象。在倒排索引的构建很很多方法, 这里举例一种二元 分词的索引方案。仍以前面的举例作为例子, 已有一部片名叫 “精忠岳父” , 要建立倒排索 引, 本优选实施例视这个片名为一篇文章 (只不过这篇文章极短, 只有 4 个汉字而已) , 分配 一个 docid 来唯一标识这个片名, 那么这篇文章包含有如下词汇 : 精忠、 中岳、 岳父。
34、, 即相邻 的汉字两两作为一个词汇, 每一个词汇也分配一个 wordid 作为唯一标识, 那么本优选实施 例就可以建立 wordid 与 docid 之间的关联关系, 通过 wordid 就可以寻找到包含该词的所 有 docid, 这就是倒排索引文件。在倒排索引文件中查找速度极快, 对前面的 “精中岳飞” 用 二元分词切分得到词汇, 进一步取得包含这些词汇的所有文档的并集, 作为纠错的候选对 象, 比如可能的文档有 : 岳父大人、 精忠岳飞、 精忠报国、 岳父的幸福生活、 岳父也是爹。 (实 现了上述索引模块的功能) 。 0072 编辑距离模块 : 对词表检索模块提供的纠错候选文档进行编辑距离。
35、计算, 即检索 串与纠错串之间, 由一个转成另一个所需的最小编辑操作次数, 编辑操作包括将一个字符 替换成另一个字符、 插入一个字符、 删除一个字符。 本优选实施例使用编辑距离来衡量两个 字符串的相似度, 编辑距离越短两个待比较的字符串越相似。以前面的例子,“精忠岳飞” 与 “精中岳飞” 的编辑距离是 1 个汉字, 即还有 3 个汉字相同, 相似度达到 75%, 与其他候选串 相比相似度更高, 作为纠错结果。 (实现了上述比较模块的功能) 0073 词干还原模块 : 在纠错完成之后, 本优选实施例需要把在词干提取模块去掉的各 种功能词重新补齐回来, 仍以前面的例子, 将纠错后的 “精忠岳飞” 。
36、还原成为 “最新精忠岳飞 电视剧第五集” , 作为完整的纠错结果。 (实现了上述检索模块的部分功能) 。 0074 词表索引模块 : 本模块用于将领域特定词表 (是这个领域特有的词表, 纠错就是要 把疑似错误的检错串往这上面去纠) 转换成倒排索引, 倒排索引是一种高效的数据结构, 给 定一个词汇, 就能快速找出包含这个词汇的所有文档。 倒排索引将被词表检索模块所使用。 0075 其中, 词干提取模块的一种优选实现方案简述如下 : 0076 准备好描述词汇表文件, 这些词是对影片的描述, 可能是前缀, 也可能是后缀, 一 般是人工编辑, 比如 “最新” 、“经典” , 或者 “全集” 、“集锦”。
37、 等词, 一行一个 ; 词干提取算法载 入词表, 按正向最大匹配方法, 将匹配到的词汇从原检索串中删除, 去掉前缀词, 再按逆向 最大匹配方法, 将匹配到的词汇从原检索串中删除, 去掉后缀词, 再按 “第几季” 、“第几集” 等文字描述的模板, 将匹配到的片段从原检索串中删除, 对上述三点反复多次操作, 直到无 可删除。至此, 剩下来的就是词干 0077 另一个需要指出的问题是领域特定词表, 这个词表一般是提前准备, 对视频领域 来说, 它一般就是所有视频节目的名称, 对音乐领域来说, 它一般就是所有的歌曲名称。通 过技术手段自动更新或者人工维护, 定期更新到系统中都是可以的。 0078 本优。
38、选实施例从用户的检索串中提取词干, 在特定的词表中按照编辑距离算法进 行相似度匹配, 挑选相似度超过了一定阀值的词作为纠错结果, 替换掉原检索串中有错误 的词干, 得到的纠错串用于提示用户进行纠正, 从而提高搜索引擎对用户检索意图的识别 能力。 0079 上述优选的实施方式是可以结合使用的。 另外, 如本申请所使用的, 术语 “模块” 或 “单元” 可以指在上述装置上执行的软件对象或例程。此处所描述的不同模块和单元可被实 说 明 书 CN 104462085 A 9 7/7 页 10 现为在上述装置上执行 (例如, 作为单独的线程) 的对象或进程, 同时, 上述装置使用硬件或 软件和硬件的组合。
39、的实现也是可能并被构想的。 0080 显然, 本领域的技术人员应该明白, 上述的本申请的各模块或各步骤可以用通用 的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布在多个计算装置所组成 的网络上, 可选地, 它们可以用计算装置可执行的程序代码来实现, 从而, 可以将它们存储 在存储装置中由计算装置来执行, 或者将它们分别制作成各个集成电路模块, 或者将它们 中的多个模块或步骤制作成单个集成电路模块来实现。这样, 本申请不限制于任何特定的 硬件和软件结合。 0081 以上所述仅为本申请的优选实施例而已, 并不用于限制本申请, 对于本领域的技 术人员来说, 本申请可以有各种更改和变化。 凡在本申请的精神和原则之内, 所作的任何修 改、 等同替换、 改进等, 均应包含在本申请的保护范围之内。 说 明 书 CN 104462085 A 10 1/4 页 11 图 1 图 2 说 明 书 附 图 CN 104462085 A 11 2/4 页 12 图 3 说 明 书 附 图 CN 104462085 A 12 3/4 页 13 图 4 图 5 图 6 说 明 书 附 图 CN 104462085 A 13 4/4 页 14 图 7 说 明 书 附 图 CN 104462085 A 14 。