《数据搜索方法及设备.pdf》由会员分享,可在线阅读,更多相关《数据搜索方法及设备.pdf(23页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102880614 A (43)申请公布日 2013.01.16 C N 1 0 2 8 8 0 6 1 4 A *CN102880614A* (21)申请号 201110198243.7 (22)申请日 2011.07.15 G06F 17/30(2006.01) (71)申请人阿里巴巴集团控股有限公司 地址英属开曼群岛大开曼岛资本大厦一座 四层847号邮箱 (72)发明人常超 (74)专利代理机构北京同达信恒知识产权代理 有限公司 11291 代理人郭润湘 (54) 发明名称 数据搜索方法及设备 (57) 摘要 本申请公开了一种数据搜索方法及设备,以 解决基于采用。
2、现有技术处理后的搜索关键词难以 得到搜索结果的问题。方法包括:确定组成输入 的搜索关键词的关键词单元;确定由关键词单元 所组成的第一关键词单元组合;从关键词单元组 合与标识的对应关系中,确定与第一关键词单元 组合相匹配的关键词单元组合对应的标识;根据 所述对应的标识,从所述相匹配的关键词单元组 合中确定对应同一标识的关键词单元组合;并针 对所述相匹配的关键词单元组合对应的每一标 识,确定对应于该标识的所有关键词单元组合所 包含的关键词单元组成的搜索关键词;从确定的 搜索关键词中确定一个搜索关键词,并根据确定 的该搜索关键词搜索数据。 (51)Int.Cl. 权利要求书3页 说明书14页 附图5。
3、页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 14 页 附图 5 页 1/3页 2 1.一种数据搜索方法,其特征在于,包括: 确定组成输入的搜索关键词的关键词单元;并 根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的关键词单元所 组成的第一关键词单元组合;以及 从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识 的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配 的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;以及 根据所述相匹配的关键词单元组合所对应的标识,从。
4、确定的所述相匹配的关键词单元 组合中,确定对应于同一标识的关键词单元组合;并 针对所述相匹配的关键词单元组合对应的每一标识,分别确定由确定出的对应于该标 识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;以及 从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。 2.如权利要求1所述的方法,其特征在于,通过下述方式预先设置并存储关键词单元 组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系: 获得在指定时间段内输入的多个搜索关键词; 从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词; 分别确定各个第一搜索关键词所包含的关键词单元以及关键词单元个。
5、数,并根据预设 的关键词单元组合方式,分别确定由第一搜索关键词包含的关键词单元所组成的关键词单 元组合; 按照为确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小 至大的标识的方式,分别为各个第一搜索关键词分配标识;以及 对应存储为各第一搜索关键词分配的标识和各第一搜索关键词所包含的关键词单元 组成的关键词单元组合。 3.如权利要求1所述的方法,其特征在于,从确定的搜索关键词中确定一个搜索关键 词,具体包括: 根据预先设置的用于衡量关键词单元表意能力的得分数据,分别确定所述确定的搜索 关键词中各搜索关键词的得分;以及 根据确定的各搜索关键词的得分,从确定的搜索关键词中确定一个搜。
6、索关键词。 4.如权利要求1所述的方法,其特征在于,根据所述相匹配的关键词单元组合所对应 的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组 合,具体包括: 按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则,逐个从所述 相匹配的关键词单元组合所对应的标识中抽取标识;并 在每次抽取出标识后,判断出相邻两次抽取出的标识相同时,记录抽取的标识所对应 的关键词单元组合,直至判断出相邻两次抽取的标识不同时,从记录的关键词单元组合中 确定对应于同一标识的关键词单元组合; 删除记录的关键词单元组合,并记录在所述相邻两次抽取的后一次抽取中抽取到的标 识对应的关键词单元。
7、组合;以及 重复执行上述步骤,直至满足抽取结束条件时,从记录的关键词单元组合中确定对应 权 利 要 求 书CN 102880614 A 2/3页 3 于同一标识的关键词单元组合,并删除记录的关键词单元组合。 5.如权利要求4所述的方法,其特征在于,所述抽取结束条件为: 所述相匹配的关键词单元组合所对应的所有标识被抽取完毕。 6.如权利要求4所述的方法,其特征在于,还包括: 对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录;以及 所述抽取结束条件为:确定记录的次数大于预定次数阈值。 7.一种数据搜索设备,其特征在于,包括: 关键词单元确定单元,用于确定组成输入的搜索关键词的关键。
8、词单元; 第一组合确定单元,用于根据预设的关键词单元组合方式,确定由关键词单元确定单 元确定的关键词单元所组成的第一关键词单元组合; 组合与标识确定单元,用于从预先存储的关键词单元组合与为关键词单元组合所对应 的搜索关键词分配的标识的对应关系中,确定与第一组合确定单元确定的第一关键词单元 组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中, 为不同搜索关键词分配的标识互不相同; 第二组合确定单元,用于根据组合与标识确定单元确定的所述相匹配的关键词单元组 合所对应的标识,从组合与标识确定单元确定的确定的所述相匹配的关键词单元组合中, 确定对应于同一标识的关键词单元组合。
9、; 第一搜索关键词确定单元,用于针对组合与标识确定单元确定的所述相匹配的关键词 单元组合对应的每一标识,分别确定由第二组合确定单元确定的对应于该标识的所有关键 词单元组合所包含的关键词单元组成的搜索关键词; 第二搜索关键词确定单元,用于从第一搜索关键词确定单元确定的搜索关键词中确定 一个搜索关键词; 数据搜索单元,用于根据第二搜索关键词确定单元确定的搜索关键词搜索数据。 8.如权利要求7所述的设备,其特征在于,还包括用于存储关键词单元组合与为关键 词单元组合所对应的搜索关键词分配的标识的对应关系的存储单元;以及 所述存储单元具体包括: 获得模块,用于获得在指定时间段内输入的多个搜索关键词; 第。
10、一确定模块,用于从获得模块获得的多个搜索关键词中确定对应有搜索结果的第一 搜索关键词; 第二确定模块,用于分别确定第一确定模块确定的各个第一搜索关键词所包含的关键 词单元以及关键词单元个数,并根据预设的关键词单元组合方式,分别确定由第一搜索关 键词包含的关键词单元所组成的关键词单元组合; 标识分配模块,用于按照为第二确定模块确定的由多至少的关键词单元个数对应的第 一搜索关键词分别对应分配由小至大的标识的方式,分别为第一确定模块确定的各个第一 搜索关键词分配标识; 存储模块,用于对应存储标识分配模块为各第一搜索关键词分配的标识和第二确定模 块确定的关键词单元组合。 9.如权利要求7所述的设备,其。
11、特征在于,所述第二搜索关键词确定单元具体包括: 得分确定模块,用于根据预先设置的用于衡量关键词单元表意能力的得分数据,分别 权 利 要 求 书CN 102880614 A 3/3页 4 确定所述确定的搜索关键词中各搜索关键词的得分; 搜索关键词确定模块,用于根据得分确定模块确定的各搜索关键词的得分,从确定的 搜索关键词中确定一个搜索关键词。 10.如权利要求7所述的设备,其特征在于,所述第二组合确定单元具体包括: 抽取模块,用于按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原 则,逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识; 标识判断模块,用于在抽取模块每次抽取出标识后。
12、,判断抽取模块相邻两次抽取出的 标识是否相同; 记录模块,用于在标识判断模块得到的判断结果为是时,记录抽取模块抽取的标识所 对应的关键词单元组合; 确定模块,用于在标识判断模块得到的判断结果为否时,从记录模块记录的关键词单 元组合中确定对应于同一标识的关键词单元组合; 删除与记录执行模块,用于在确定模块确定关键词单元组合后,删除记录模块记录的 关键词单元组合,并将在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单 元组合记录在所述记录模块中; 抽取结束条件判断模块,用于在删除与记录执行模块将关键词单元组合记录在所述记 录模块中后,判断抽取模块对标识的抽取是否满足抽取结束条件; 确定与删。
13、除执行模块,用于在抽取结束条件判断模块得到的判断结果为是时,从记录 模块记录的关键词单元组合中确定对应于同一标识的关键词单元组合,并删除记录模块记 录的关键词单元组合。 权 利 要 求 书CN 102880614 A 1/14页 5 数据搜索方法及设备 技术领域 0001 本申请涉及数据搜索技术领域,尤其涉及一种数据搜索方法及设备。 背景技术 0002 基于搜索关键词进行检索,是指预先针对数据建立索引,然后再由搜索引擎服务 器根据用户输入的搜索关键词(也称查询关键词,即query),从建立的索引中搜索与query 相匹配的索引,并将该索引所对应的数据呈现给用户。 0003 在实际应用中,即使存。
14、在与用户欲搜索的数据相匹配的索引,但由于用户输入的 query具有随意性、不规范性的特性,所以可能出现虽然用户在query中表达出了欲搜索内 容的含义,但由于该query不规范,导致搜索引擎仍然无法从索引中找到与该query匹配的 索引,从而最终无法搜索到相应的搜索结果。针对该情况,现有技术中有方案提出对用户输 入的query进行一定处理后再进行搜索的思想。 0004 比如,目前现有技术就提供了一种在搜索前对query进行处理的方案。该方案的 核心思想在于,通过利用与query所包含的某词语含义相近的且比较规范的同义词或者利 用与query所包含的该词语有一定相关关系且比较规范的相关词,替换q。
15、uery相应的词语, 或者利用一些具体的词对query所包含的一些不规范的简化词进行扩展说明,使得处理后 的query能具备一定的规范性,从而搜索引擎能够搜索到与处理后的query相匹配的索引, 进而得到相应的搜索结果。 0005 根据现有技术提供的上述方案可知,其是以尽可能完整准确地表达用户的意图为 目的对query进行处理,然而,这样的方案在实际应用中被证明存在下述缺陷: 0006 采用同义词替换的方式无法从实质上改变query的含义,因此仍然可能出现无法 得到搜索结果的问题;而对query进行扩展说明的方式会导致query包含的词更多,而基于 包含更多词的query进行搜索会导致更难搜索。
16、到相应的索引,从而也可能无法得到搜索结 果。 发明内容 0007 本申请实施例提供一种数据搜索方法与设备,用以解决基于采用现有技术处理后 的搜索关键词进行搜索时难以得到搜索结果的问题。 0008 本申请实施例采用以下技术方案: 0009 一种数据搜索方法,包括: 0010 确定组成输入的搜索关键词的关键词单元;并根据预设的关键词单元组合方式, 确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合;以及从预 先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关 系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词 单元组合所对应的。
17、标识,其中,为不同搜索关键词分配的标识互不相同;以及根据所述相匹 配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应 说 明 书CN 102880614 A 2/14页 6 于同一标识的关键词单元组合;并针对所述相匹配的关键词单元组合对应的每一标识,分 别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索 关键词;以及从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜 索数据。 0011 可选的,从确定的搜索关键词中确定一个搜索关键词,具体包括:根据预先设置的 用于衡量关键词单元表意能力的得分数据,分别确定所述确定的搜索关键词。
18、中各搜索关键 词的得分;以及根据确定的各搜索关键词的得分,从确定的搜索关键词中确定一个搜索关 键词。 0012 可选的,根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配 的关键词单元组合中,确定对应于同一标识的关键词单元组合,具体包括:按照每次抽取符 合指定条件的标识以及抽取出的标识遵循无放回的原则,逐个从所述相匹配的关键词单元 组合所对应的标识中抽取标识;并在每次抽取出标识且判断出相邻两次抽取出的标识相同 时,记录抽取的标识所对应的关键词单元组合,直至判断出相邻两次抽取的标识不同时,从 记录的关键词单元组合中确定对应于同一标识的关键词单元组合;删除记录的关键词单元 组合,并记录。
19、在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合; 以及重复执行上述三个步骤,直至满足抽取结束条件时,从记录的关键词单元组合中确定 对应于同一标识的关键词单元组合,并删除记录的关键词单元组合。 0013 可选的,所述抽取结束条件为:所述相匹配的关键词单元组合所对应的所有标识 被抽取完毕。 0014 可选的,上述方法还包括:对出现连续两次抽取的标识对应不同关键词单元组合 的情况的次数进行记录;以及所述抽取结束条件为:确定记录的次数大于预定次数阈值。 0015 一种数据搜索设备,包括:关键词单元确定单元,用于确定组成输入的搜索关键词 的关键词单元;第一组合确定单元,用于根据预设的关。
20、键词单元组合方式,确定由关键词 单元确定单元确定的关键词单元所组成的第一关键词单元组合;组合与标识确定单元,用 于从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的 对应关系中,确定与第一组合确定单元确定的第一关键词单元组合相匹配的关键词单元组 合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标 识互不相同;第二组合确定单元,用于根据组合与标识确定单元确定的所述相匹配的关键 词单元组合所对应的标识,从组合与标识确定单元确定的确定的所述相匹配的关键词单元 组合中,确定对应于同一标识的关键词单元组合;第一搜索关键词确定单元,用于针对组合 与标识。
21、确定单元确定的所述相匹配的关键词单元组合对应的每一标识,分别确定由第二组 合确定单元确定的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索 关键词;第二搜索关键词确定单元,用于从第一搜索关键词确定单元确定的搜索关键词中 确定一个搜索关键词;数据搜索单元,用于根据第二搜索关键词确定单元确定的搜索关键 词搜索数据。 0016 本申请实施例的有益效果如下: 0017 通过执行本申请实施例提供的方案,可以实现对组成输入的搜索关键词的关键词 单元的省略,从而基于省略了关键词单元后的搜索关键词进行搜索就更容易得到搜索结 果,解决可基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问。
22、题。 说 明 书CN 102880614 A 3/14页 7 附图说明 0018 图1为本申请实施例提供的一种数据搜索方法的具体流程示意图; 0019 图2为本申请实施例中构建倒排链的具体流程示意图; 0020 图3为本申请实施例中Online计算与搜索子过程的具体实现流程示意图; 0021 图4为本申请实施例中提供的一种用于确定构成“共现关系”的key的方式的实 现流程示意图; 0022 图5为本申请实施例提供的一种数据搜索设备的具体结构示意图。 具体实施方式 0023 为了解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果 的问题,本申请实施例提供了一种数据搜索方案。该数据搜。
23、索方案的基本思路在于,通过对 组成输入的搜索关键词的关键词单元进行省略,并基于省略了关键词单元后的搜索关键词 进行搜索,从而更容易得到搜索结果。 0024 以下结合附图,对本申请实施例提供的方案进行详细说明。 0025 本申请实施例首先提供一种如图1所示的数据搜索方法,该方法的具体流程主要 包括下述步骤: 0026 步骤11,确定组成输入的搜索关键词的关键词单元; 0027 一般地,通过对用户输入的搜索关键词执行分词处理,就可以得到组成输入的搜 索关键词的各个关键词单元。这里的关键词单元一般包括字、词或词组(词组是指由两个 以上的词语组合而成的语法单位)。比如,通过对输入的一个搜索关键词“世界。
24、卫生联合组 织”执行分词处理,就可以得到组成该搜索关键词的关键词单元,包括:“世界”、“卫生”、“联 合”、“组织”。 0028 步骤12,根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的 关键词单元所组成的第一关键词单元组合; 0029 本申请实施例中,对一个关键词单元组合中包含的关键词单元个数不做限定。比 如可以为2个,也可以为3个等等。以“世界、卫生、联合、组织”这几个关键词单元为例,若 预设的关键词单元组合方式为“两两组合”,那么就可以得到6个关键词单元组合,分别为: “世界+卫生”、“世界+联合”、“世界+组织”、“卫生+联合”、“卫生+组织”、“联合+组织”。 而若预。
25、设的关键词单元组合方式为“三个关键词单元组合”,那么就的可以得到4个关键词 单元组合,分别为:“世界+卫生+联合”、“世界+卫生+组织”、“卫生+联合+组织”、“世界 +联合+组织”。 0030 步骤13,从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词 分配的标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定 与第一关键词单元组合相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词 分配的标识互不相同; 0031 可选的,上述对应关系可以但不限于通过下述子步骤1子步骤5确定: 0032 子步骤1,获得在指定时间段内输入的多个搜索关键词; 0033 子。
26、步骤2,从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词; 说 明 书CN 102880614 A 4/14页 8 0034 由于没有对应有搜索结果的搜索关键词可以视为没有意义的搜索关键词,因此, 在子步骤2中,可以只从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词 进行后续处理。 0035 子步骤3,分别确定各个第一搜索关键词所包含的关键词单元以及关键词单元个 数,并根据预设的关键词单元组合方式,分别确定由第一搜索关键词包含的关键词单元所 组成的关键词单元组合; 0036 一般地,这里所说的预设的关键词组合方式与步骤12中的关键词组合方式是相 同的。 0037 子步骤4,。
27、按照为确定的由多至少的关键词单元个数对应的第一搜索关键词分别 对应分配由小至大的标识的方式,分别为各个第一搜索关键词分配标识; 0038 子步骤5,对应存储为各第一搜索关键词分配的标识和各第一搜索关键词所包含 的关键词单元组成的关键词单元组合。 0039 在实际应用中,这里所说的关键词单元组合与为关键词单元组合所对应的搜索关 键词分配的标识可以是根据指定的搜索关键词集合(比如用户在一天或预定时间长度内 输入搜索引擎的全部搜索关键词组成的集合)来设置并对应存储的。比如,若指定的搜索 关键词集合包含的搜索关键词有“卫生组织”、“世界卫生组织”、“联合国安全理事会”、“世 界安全组织”、“安全理事会。
28、”,那么根据该搜索关键词集合,若关键词单元组合方式为“两两 组合”,则可以确定“卫生组织”这一搜索关键词对应的关键词单元组合为“卫生+组织”;“世 界卫生组织”这一搜索关键词对应的关键词单元组合为“世界+卫生”、“世界+组织”、“卫生 +组织”;“联合国安全理事会”这一搜索关键词对应的关键词单元组合为“联合国+安全”、 “联合国+理事会”、“安全+理事会”。依次类推,可以得到如表1所示的关键词单元组合。 0040 表1: 0041 搜索关键词 关键词单元组合 卫生组织 卫生+组织 世界卫生组织 世界+卫生、世界+组织、卫生+组织 联合国安全理事会 联合国+安全、联合国+理事会、安全+理事会 世。
29、界安全组织 世界+安全、安全+组织、世界+组织 安全理事会 安全+理事会 0042 0043 进一步地,若为搜索关键词集合中包含的搜索关键词分别分配的标识如表2所 示,则关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系如 表3所示。 0044 表2: 0045 说 明 书CN 102880614 A 5/14页 9 搜索关键词 标识 卫生组织 4 世界卫生组织 1 联合国安全理事会 0 世界安全组织 2 安全理事会 3 0046 表3: 0047 关键词单元组合 标识 卫生+组织 4 世界+卫生、世界+组织、卫生+组织 1 联合国+安全、联合国+理事会、安全+理事会 0 。
30、世界+安全、安全+组织、世界+组织 2 安全+理事会 3 0048 基于表3,若当前输入的搜索关键词为“世界卫生联合组织”,那么,根据与该搜索 关键词相应的关键词单元组合“世界+卫生”、“世界+联合”、“世界+组织”、“卫生+联合”、 “卫生+组织”、“联合+组织”,就能够从表3中确定与这6个关键词单元组合之一相匹配的 关键词单元组合有“世界+卫生”、“卫生+组织”、世界+组织”,其分别依次对应标识1、4、 1。 0049 步骤14,根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配 的关键词单元组合中,确定对应于同一标识的关键词单元组合; 0050 比如,针对确定出的关键词单元组。
31、合为“世界+卫生”、“卫生+组织”、世界+组织”, 且其分别依次对应标识1、4、1的情况,就可以确定出对应于同一标识“1”的关键词单元组 合为“世界+卫生”和“世界+组织”,而对应于标识“4”的关键词单元组合为“卫生+组织”。 0051 在本申请实施例中,可以通过下述几个子步骤,实现确定对应于同一标识的关键 词单元组合: 0052 子步骤1:按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原 则,逐个从确定出的与输入的搜索关键词相应的关键词单元组合相匹配的关键词单元组合 所对应的标识中抽取标识;其中,这里所说的抽取符合指定条件的标识可以为抽取最小的 标识,也可以为抽取最大的标识。当为。
32、包含的关键字单元由多到少的搜索关键词分别对应 分配由小至大的标识时,那么可以每次抽取最小的标识;反之,当为包含的关键字单元由多 说 明 书CN 102880614 A 6/14页 10 到少的搜索关键词分别对应分配由大至小的标识时,那么可以每次抽取最大的标识。 0053 子步骤2:在每次抽取出标识且判断出相邻两次抽取出的标识相同时,记录抽取 的标识所对应的关键词单元组合,直至判断出相邻两次抽取的标识不同时,从记录的关键 词单元组合中确定对应于同一标识的关键词单元组合; 0054 子步骤3:删除记录的关键词单元组合,并记录在上述相邻两次抽取的后一次抽 取中抽取到的标识对应的关键词单元组合; 00。
33、55 子步骤4:重复依次执行上述子步骤13,直至满足抽取结束条件时,从记录的关 键词单元组合中确定对应于同一标识的关键词单元组合,并删除记录的关键词单元组合。 0056 采用上述子步骤14这样的方案确定对应于同一标识的关键词单元组合的好处 在于,由于在判断出相邻两次抽取的标识不同时,在从记录的关键词单元组合中确定对应 于同一标识的关键词单元组合后会删除记录的关键词单元组合,因此,可以实现利用有限 的存储空间来记录关键词单元组合,以避免需要同时对所有的关键词单元组合和对应的标 识进行记录而需要较大的存储空间的问题。 0057 可选的,在抽取标识的过程中,还可以对出现连续两次抽取的标识对应不同关键。
34、 词单元组合的情况的次数进行记录,从而可以将上述抽取结束条件设置为:确定记录的次 数大于预定次数阈值。或者,上述抽取结束条件也可以为:上述相匹配的关键词单元组合所 对应的所有标识都被抽取完毕。 0058 步骤15,针对与输入的搜索关键词相应的关键词单元组合相匹配的关键词单元组 合对应的每一标识,分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关 键词单元组成的搜索关键词; 0059 比如,针对上述标识1、4,就可以确定出对应于“1”的关键词单元组合“世界+卫 生”和“世界+组织”所组成的搜索关键词为“世界卫生组织”,同时确定出对应于“4”的关 键词单元组合为“卫生+组织”所组成的搜索。
35、关键词为“卫生组织”。 0060 步骤16,从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键 词搜索数据。 0061 比如,针对上述确定出的两个搜索关键词“世界卫生组织”和“卫生组织”,就可以 从中随机确定一个搜索关键词,或者按照本申请实施例提供的一种选取规则从中选取一个 搜索关键词。 0062 本申请实施例给出的一种选取规则是根据预先设置的用于衡量关键词单元表意 能力的得分数据,来实现从确定的搜索关键词中确定一个搜索关键词。需要说明的是,关键 词单元的表意能力是指关键词单元对用户搜索意图的一种体现能力。可以说,一个搜索关 键词对用户搜索意图的体现能力是由组成这个搜索关键词的所有。
36、关键词单元的表意能力 共同支撑的。一个关键词单元的表意能力越强,则它在其所在的搜索关键词中的地位自然 就越高。一般地,关键词单元的表意能力是与其在多个搜索关键词中出现的频率有一定关 系的,因此,本申请实施例中,可以考虑根据该出现频率来确定关键词单元的表意能力,从 而为其设置相应的得分数据。为关键词单元设置得分数据的一个具体的实施例将在后文进 行详细说明,在此不再赘述。此外,本申请实施例给出的另一种选取规则是从确定的搜索关 键词中随机选取一个搜索关键词。或者,选取规则还可以是根据确定的搜索关键词的长度 (这里所说的搜索关键词的长度可以理解为搜索关键词所包含的单字的个数),选取具有 说 明 书CN。
37、 102880614 A 10 7/14页 11 最长长度的搜索关键词,即选取包含单字个数最多的搜索关键词。 0063 比较用户输入的搜索关键词“世界卫生联合组织”的长度和执行步骤16后选取出 的搜索关键词“世界卫生组织”(或“卫生组织”)的长度可知,通过执行如图1所示的上述 步骤,实现了对搜索关键词包含的关键词单元的省略,而本领域技术人员可以了解,根据包 含关键词单元较少的搜索关键词进行搜索时,更容易搜索到相应的数据,这也是本申请实 施例提供的上述方案的技术效果。 0064 以下以一个具体的实施例为例,详细说明本申请实施例提供的上述方案在实际中 的应用过程。 0065 在本实施例中,对数据进。
38、行搜索的过程可以分为两个子过程。第一个子过程可以 称为离线(Offline)数据挖掘子过程;第二个子过程可以称为在线(Online)计算与搜索子 过程。以下分别对这两个子过程进行介绍。 0066 Offline数据挖掘子过程: 0067 该子过程主要是要完成对两个词典的挖掘,并基于挖掘得到的这两个词典,确定 指定query集合中各query所包含的term的得分,并确定由term组成的term组合与相应 的query的序号的对应关系。其中,这里所说的term为字、词或词组(词组是指由两个以 上的词语组合而成的语法单位),而组成query的字、词和词组也可以统称为搜索关键词单 元。 0068 被。
39、挖掘的第一个词典叫做term rank词典,该词典是从搜索日志(search log)中 挖掘得到的。该词典记录的内容为用户历史输入的query中包含的各个term。由于query 承载着用户的搜索意图,所以query必然具备一定的表意能力。一个query的表意能力由 组成这个query的所有term共同支撑。可以简单认为,一个query的表意能力等于组成该 query的各term的表意能力之和。其中,一个term的表意能力越强,则它在其所在的query 中的地位自然就越高。本申请实施例中,可以把用于衡量term在query中的表意能力的值 称为该term的termrank值,简称TR值。一般。
40、说来,如果一个term出现在一个query中 的次数越多,说明这个term的表意能力越强;如果这个term又频繁的出现在其他的query 中,说明这个term的表意过于通用,就会损失一部分表意能力。 0069 基于上述分析,本申请实施例提供了一种计算term的TR值的公式,该公式如下式 1所示: 0070 term_score(i)tf(i)*idf(i) 1 0071 其中,term_score(i)代表序号为i的term的TR值,tf(i)为序号为i的term在 指定的query(比如指定query集合所含的所有query)所包含的全部term中出现的总次 数,idf(i)为对指定quer。
41、y集合中包含的query的总个数x除以包含有序号为i的该term 的query总个数y所得到的商取对数而得到的结果,即有如下式2所示的公式: 0072 0073 需要说明的是,针对某个(或某些)term,可能出现xy的情况,那么此时有 在该情况下,可以考虑采用下述公式3来计算term的得分: 0074 说 明 书CN 102880614 A 11 8/14页 12 0075 其中,z为大于0而小于1的一个常数,其作用在于修正x/y的值,以避免出现 的情况。在计算同一指定query集合的query包含的各个term的得分时,z应该 保持不变。 0076 按照上述公式计算出的TR值的特点在于:具有。
42、较高的TR值的term的表意能力较 强,反之,具有相对较低的TR值的term的表意能力也相对较弱。 0077 需要说明的是,在按照公式1对term的TR值进行计算之前,可以先对指定 query集合进行处理。比如可以从该query集合中删除掉在该query集合中的出现次数小 于预定出现次数阈值的query后,再针对处理后得到的query集合所对应的各个term执行 上述操作。这样做的原因在于,出现次数太少的query对于计算term的TR值的贡献度较 小,甚至会带来无用的噪声数据。因此,即使对该些term进行删除,也对最终计算出的TR 值影响不大,甚至是有益的,而且还能提高处理效率。 0078 。
43、被挖掘的第二个词典叫做All-occurrence词典,该词典用于保存指定query集合 中的各query所包含的term组成的term组合与相应的query的序号的对应关系。其中, 这里的指定query集合可以为搜索引擎在一天之内(也可以是其他时间段内)接收到的由 用户输入的query组成的集合。这里的指定query集合与term rank词典中记录的query 所在的query集合可以相同也可以不同。 0079 针对该指定query集合,通过执行如图2所示的下述步骤,以构建一个用于记录 term组合与相应的query序号的对应关系的倒排链: 0080 步骤21,从该query集合中提取出对。
44、应有相应搜索结果的query; 0081 因为一些无法获得搜索结果的query基本是毫无意义的,因此,本实施例中着重 考察能够得到搜索结果的query。 0082 步骤22,对提取出的query执行分词操作,将各个query拆分成相应的term; 0083 比如,若提取出了多个query,分别为A、B、C、D,其中,A包含的term为(a、b),B 包含的term为(a、b、c),C包含的term为(a、b、d、e),D包含的term为(a、f),那么对A、 B、C、D执行分词操作后得到的相应的term分别为:(a、b)、(a、b、c)、(a、b、d、e)、(a、f)。 0084 步骤23,根。
45、据各个query所包含的term,确定包含的所有term被其他任意query 完全包含的query,并删除掉确定出的该query; 0085 比如,根据上述A、B、C、D所分别包含的term可知,A所包含的所有term(即a、b) 就完全包含在B所包含的term(即a、b、c)中,此时就可以删掉A。或者,也可以以A所包 含的所有term完全包含在C所包含的term中为依据,删掉A。这样做的原因在于,由于A 所包含的所有term完全包含在B或C所包含的term中,因此,省略掉A不会影响构建关键 词单元组合,而且由于要处理的query减少,还会加速关键词单元组合的构建过程。 0086 步骤24,在。
46、删除掉满足步骤23所述条件的query后,按照query所包含的term的 个数由多至少的顺序,对执行步骤23后剩余的query依次进行排序,并根据query包含的 term个数,为剩余的query分别分配序号; 0087 比如,在删除掉A后,按照B、C、D所包含的term个数的多少对其进行排序并分配 序号,可以得到:C排在第一位,为其分配的序号为0;B排在第二位,为其分配的序号为1;D 排在第三位,为其分配的序号为2。 说 明 书CN 102880614 A 12 9/14页 13 0088 步骤25,按照选取任意两个term进行组合的方式,分别从所述剩余的每个query 包含的term中选。
47、取term进行组合,并将所有可能得到的组合方式进行记录,其中,term组 成的组合可以称为key,而query的序号可以称为相应的key的value; 0089 针对C、B、D这几个query,按照步骤25所述的方式,可以得到如下表4所示的记 录: 0090 表4: 0091 0092 步骤26,根据key和value构建倒排链。 0093 本实施例中,构建的倒排链可以如下表5所示。表5是按照value由小至大的顺 序对相应的key进行排序的。 0094 表5: 0095 key value a+b 0、1 a+c 1 b+c 1 a+d 0 b+d 0 e+d 0 说 明 书CN 10288。
48、0614 A 13 10/14页 14 a+f 2 a+e 0 b+e 0 0096 基于每个term的得分和如表5所示的倒排链,就可以继续执行Online计算与搜 索子过程。 0097 Online计算与搜索子过程的作用在于:针对用户当前输入的query,根据预先记 录的如表5所示的倒排链,就能够从用户当前输入的该query中的term确定可以被省略的 term,并对确定的该term进行省略后执行数据搜索。具体地,Online计算与搜索子过程的 具体实现过程如图3所示,包括以下步骤: 0098 步骤31,确定输入的query所包含的term,并确定其包含的term中由2个term 组成的所有。
49、term组合(即key); 0099 比如,若用户输入的query为X,其包含的term为(a、b、d、f),那么该些term能 组成的key为a+b、a+d、a+f、b+d、b+f、d+f。 0100 步骤32,从Offline数据挖掘子过程中确定的倒排链中,确定与步骤31中确定出 的key匹配一致的key,并从该倒排链确定与步骤31中确定出的key匹配一致的key所对 应的value; 0101 比如,根据X所包含的term组成的key(a+b、a+d、a+f、b+d、b+f、d+f),就可以从 如表2所示的倒排链中确定与之匹配一致的key,并确定出key所对应的value,即确定出 a+b对应0、1,a+d对应0,a+f对应2,b+d对应0。由于b+f、d+f)没有出现在表2中,因此 也就无法确定出其对应的value,不过这对图。