《用于挖掘意图的方法和设备.pdf》由会员分享,可在线阅读,更多相关《用于挖掘意图的方法和设备.pdf(44页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103942232 A (43)申请公布日 2014.07.23 C N 1 0 3 9 4 2 2 3 2 A (21)申请号 201310026233.4 (22)申请日 2013.01.18 G06F 17/30(2006.01) (71)申请人佳能株式会社 地址日本东京 申请人清华大学 (72)发明人黄耀海 那森 胡钦谙 夏云庆 (74)专利代理机构中国国际贸易促进委员会专 利商标事务所 11038 代理人欧阳帆 (54) 发明名称 用于挖掘意图的方法和设备 (57) 摘要 本发明提供了用于挖掘意图的方法和设备。 该方法包括以下步骤:获取用户的查询;挖掘与 所。
2、述查询有关的候选意图;以及在所挖掘出的候 选意图之中构建至少一个排他合集,其中每个排 他合集包括至少两个相互排他的候选意图。利用 本发明,可以提高意图召回率。 (51)Int.Cl. 权利要求书5页 说明书24页 附图14页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书5页 说明书24页 附图14页 (10)申请公布号 CN 103942232 A CN 103942232 A 1/5页 2 1.一种用于挖掘意图的方法,包括以下步骤: A)获取用户的查询; B)挖掘与所述查询有关的候选意图;以及 C)在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至。
3、少两 个相互排他的候选意图。 2.根据权利要求1所述的方法,其中,所述步骤C)包括以下步骤: C11)根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类,以便得到 至少一个候选合集,其中每个候选合集包括至少两个具有相同语义类型的候选意图;以及 C12)根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集。 3.根据权利要求2所述的方法,其中,所述语义类型的排他度是针对语义类型手动地 预先设定的。 4.根据权利要求2所述的方法,其中,所述语义类型的排他度是基于具有所述语义类 型的候选意图来自动地预先计算的。 5.根据权利要求2所述的方法,其中,所述语义类型包括概念类型、命名实体。
4、类型、本 体类型和用户定义的类型中的至少一种。 6.根据权利要求1所述的方法,其中,所述步骤C)包括以下步骤: C21)将所挖掘出的至少两个候选意图划分成多个候选合集,其中每个候选合集包括至 少两个候选意图; C22)为每个候选合集中的任意两个候选意图构建意图排他性向量,每个意图排他性向 量包括两个候选意图和这两个候选意图的关系分数; C23)通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来 计算每个候选合集的排他度;以及 C24)根据每个候选合集的排他度来识别排他合集。 7.根据权利要求6所述的方法,其中,所述步骤C22)包括以下步骤: C2211)分析与用户的查询有关的。
5、日志数据; C2212)构建与查询、有关用户ID和有关用户点击的意图相关联的数据集;以及 C2213)基于所述数据集,根据点击了两个候选意图中的至多一个的用户ID的数量来 计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。 8.根据权利要求7所述的方法,其中,在所述数据集中,所有用户ID的针对所述查询的 点击频率不小于2;以及 其中所述数据集包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题 或URL。 9.根据权利要求6所述的方法,其中,所述步骤C22)包括以下步骤: C2221)获得包含所述查询和所挖掘出的候选意图的用户生成文档; C2222)创建与所述用。
6、户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过 的意图相关联的数据集;以及 C2223)基于所述数据集,根据与两个候选意图中的至多一个有关的用户生成文档的数 量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。 10.根据权利要求6所述的方法,其中,所述步骤C22)包括以下步骤: 权 利 要 求 书CN 103942232 A 2/5页 3 C2231)获得来自用户查询结果的包括单选按钮或下拉列表的UI元素的文本值;以及 C2232)基于所述文本值来构建意图排他性向量,其中关系分数是手动地预先设定的。 11.根据权利要求110中的任一项所述的方法,还包括以下。
7、步骤: D)利用所述至少一个排他合集使所挖掘出的候选意图多样化。 12.根据权利要求11所述的方法,其中,所述步骤D)包括以下步骤: D11)仅保留排他合集中的一个候选意图;以及 D12)将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除。 13.根据权利要求11所述的方法,其中,所述步骤D)包括以下步骤: D21)仅保留排他合集中的一个候选意图;以及 D22)将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的次序向后 移动。 14.根据权利要求12或13所述的方法,其中,所保留的候选意图是指出用户的偏好的 最可能的候选意图。 15.根据权利要求11所述的方法,其中,所述。
8、步骤D)包括以下步骤: D31)保留代表排他合集的上位词来代替相应的排他合集;以及 D32)将排他合集中的所有候选意图从所挖掘出的候选意图中去除。 16.根据权利要求11所述的方法,其中,所述步骤D)包括以下步骤: D41)保留代表排他合集的合并的候选意图来代替相应的排他合集;以及 D42)将排他合集中的所有候选意图从所挖掘出的候选意图中去除。 17.根据权利要求1所述的方法,其中,所述步骤B)包括以下步骤: B11)基于所述查询来获取第一组候选意图; B12)为所述查询构建至少一个临时意图模式; B13)基于所述至少一个临时意图模式来获取第二组候选意图;以及 B14)将所述第一组候选意图和第。
9、二组候选意图进行组合以获得所述查询的候选意 图; 其中所述临时意图模式包括所述查询和上下文字符。 18.根据权利要求17所述的方法,其中,所述步骤B14)包括以下步骤: B141)根据各候选意图所对应的临时意图模式的参数,来将各候选意图进行排序, 其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一 个。 19.根据权利要求17所述的方法,其中,所述上下文字符是用户预先设定的,或者是从 意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。 20.根据权利要求11所述的方法,还包括以下步骤: E)获取要被获得的意图的数量n,其中n为自然数; F)从至少一个。
10、数据搜索资源获取与所述查询以及多样化后的候选意图相关的一组搜 索结果;以及 G)基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于 n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量 计算的。 权 利 要 求 书CN 103942232 A 3/5页 4 21.根据权利要求1、17至19中的任意一个所述的方法,还包括以下步骤: E)获取要被获得的意图的数量n,其中n为自然数; F)从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的 一组搜索结果;以及 G)基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意。
11、图、基于 n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量 计算的。 22.一种用于挖掘意图的设备,包括: 单元A),被配置为获取用户的查询; 单元B),被配置为挖掘与所述查询有关的候选意图;以及 单元C),被配置为在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他 合集包括至少两个相互排他的候选意图。 23.根据权利要求22所述的设备,其中,所述单元C)包括: 单元C11),被配置为根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行 分类,以便得到至少一个候选合集,其中每个候选合集包括至少两个具有相同语义类型的 候选意图;以及 单元C12),被配。
12、置为根据每个候选合集中的候选意图的语义类型的排他度来识别排他 合集。 24.根据权利要求23所述的设备,其中,所述语义类型的排他度是针对语义类型手动 地预先设定的。 25.根据权利要求23所述的设备,其中,所述语义类型的排他度是基于具有所述语义 类型的候选意图来自动地预先计算的。 26.根据权利要求23所述的设备,其中,所述语义类型包括概念类型、命名实体类型、 本体类型和用户定义的类型中的至少一种。 27.根据权利要求22所述的设备,其中,所述单元C)包括: 单元C21),被配置为将所挖掘出的至少两个候选意图划分成多个候选合集,其中每个 候选合集包括至少两个候选意图; 单元C22),被配置为为。
13、每个候选合集中的任意两个候选意图构建意图排他性向量,每 个意图排他性向量包括两个候选意图和这两个候选意图的关系分数; 单元C23),被配置为通过使用所述为每个候选合集中的任意两个候选意图构建的意图 排他性向量来计算每个候选合集的排他度;以及 单元C24),被配置为根据每个候选合集的排他度来识别排他合集。 28.根据权利要求27所述的设备,其中,所述单元C22)包括: 单元C2211),被配置为分析与用户的查询有关的日志数据; 单元C2212),被配置为构建与查询、有关用户ID和有关用户点击的意图相关联的数据 集;以及 单元C2213),被配置为基于所述数据集,根据点击了两个候选意图中的至多一个。
14、的用 户ID的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排 他性向量。 权 利 要 求 书CN 103942232 A 4/5页 5 29.根据权利要求28所述的设备,其中,在所述数据集中,所有用户ID的针对所述查询 的点击频率不小于2;以及 其中所述数据集包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题 或URL。 30.根据权利要求27所述的设备,其中,所述单元C22)包括: 单元C2221),被配置为获得包含所述查询和所挖掘出的候选意图的用户生成文档; 单元C2222),被配置为创建与所述用户生成文档、所述查询以及所挖掘出的候选意图 中的用户点击过的。
15、意图相关联的数据集;以及 单元C2223),被配置为基于所述数据集,根据与两个候选意图中的至多一个有关的用 户生成文档的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意 图排他性向量。 31.根据权利要求27所述的设备,其中,所述单元C22)包括: 单元C2231),被配置为获得来自用户查询结果的包括单选按钮或下拉列表的UI元素 的文本值;以及 单元C2232),被配置为基于所述文本值来构建意图排他性向量,其中关系分数是手动 地预先设定的。 32.根据权利要求2231中的任一项所述的设备,还包括: 单元D),被配置为利用所述至少一个排他合集使所挖掘出的候选意图多样化。 33.。
16、根据权利要求32所述的设备,其中,所述单元D)包括: 单元D11),被配置为仅保留排他合集中的一个候选意图;以及 单元D12),被配置为将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图 中去除。 34.根据权利要求32所述的设备,其中,所述单元D)包括: 单元D21),被配置为仅保留排他合集中的一个候选意图;以及 单元D22),被配置为将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图 中的次序向后移动。 35.根据权利要求33或34所述的设备,其中,所保留的候选意图是指出用户的偏好的 最可能的候选意图。 36.根据权利要求32所述的设备,其中,所述单元D)包括: 单元D31),。
17、被配置为保留代表排他合集的上位词来代替相应的排他合集;以及 单元D32),被配置为将排他合集中的所有候选意图从所挖掘出的候选意图中去除。 37.根据权利要求32所述的设备,其中,所述单元D)包括: 单元D41),被配置为保留代表排他合集的合并的候选意图来代替相应的排他合集;以 及 单元D42),被配置为将排他合集中的所有候选意图从所挖掘出的候选意图中去除。 38.根据权利要求22所述的设备,其中,所述单元B)包括: 单元B11),被配置为基于所述查询来获取第一组候选意图; 单元B12),被配置用于为所述查询构建至少一个临时意图模式; 单元B13),被配置为基于所述至少一个临时意图模式来获取第二。
18、组候选意图;以及 权 利 要 求 书CN 103942232 A 5/5页 6 单元B14),被配置为将所述第一组候选意图和第二组候选意图进行组合以获得所述查 询的候选意图; 其中所述临时意图模式包括所述查询和上下文字符。 39.根据权利要求38所述的设备,其中,所述单元B14)包括: 单元B141),被配置为根据各候选意图所对应的临时意图模式的参数,来将各候选意图 进行排序, 其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一 个。 40.根据权利要求38所述的设备,其中,所述上下文字符是用户预先设定的,或者是从 意图训练库、用户历史选择记录和所述第一组候选意图中的至。
19、少一个中获取的。 41.根据权利要求32所述的设备,还包括: 单元E),被配置为获取要被获得的意图的数量n,其中n为自然数; 单元F),被配置为从至少一个数据搜索资源获取与所述查询以及多样化后的候选意图 相关的一组搜索结果;以及 单元G),被配置为基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个 候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠 搜索结果的数量计算的。 42.根据权利要求22、38至40中的任意一个所述的设备,还包括: 单元E),被配置为获取要被获得的意图的数量n,其中n为自然数; 单元F),被配置为从至少一个数据搜索资源获取与所述查。
20、询和所获得的所述查询的候 选意图相关的一组搜索结果;以及 单元G),被配置为基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个 候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠 搜索结果的数量计算的。 权 利 要 求 书CN 103942232 A 1/24页 7 用于挖掘意图的方法和设备 技术领域 0001 本发明涉及数据搜索。特别地,本发明涉及一种用于挖掘意图的方法和设备。更 特别地,本发明涉及针对用户提交的搜索查询来挖掘用户意图的方法和设备。 背景技术 0002 目前,互联网正在快速发展,在互联网中常常产生大量的信息(诸如官方公布的科 技信息、个。
21、人产生的日记或者博客等),并且互联网用户在大量的互联网信息中搜索所希望 的信息这一方式已经越来越普遍。为了在海量的互联网数据中找到所希望的信息,信息检 索系统(诸如搜索引擎)变得越来越重要。 0003 然而,大多数的依赖现有技术的信息检索系统不足以准确地返回用户希望的搜索 结果,这是因为不同用户可能通过使用相同的简短且含糊的查询作为输入来体现不同的意 图。 0004 为了帮助用户快速且准确地找到他们所感兴趣的内容,目前已经提出了基于各种 自然语言处理和信息检索的对返回结果进行组织的方法。 0005 图2示出了一种典型的用户界面,在该用户界面中显示出了输入的查询、一些被 挖掘得到的意图以及对于所。
22、选择的意图的搜索结果。利用意图索引来较好地组织搜索结 果,这使得用户能够快速且准确地找到他所想要的内容。 0006 一种典型的意图搜索系统可以被如下设计(例如,参见Santos等人的论文(以下 称为论文1): 0007 输入(简短且含糊的)查询; 0008 输出(重要并且多样化的)n个最佳意图(例如,n10)。 0009 图3示出了一个意图搜索系统的示例。 0010 在这种搜索系统中,期望的是挖掘出重要且多样化的意图,并且输出用户最可能 感兴趣的意图。 0011 Xue等人的论文(以下称为论文2)提出了一种挖掘意图的方法,其为在NTCIR-9平 台下的最佳系统。NTCIR(NII Test C。
23、ollection for IR Systems)是一个为所有研究人 员提供共同的测试数据从而方便评价各种方法的性能的平台,其具体内容可以参见如下网 站:http:/research.nii.ac.jp/ntcir/outline/prop-en.html。图4示出了论文2中提 出的方法的流程。该方法利用全球资源(例如,搜索引擎、维基百科、查询日志等)来挖掘候 选意图,通过诸如意图频率、共同出现频率、点击量数据(click-though data)和编辑距离 之类的特征来将候选意图排序,并且最终输出意图列表。 0012 然而,上述方法的意图召回率(Intent recall,I-rec)较低。。
24、 0013 下面的表1示出了上述方法的真实状态数据(ground truth)的实验结果。 说 明 书CN 103942232 A 2/24页 8 0014 0015 表1 0016 在表1中,“I-rec”表示意图召回率,即在所获得的意图中,所获得的有用 的意图的数量(即,所获得的正确结果)相对于希望获得的那些意图的数量(所有正 确结果)的比率,往往用于度量意图的多样化;“D-nDCG”表示意图准确率(Intent precision,往往用于度量意图的整体相关度),“D-nDCG”为多样化的归一化折扣累积增益 (Diversified-Normalized Discounted Cumul。
25、ative Gain),它基于位置计算搜索引擎返回 的结果文档列表的相关度;“D#-nDCG”表示“I-rec”和“D-nDCG”的线性组合。关于这些度 量的更详细的描述请参见Sakai等人的论文(论文3)以及Sakai和Song的论文(论文4)。 0017 在表1中,I_rec、D-nDCG以及D#-nDCG是基于查询的真实状态数据被确定的,通 常是通过将意图挖掘结果与真实状态数据进行比较来计算得到的,这些指标的获得是本领 域公知的,因此将不再详细描述。 0018 从表1中可以看出,D-nDCG10已经达到0.845,但是I-rec10仅为0.409,这表 明I-rec是该方法的瓶颈。因此,。
26、需要提高意图召回率。 0019 图5示出了利用现有技术的方法输出的意图列表的一个示例。从图5中看到,输 出了前10个候选意图,其中有四个候选意图(在图5中用五角星标记)与地点有关。然而, 通常人们只会选择这四个候选意图中的一个。例如,住在“New York”附近的人总是选择 第2个意图,即“furniture for small spaces new york”,而忽略其他三个意图。而住在 “Seattle”附近的人总是选择第10个意图,即“furniture for small spaces seattle”, 而忽略其他三个意图。因此,同时输出这样的四个候选意图会影响意图召回率。 0020。
27、 特别是,在考虑到输出有限(例如,仅仅输出前10个候选意图)的情况下,可以过滤 将被忽略的候选意图,而留出空间给更多有用的候选意图。这样可以提高意图召回率。 0021 引文列表 0022 论文1:Santos,et al.2011.University of Glasgow at the NTCIR-9 Intent task:Experiments with Terrier on Subtopic Mining and Document Ranking. Proceedings of NTCIR-9 Workshop Meeting,2011,Tokyo 0023 论文2:Xue,et al。
28、.2011.THUIR at NTCIR-9 INTENT Task.Proceedings of NTCIR-9 Workshop Meeting,2011,Tokyo 0024 论文3:Sakai,et al.2010.Simple Evaluation Metrics for Diversified Search Results.Proceedings of the3 rd EVIA,2010,Tokyo 0025 论文4:Sakai and Song.2011.Evaluating Diversified Search Results Using Per-intent Graded R。
29、elevance.Proceedings of SIGIR11,2011,Beijing 发明内容 说 明 书CN 103942232 A 3/24页 9 0026 本发明旨在解决上述问题。本发明的一个目的是提供一种解决上述问题中的任一 个的方法和设备。 0027 本发明的一个目的是提高意图召回率。 0028 根据本发明的一个方面,提供了一种用于挖掘意图的方法,其包括以下步骤:A)获 取用户的查询;B)挖掘与所述查询有关的候选意图;以及C)在所挖掘出的候选意图之中构 建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。 0029 另外,根据本发明的另一个方面,提供了一种用于挖掘。
30、意图的设备,其包括:单元 A),被配置为获取用户的查询;单元B),被配置为挖掘与所述查询有关的候选意图;以及单 元C),被配置为在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包 括至少两个相互排他的候选意图。 0030 利用根据本发明的上述方法和设备,可以提高意图召回率。 0031 根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。 附图说明 0032 并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描 述一起用于说明本发明的原理。 0033 图1是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。 0034 图2示出了一个用于基于意图的信。
31、息检索系统的用户界面的示例。 0035 图3示出了一个意图搜索系统的示例。 0036 图4示出了论文2中提出的方法的流程。 0037 图5示出了利用现有技术的方法输出的意图列表的一个示例。 0038 图6示出了根据本发明的第一实施例的用于挖掘意图的方法的流程图。 0039 图7示出了构建排他合集的一种示例性方法。 0040 图8示例性地示出了挖掘出的多个候选意图。 0041 图9示例性地示出了获得候选合集的过程。 0042 图10示例性地示出了识别排他合集的过程。 0043 图11示出了构建排他合集的另一种示例性方法。 0044 图12示例性地示出了任意划分的候选合集。 0045 图13示出了。
32、计算图12中的“候选合集1432”的排他度的示例。 0046 图14是示出了根据本发明的第一实施例的用于挖掘意图的设备的框图。 0047 图1518示意性地示出了一种使候选意图多样化的方法的示例。 0048 图19示出了将排他合集中的所有候选意图作为上位词的下拉列表显示的示例。 0049 图20示出了针对召回率的实验结果的分析。 0050 图21示出了根据本发明第三实施例的一个示例的、可应用于图6中的意图挖掘步 骤的、用于挖掘与输入的查询有关的候选意图的方法的示例性流程图。 0051 图22是示出根据本发明第四实施例的一个示例的、在第一实施例的图6中的构建 步骤被执行之后执行的、用于基于合计的。
33、非重叠率来对候选意图进行额外处理的方法的示 例性流程图。 0052 图23示出根据本发明第四实施例的搜索结果的全集和各个子集之间的关系。 说 明 书CN 103942232 A 4/24页 10 0053 图24是示出在根据本发明第四实施例的方法中,用于基于合计的非重叠率选择n 个意图的示例处理的详细流程图。 0054 图25是示出根据本发明第四实施例的针对n个候选意图计算合计的非重叠率的 示例方法的流程图。 0055 图26是示出根据本发明第四实施例的针对n个候选意图计算合计的非重叠率的 另一示例方法的流程图。 具体实施方式 0056 下面将参考附图来详细描述本发明的优选的实施例。不是本发明。
34、必需的细节和功 能被省略,以便不会混淆本发明的理解。 0057 请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中 定义了一个项目,就不需要在之后的图中讨论了。 0058 在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分,而并 不意图表示时间顺序、优先级或重要性。 0059 为了有助于透彻地并且适当地理解本发明,下文将首先解释本发明的说明书以及 权利要求书中所使用的术语。 0060 “意图”指的是用户所输入的简短且含糊的查询所对应的真实希望的意思表示。例 如,当用户输入的查询“北京”时,“北京的天气”、“在北京的生活成本”等等都可是用户所输 入的该查询。
35、的意图。 0061 在很多情况下,用户会在一组候选意图(包括至少两个候选意图)之间进行排他性 选择。也就是说,用户总是只会在这一组候选意图之中选择一个候选意图,而忽略其它候选 意图。这时,这一组候选意图是相互排他的,在下文中被称为“排他意图”。 0062 例如,当用户输入查询“furniture for small space”时,可以得到如下两个候 选意图:“furniture for small spaces New York”、“furniture for small spaces Los Angeles”。很明显这两个候选意图涉及两个不同城市。住在“New York”附近的人总是选 择。
36、前一个候选意图,而忽略后一个候选意图。然而,住在“Los Angeles”附近的人总是选择 后一个候选意图,而忽略前一个候选意图。在这种情况下,这两个候选意图是相互排他的排 他意图。 0063 “排他合集”指的是由相互排他的至少两个排他意图构成的合集。例如,在上 述例子中,可以构建一个如下的排他合集:furniture for small spaces New York”, “furniture for small spaces Los Angeles”。 0064 “可读性/可理解性”指的是意图的表述更加符合应用环境下的表述习惯,而不仅 仅是多个词或短语的简单堆砌。在本申请中,通过利用上下文。
37、字符、尤其是连接字符,例如 功能词,来扩展用户输入的查询能够获得易于理解的候选意图。 0065 (计算机系统的硬件配置) 0066 图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。 0067 如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线 1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易 失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口 说 明 书CN 103942232 A 10 5/24页 11 1195。 0068 系统存储器1130包括ROM(只。
38、读存储器)1131和RAM(随机存取存储器)1132。 BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它 程序模块1136和某些程序数据1137驻留在RAM1132中。 0069 诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口 1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模 块1146和某些程序数据1147。 0070 诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接 到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动。
39、器1151中,以 及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。 0071 诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。 0072 计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口 1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制 解调器(调制器解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机 1180。 0073 远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序 1185。 0074 视频接口1190连接到监视器119。
40、1。 0075 输出外围接口1195连接到打印机1196和扬声器1197。 0076 图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进 行任何限制。 0077 图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可 作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更 多个附加的组件。 0078 (第一实施例) 0079 图6示出了根据本发明的第一实施例的用于挖掘意图的方法的流程图。 0080 如图6所示,在获取步骤610中,获取用户的查询。 0081 在意图挖掘步骤620中,挖掘与用户的查询有关的候选意图。可以利用各种本领 域已。
41、知的方法(例如参见论文2)来挖掘候选意图。 0082 在构建步骤630中,在所挖掘出的候选意图之中构建至少一个排他合集,其中每 个排他合集包括至少两个相互排他的候选意图。 0083 可以利用各种方式来构建排他合集。 0084 图7示出了构建排他合集的一种示例性方法。 0085 如图7所示,在步骤6310a中,根据候选意图的语义类型来对所挖掘出的至少两个 候选意图进行分类,以便得到至少一个候选合集,其中每个候选合集包括至少两个具有相 同语义类型的候选意图。 0086 语义类型可以包括概念类型(concept type)、命名实体类型(name entity type)、本体类型(ontology。
42、 type)和用户定义的类型中的至少一种。例如,对于本体类型, 可以采用Freebase来识别和泛化候选意图,从而将具有相同本体类型的候选意图关联到 说 明 书CN 103942232 A 11 6/24页 12 同一个本体集群(ontological cluster)。Freebase是一种结构化数据的在线集合,旨在 创建允许人们(和机器)更有效地访问共同信息的全球资源。 0087 作为具体示例,语义类型可以为例如,性别、年龄、时间、等级、布尔值、社会关系和 位置等等。全球社会知识源(诸如Freebase)可以提供必要的信息来确定候选意图的语义 类型。 0088 下面示例性地示出几个相应语义。
43、类型的候选排他合集: 0089 具有性别特征的候选排他合集:Blue throated hummingbird female,Blue throated hummingbirdmale; 0090 具有年龄特征的候选排他合集:Signs of a heart attack in women over50, Signs of a heart attack in young women; 0091 具有时间特征的候选排他合集:Brooks brothers summer clearance sales,Brooks brothers winter clearance sales。 0092 然后,。
44、在步骤6320a中,根据每个候选合集中的候选意图的语义类型的排他度来 识别排他合集。语义类型的排他度可以是针对语义类型手动地预先设定的,或者是基于具 有所述语义类型的候选意图来自动地预先计算的。可以通过利用具有相同语义类型的候选 意图之间的关系分数来预先计算排他度。具体的排他度的计算方法可以参考后述的结合图 11描述的计算候选合集的排他度的方法。排他度一般被设定在0到1之间,排他度的值越 大表明候选意图之间的排他性越强。 0093 下面的表2给出了手动地预先设定的语义类型的排他度的一些示例。 0094 语义类型排他度 性别0.9 年龄0.9 时间0.9 等级0.8 布尔值1 0095 表2 0。
45、096 在一个示例中,可以通过预先定义一个排他度阈值来识别排他合集。如果候选合 集对应的语义类型的排他度大于该排他度阈值,则将该候选合集识别为排他合集。例如,可 以预先定义排他度阈值为0.7。本领域技术人员应理解,上述方法和数值仅仅是示例性的, 本发明的识别排他合集的方法显然不限于此。 0097 为了有助于透彻理解上述的图7的方法,下面将给出一个详细示例来例示该方 法。应注意,下面的示例仅仅是说明性的,而不是限制性的。用户的查询、所挖掘出的候选 意图及其数量以及排序方式等都不局限于上述示例。 说 明 书CN 103942232 A 12 7/24页 13 0098 首先,获取用户的查询“fur。
46、niture for small spaces”。 0099 然后,挖掘与用户的查询有关的候选意图,如图8所示。 0100 然后,如图9所示,根据候选意图的语义类型来对所挖掘出的候选意图进行分类, 从而得到多个候选合集。图9的左边示出的是图8所示的所挖掘出的候选意图,右边示出 了候选合集1,该候选合集1中的所有候选意图均具有位置特征。即,候选合集1中的候选 意图的语义类型为“位置”。 0101 然后,如图10所示,根据每个候选合集中的候选意图的语义类型的排他度来识别 排他合集,其中语义类型的排他度是针对语义类型手动地预先设定的。预先定义排他度阈 值为0.7。从图10可以看出,候选合集1的排他度。
47、为0.9,大于排他度阈值,因此,可以确定 候选合集1为排他合集。 0102 图11示出了构建排他合集的另一种示例性方法。 0103 如图11所示,在步骤6310b中,将所挖掘出的至少两个候选意图划分成多个候选 合集,其中每个候选合集包括至少两个候选意图。候选意图可以被任意划分,或者根据系统 要求进行特定的划分。例如,在挖掘出如图8所示的与用户的查询“furniture for small spaces”有关的候选意图之后,可以将这些候选意图如图12所示地任意地划分成多个候选 合集。 0104 在步骤6320b中,为每个候选合集中的任意两个候选意图构建意图排他性向量, 每个意图排他性向量包括两个。
48、候选意图和这两个候选意图的关系分数。 0105 可以利用各种方式来获得两个候选意图之间的关系分数。 0106 例如,一种获得关系分数的方法可以包括:分析与用户的查询有关的日志数据; 构建与查询、有关用户ID(identifier,标识符)和有关用户点击的意图相关联的数据集; 以及基于所述数据集,根据点击了两个候选意图中的至多一个的用户ID的数量来计算这 两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。优选地,所 述数据集可以包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或URL (Uniform Resource Locator,统一资源定位器)。 0107 。
49、在该方法中,在分析日志数据之后,优选地,可以过滤没有排序或点击URL的记录 数据(record data),更优选地,还可以过滤重复的记录数据。 0108 优选地,构建的数据集可以包括以下数据:SessionID(用户ID编号)、QUERY(用户 提交的查询)、QueryTime(提交查询的时间)、RANK(搜索结果的排序)、UserClickedIntent (用户点击的搜索结果的主题或URL)。下面的表3给出了如此构建的数据集的一个示例。 0109 0110 表3 0111 优选地,在数据集中,所有用户ID的针对步骤610中获取的查询的点击频率不小 说 明 书CN 103942232 A 13 8/24页 14 于2。 0112 例如,可以利用如下的公式(1)来计算两个候选意图之间的关。