《交互式互联网实体名称的消歧方法.pdf》由会员分享,可在线阅读,更多相关《交互式互联网实体名称的消歧方法.pdf(17页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102968419 A(43)申请公布日 2013.03.13CN102968419A*CN102968419A*(21)申请号 201110266733.6(22)申请日 2011.08.31G06F 17/30(2006.01)(71)申请人微软公司地址美国华盛顿州(72)发明人刘晓江 聂再清 曹涌 吕正东罗刚 文继荣 马维英(74)专利代理机构上海专利商标事务所有限公司 31100代理人陆嘉(54) 发明名称交互式互联网实体名称的消歧方法(57) 摘要本发明揭示了一种交互式互联网实体名称的消歧方法。该方法包括三个主要的步骤:预处理步骤、迭代排序步骤和呈现步骤。在。
2、预处理步骤中,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。在迭代排序步骤中,循环执行下述步骤直至满足终止条件:根据排序模型按照与实体的类似程度对互联网实体名称进行排序;产生包含选项的交互问题;向用户呈现交互问题并接收用户选择的选项作为用户反馈;根据用户反馈对排序模型进行优化,并重新对互联网实体名称进行排序。在呈现步骤中,选择排序最前的互联网实体名称并生成与被查询的实体相关的总结页面,向用户呈现总结页面。(51)Int.Cl.权利要求书3页 说明书9页 附图4页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 3 页 说。
3、明书 9 页 附图 4 页1/3页21.一种交互式互联网实体名称(web appearance)的消歧方法,其特征在于,包括:预处理步骤,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含所述查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合(initial clustering);迭代排序步骤,循环执行下述步骤直至满足终止条件:根据排序模型(ranking model),按照与实体的类似程度对互联网实体名称进行排序;产生交互问题,所述交互问题包含选项;向用户呈现交互问题并接收用户选择的选项作为用户反馈;根据用户反馈对排序模型进行优化,并根据优化的排序模型对互。
4、联网实体名称重新进行排序;呈现步骤,选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面(summarization page),该总结页面与被查询的实体相关,向用户呈现所述总结页面。2.如权利要求1所述的交互式互联网实体名称的消歧方法,其特征在于,所述终止条件包括:排序模型不再产生新的信息;或者收到用户的终止指令。3.如权利要求1所述的交互式互联网实体名称的消歧方法,其特征在于,向用户呈现交互问题包括对交互问题进行选择并呈现被选中的交互问题。4.如权利要求1所述的交互式互联网实体名称的消歧方法,其特征在于,将与同一个实体相关的互联网实体名称初始聚合包括应用启发式规则。5.如权利要求。
5、1所述的交互式互联网实体名称的消歧方法,其特征在于,对排序模型进行优化包括基于归一化期望标准对排序模型进行优化。6.如权利要求1所述的交互式互联网实体名称的消歧方法,其特征在于,所述呈现步骤还包括:利用所述排序模型对新获取的互联网实体名称进行分类并通知用户。7.一种交互式互联网实体名称的消歧装置,其特征在于,包括:预处理装置,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含所述查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合;迭代排序装置,迭代排序装置包括依次连接并依次工作的下述模块,迭代排序装置循环工作直至满足终止条件:排序模型(ranking mode。
6、l),按照与实体的类似程度对互联网实体名称进行排序;问题产生模块,产生交互问题,所述交互问题包含选项;问题呈现模块,向用户呈现交互问题并接收用户选择的选项作为用户反馈;模型优化模块,根据用户反馈对排序模型进行优化,并指示经过优化的排序模型对互联网实体名称重新进行排序;呈现装置,选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关,向用户呈现所述总结页面。8.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,迭代排序装权 利 要 求 书CN 102968419 A2/3页3置的终止条件包括:排序模型不再产生新的信息;或者收到用户的终止指令。9.。
7、如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,问题呈现模块进一步包括问题选择模块,问题选择模块对交互问题进行选择,问题呈现模块呈现被问题选择模块选中的交互问题。10.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,预处理装置应用启发式规则将与同一个实体相关的互联网实体名称初始聚合。11.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,模型优化模块对排序模型进行优化包括基于归一化期望标准对排序模型进行优化。12.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,所述呈现装置还包括:分类及通知模块,利用所述排序模型对新获取的互联网实体名称进行。
8、分类并通知用户。13.一种交互式互联网实体名称的消歧方法,其特征在于,包括:接收查询信息,该查询信息与被查询的实体相关;检索互联网实体名称,所述互联网实体名称与实体相关,查找包含所述查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合;循环执行下述步骤,直至满足终止条件:根据排序模型对互联网实体名称进行排序,排序的顺序是按照与实体的类似程度;与用户交互并收集用户的反馈;依据用户的反馈对排序模型进行优化,并根据优化的排序模型对互联网实体名称重新进行排序;选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关;向用户呈现所述总结页面。14.如权。
9、利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,所述终止条件包括:排序模型不再产生新的信息;或者收到用户的终止指令。15.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,与用户交互并收集用户的反馈包括:产生包含选项的交互问题;向用户呈现交互问题并接收用户选择的选项作为用户反馈。16.如权利要求15所述的交互式互联网实体名称的消歧方法,其特征在于,与用户交互并收集用户的反馈包括:向用户呈现交互问题包括对交互问题进行选择并呈现被选中的交互问题。17.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,将包含查询信息的互联网实体名称初始聚合包括应用启发式规则。。
10、权 利 要 求 书CN 102968419 A3/3页418.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,对排序模型进行优化包括基于归一化期望标准对排序模型进行优化。19.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,还包括:利用所述排序模型对新获取的互联网实体名称进行分类并通知用户。权 利 要 求 书CN 102968419 A1/9页5交互式互联网实体名称的消歧方法技术领域0001 本发明涉及搜索技术,更具体地说,涉及一种能够在网络上精确查找实体的交互式互联网实体名称的消歧方法。背景技术0002 在诸如社交网络是的网络上,每一个“人”被看做是一个“实体。
11、”,用来识别或者查找这个实体(即“人” )的主要手段就是查找这个实体的互联网实体名称(web appearance)。0003 网络,由其实近来风靡的社交网络的一个最主要的功能是缩短了人与人之间的距离,使得每个人与自己的朋友或者亲人能够保持密切的联系。所以,在社交网络上,使用真实姓名的比例很高,如果在社交网络上使用真实姓名,那么这个姓名就是这个人(实体)的互联网实体名称。真实的姓名所带来的一个问题就是重名的概率比较高。0004 无论是在社交网络还是一般的互联网上,如果要查找一个人或者一个网络实体,那么基于文字的关键字搜索是主要的方式。在查找自己感兴趣的人的时候,以姓名作为关键字进行查找是最常用。
12、的方式。上面提到,因为重名的现象比较普遍,所以很难实现“精确搜索”,往往搜索引擎会提供许多重名的人的信息或者页面,用户必须一个一个地进行浏览,才能够确定哪一个才是自己真正想要查询的人。这需要花费用户大量的时间。0005 此外,一般的搜索引擎不提供页面的合并功能,这就使得用户可能会得到很多个重复的结果。再者,搜索引擎有自己的结果排序规则,提供给用户的搜索结果是按照搜索引擎自己的排序规则排列,但这对于用户来说并不是理想的顺序。在找人的时候,用户显然希望能够按照与目标人物(实体)的符合程度来进行排列,这样才能够节省用户的时间。发明内容0006 本发明旨在提出一种通过与用户的交互来获取信息,并借助于这。
13、些信息对搜索结果进行合并和优化排序的交互式互联网实体名称的消歧方法。0007 根据本发明的一实施例,提出一种交互式互联网实体名称的消歧方法。该方法包括三个主要的步骤:预处理步骤、迭代排序步骤和呈现步骤。在预处理步骤中,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。在迭代排序步骤中,循环执行下述步骤直至满足终止条件:根据排序模型按照与实体的类似程度对互联网实体名称进行排序;产生交互问题,交互问题包含选项;向用户呈现交互问题并接收用户选择的选项作为用户反馈;根据用户反馈对排序模型进行优化,并根据优化的排序模型。
14、对互联网实体名称重新进行排序。在一个实施例中,终止条件包括排序模型不再产生新的信息或者收到用户的终止指令。在呈现步骤中,选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关,向用户呈现总结页面。0008 根据本发明的一实施例,提出交互式互联网实体名称的消歧装置。该装置包括预说 明 书CN 102968419 A2/9页6处理装置、迭代排序装置和呈现装置。预处理装置接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。迭代排序装置包括依次连接并依次工作的排序模型、问题产生模块。
15、、问题呈现模块和模型优化模块。迭代排序装置循环工作直至满足终止条件,在一个实施例中,迭代排序装置的终止条件包括排序模型不再产生新的信息或者收到用户的终止指令。迭代排序装置所包含的模块中,排序模型按照与实体的类似程度对互联网实体名称进行排序。问题产生模块产生包含选项的交互问题。问题呈现模块向用户呈现交互问题并接收用户选择的选项作为用户反馈。模型优化模块根据用户反馈对排序模型进行优化,并指示经过优化的排序模型对互联网实体名称重新进行排序。呈现装置选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关,向用户呈现总结页面。0009 根据本发明的一实施例,提出一种。
16、交互式互联网实体名称的消歧方法。该方法首先接收与被查询的实体相关的查询信息。然后检索与实体相关的互联网实体名称并查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。该方法之后循环执行下述步骤,直至满足终止条件:根据排序模型按照与实体的类似程度对互联网实体名称进行排序;与用户交互并收集用户的反馈;依据用户的反馈对排序模型进行优化,并根据优化的排序模型对互联网实体名称重新进行排序;选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关。在一个实施例中,终止条件包括:排序模型不再产生新的信息;或者收到用户的终止指令。在一个实施例中,与用。
17、户交互并收集用户的反馈包括:产生包含选项的交互问题并向用户呈现交互问题并接收用户选择的选项作为用户反馈。该方法最后向用户呈现总结页面。附图说明0010 本发明的上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变得更加明显,在附图中,相同的附图标记始终表示相同的特征,其中:0011 图1揭示了根据本发明的一实施例的交互式互联网实体名称的消歧方法的流程图。0012 图2揭示了根据本发明的一实施例的交互式互联网实体名称的消歧装置的结构图。0013 图3揭示了根据本发明的一实施例的交互式互联网实体名称的消歧方法的流程图。0014 图4揭示了根据本发明的一具体实现,iKnoweb的交互。
18、过程。具体实施方式0015 参考图1所示,揭示了根据本发明的一实施例的交互式互联网实体名称的消歧方法。该方法100包括如下的步骤:0016 预处理步骤102、迭代排序步骤104和呈现步骤106。0017 在预处理步骤102中接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初说 明 书CN 102968419 A3/9页7始聚合(initial clustering)。在一个实施例中,初始聚合应用启发式规则。这里,以利用本发明的技术的一个具体实现iKnoweb为例来对本发明的方法进行更加具体的说明。当用户来到iKnow。
19、eb时,即开始了预处理步骤(pre-processing part)。通常,用户会输入希望查询的人的姓名,输入查询姓名(query name)就被视为是输入了查询信息。iKnoweb会检索所有的互联网实体名称,并且找到那些该查询姓名至少出现一次的互联网实体名称。iKnoweb从这些互联网实体名称中提取一些预先设定的特征,这些特征包括:词组出现频率、网页上的名字实体、查询人的真实信息等等。0018 由于存在多个社交网络,并且有许多的应用都提供实体名称的服务,因此,同一个人在互联网上可能拥有许多个实体名称,这些实体名称都是与同一个人相关。对于使用iKnoweb进行查找的用户来说,用户所关心的是“人。
20、” (实体本身)而不是某一个实体名称或者某一个网页,因此,对于这些与同一个人(实体)相关的实体名称,需要将它们进行合并。合并与同一个实体相关的实体名称是有利于加快与用户的交互进程和搜索效率的。在iKnoweb中,利用聚合组件(clustering component)来将比较类似的互联网实体名称进行合并,合并成组(group)。此处将这个合并的过程称之为初始聚合(initial clustering)。在初始聚合过程中,使用的初始聚合算法需要十分精确。因为iKnoweb的目标是提供给用户100精确的实体名称。将类似(与同一个人关联)的实体名称合并到一个单一的组中能够节省用户的时间。如果组是不精。
21、确的,那么用户还是需要重新展开这些组并且仔细地浏览族中的每一个页面,这将耗费用户大量的时间。在该初始聚合的过程中使用了一些启发式(heuristic)的规则。0019 进行初始聚合的目的是将类似的(与同一个人相关的)页面进行聚合。通常由搜索引擎返回的互联网实体名称可能包含重复的或者近似重复的页面。为了减少用户浏览并标记每一个类似的实体名称,使用一种聚合算法来将实体名称聚合成小型的组,这些组称之为最大识别单元(maximum recognition unit,MRU)。最大识别单元的尺寸不需要很大,但是最大识别单元需要十分精确,其含义是,在每一个最大识别单元中的网页需要是关于同一个人的。用户只需。
22、要浏览一个最大识别单元中的一个网页就可以获得信息,并且确定是否这些网页就是所要查询的人的。有时候用户希望要查看所有的网页,这时也可以通过简单的方法来在用户界面中展开最大识别单元。在iKnoweb中,应用启发式(heuristic)的规则来完成该初始聚合步骤。所有的实体名称被视为无方向的图形(undirected graph),而每一个实体名称是一个节点(node)。如果至少一个规则在两个端节点处被满足,则使用一条无方向的边连接两个节点。之后基于连接的组件来聚合互联网实体名称。下面是iKnoweb使用的启发性规则的三个例子:0020 1)两个文件具有10个相同的标记(token);0021 2)。
23、有5个以上的人(除了被查询的人)是相同的;0022 3)两个文件进行的相同的提取操作。0023 这些启发式的规则是严格的并且在大多数时候是正确的。这些最大识别单元被视为下面所要描述的重新排序算法(re-ranking algorithm)中最小的信息单元。0024 在完成了初始聚合之后,后续的操作会利用到这些聚合得到的组,这会进一步地节省用户的时间。0025 在预处理步骤中,本发明还提供了多种开始进程的方式,除了上面介绍的输入查说 明 书CN 102968419 A4/9页8询名字以外,还可以通过如下的方式来开始iKnoweb的预处理步骤:通过登陆社交网络,利用社交网络提供的应用程序编程接口(。
24、API)来开始预处理步骤。在社交网络上通常会提供数个应用程序编程接口(API)来访问这些用户的信息。用户也可以通过输入用户名和口令的方式登录,之后利用这些API来获取用户的信息。因此在iKnoweb上也提供了用户通过输入社交网络以及社交网络的介绍(profile)来启动查询的方式。利用社交网络,除了名字以外,还可以利用介绍中的关键字,例如职业、教育背景等等来实现查询。0026 迭代排序步骤104循环执行下述步骤直至满足终止条件,终止条件包括:排序模型不再产生新的信息,例如没有新的互联网实体名称产生、互联网实体名称的顺序不再变动;或者收到用户的终止指令。迭代排序步骤104循环执行的步骤包括:00。
25、27 140.根据排序模型(ranking model)按照与实体的类似程度对互联网实体名称进行排序。0028 142.产生交互问题,交互问题包含选项。0029 144.向用户呈现交互问题并接收用户选择的选项作为用户反馈,还包括对交互问题进行选择并呈现被选中的交互问题。0030 146.根据用户反馈对排序模型进行优化,并根据优化的排序模型对聚合体重新进行排序。在一个实施例中,排序模型进行优化包括基于归一化期望标准对排序模型进行优化。0031 在迭代排序步骤104中,对由预处理步骤102获得的互联网实体名称进行排序,得到一个排序列表。最终的目的是,这个排序列表中排在最前面的互联网实体名称应当是最。
26、有可能与所查询的实体相关的。在具体的实现,例如上面所描述的iKnoweb的实现中,迭代排序步骤在开始阶段,在对于所查询的实体,即查询的人没有预先的了解的情况下,第一次迭代中的初始排序表是依据网络搜索引擎(Web Search Engine)的排序结果。0032 本发明的方案中,为了使得搜索结果能够更加符合用户的需求,希望对特征进行排序,这些特征反映了搜索到的实体与所查询的实体的类似程度。本发明试图对特征进行排序并且从这些特征中产生交互问题。在获取经过排序的互联网实体名称与特征后,iKnoweb自动在这些数据中进行选择。只有可以确定与所查询的实体相关的实体名称以及与所查询的实体相关的问题被选择,。
27、选择的内容被呈现给用户。为了节省用户的而时间,可以限制呈现给用户的项目的数量。在用户接收到这些内容之后,用户给所呈现的实体名称标记以三种标记:“是”、“否”或者“不确定”。iKnoweb不会自动为用户选择一个实体名称作为最终确定的实体名称搜索结果,即使iKnoweb可以确定该互联网实体名称有很高的可能性就是用户需要的那个实体的实体名称,iKnoweb也不会这么做。如此设计的目的有二:1)净化(pure)结果的准确性;2)iKnoweb是一项搜索服务,用户通过阅读由搜索服务查询到的信息来进行选择,iKnoweb不进行任何的最终确定工作可以确保用户不会遗漏阅读任何有价值的实体名称。在用户标记了所有。
28、了项目之后,这些被标记的实例和问题将被用作新的训练数据(training data)。用户回答的问题可以而被认为是对特征的标记,于是就可以得到两种训练数据:经标记的实例(instance)和经标记的特征(feature)。这些训练数据被用于训练多项逻辑回归模型(multinomial logistic regression model),该多项逻辑回归模型依据归一化期望标准(generalized expectation criteria)对所有的互联网实体名称进行排序。归一化期望标准具有模型化经标记的实例和经标记的特征的能力。当说 明 书CN 102968419 A5/9页9iKnoweb得。
29、到一个新的重新经过训练的模型时,重新开始这个过程,对所有未经确认的实体名称进行重新排序,并基于用户的反馈产生新的问题。0033 iKnoweb反复执行如下的四个步骤:对互联网实体名称进行排序并产生问题、选择实体名称以及问题、用户反馈、重新训练模型。上述的步骤将被反复进行直至出现下列之一的条件:0034 1)没有关于所查询的实体的新的实体名称出现,或者这些实体名称的排列顺序不再改变;2)用户终止了交互进程。0035 下面,对上述四个步骤中的关键过程进行详细的说明:0036 重新排序算法(Re-ranking algorithm):0037 在用户提供了他们的反馈之后,重新排序算法首先基于这些用户。
30、反馈重新训练模型,然后尝试对余下的实体名称进行重新排序。在iKnoweb中,接收两种类型的用户反馈:选择/删除实体名称以及回答问题。被选择的或者被删除的实体名称被视为经标记的实例,而回答的问题被视为经标记的特征。例如,如果用户回答一个问题“你认识A么?”,如果用户回答“是”,那么,将所有包含有关键字“A”的实体名称与所查询的实体之间的关联可能性设置为一个十分接近“1”的值,例如“0.99”,可以理解为这是一个条件概率。于是,每一个回答的问题都可以被视为是一个条件概率分布。将每一个实体名称dsi作为一个特征向量xsi。每一个实体名称可被标记为“是”或者“否”,分别以标记ysi1或者ysi0来表示。
31、。训练问题可以被描述如下:在一个集合Ds所包含的所有实体名称中,一个子集L被标记,其中可以得到一个标记ysi。同时得到一个关于所有的特征的集合F,其中得到一个估计的分布从Ds、L和F中,希望训练一个模型M,模型M被用于对未经确认的部分Ds-L进行排序,排序的顺序是依据与查询实体ps的类似程度。归一化期望标准被用于考虑这些输入。0038 归一化期望标准(generalized expectation criteria)0039 传统的可能性模型的参数是按照最大(后验)似然估计(maximum aposteriori likelihood estimation)、动差拟合(moment match。
32、ing)或者是最大熵原则(maximum entropy principie)。而归一化期望标准从另一个角度提供了一种估计参数的方法。归一化期望标准是一个参数估计对象函数项,该函数表示了模型对于变量值的一些倾向性。该项(term)可以是多种类型,例如,可以将该项(term)定义为模型的期望值与目标值之间的距离。目标值可以是来自于外部的知识源,例如训练数据、已知知识或者来自专家的帮助。归一化期望标准的一个主要的好处是提供了一种人类直接展示他们头脑中的知识并且方便地使用期望与模型进行交互的方法。0040 设F为一些特征的集合,并指定fF。设为定义F的概率分布的模型的参数p(F)。可以定义归一化期望。
33、标准项为函数G。0041 G(Ef(X)R0042 其中f(X)是特征x的任意函数,产生一些标量(scalar)或者向量值。Ef(X)是根据模型对f的期望。一般,距离函数G可以是两个分布之间的KL偏离(KL divergency),或者是两个期望之间的标准距离(norm distance)。在本实施例中,使用KL偏离(KL divergency)来度量用户输入的参考分布与模型估计的特征分布之间的距离。该项可被用作目标函数的一部分。通过最小化目标函数就能够得到优化的参数:说 明 书CN 102968419 A6/9页100043 0044 使用归一化期望标准进行重新排序0045 当用户开始与iK。
34、noweb进行交互时,将所查询的实体的实体名称的歧义问题视为一个二进制分类或者排序问题:对实体名称是否是关于所查询的实体进行分类,或者按照与所查询的实体的类似程度对所有未经确认的实体名称进行排序。在iKnoweb中,使用多项逻辑回归(multinomiai logistic regression)来对排序问题进行建模。对于给定的观察(observation)的标记y的条件概率可以被表示为:0046 0047 其中x是一个实体名称的特征向量,是特征权重向量,Z(x)是用于标准化条件概率的配分函数(partition function),y是一个二进制标记。传统的训练数据仅包含经标记的实例。为了得。
35、到参数,试图对目标函数O进行优化:0048 0049 其中该目标函数包括两项。第一项是所有经标记的实例的后验似然性。最大化这部分可以设置模型以最佳地适应经标记的数据。第二部分是优先于参数的零均值高斯方差(zero-mean 2-variance Gaussian),其作用是限制参数以避免过度调整。0050 如前面所述的,对于问题的回答被视为每一个特征的经标记的分布:其中xkX。为了对这部分建模,增加一个归一化期望标准项来度量在所有经标记的特征上的特征参考分布与模型估计分布之间的KL偏离。然后,对新的目标函数O进行优化:0051 0052 其中是经标记的特征的偏离的权重,是参考特征分布而是模型期。
36、望的分布。0053 问题的生成与选择:0054 为了加快进程并且提供给用户更加方便的用户体验,在与用户进行交互的过程中向用户提出交互问题。用户能够通过与iKnoweb的互动来分享他们关于所查询的人的知识。在iKnoweb中,将问题视为特征的一种呈现,当用户回答这些问题时可以视为用户对特征的估计。对于所有类型的特征,都可以提出问题。0055 对于每一个问题,都有三种答案:“是”、“否”或者“不确定”。如果回答“是”,那么用户表示了他们的观念中是大值,例如0.99。回答“否”是与回答“是”相反的,而回答“不确定”表示用于对于答案并没有把握。“不确定”的回答可以被认为是一个终止符号,如果用户选择了这个回答,那么就不再询问这个问题。0056 在iKnoweb中,与传统的主动学习不同,问题的选择具有两个主要的不同。首先,在主动学习系统中,用户是真正的标记者(labeler)。这些用户是被支付了报酬而来协助系统学习的,机制他们知道他们的工作十分枯燥和无聊,他们依旧有足够的耐心,属于具有充分耐心的一类用户。主动学习旨在寻找最能够用于改善模型的实例,用户会坚持协助系统学习直至任务完成。而在iKnoweb中,情况确是不同的,用户来到iKnoweb是为了搜索信说 明 书CN 102968419 A10。