《一种面向用户信息需求的搜索引擎日志数据挖掘的方法.pdf》由会员分享,可在线阅读,更多相关《一种面向用户信息需求的搜索引擎日志数据挖掘的方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103164537 A(43)申请公布日 2013.06.19CN103164537A*CN103164537A*(21)申请号 201310125029.8(22)申请日 2013.04.09G06F 17/30(2006.01)(71)申请人浙江鸿程计算机系统有限公司地址 310012 浙江省杭州市教工路1号11号楼1楼(72)发明人吴勇 王敬昌 陈岭 邵维(54) 发明名称一种面向用户信息需求的搜索引擎日志数据挖掘的方法(57) 摘要本发明涉及互联网搜索引擎日志划分领域,尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法,包括:查询日志块归类、查询相似度计。
2、算和用户信息需求提供,综合计算查询词相似度和查询结果相似度作为查询相似度,以此为依据判断了两个查询是否具有相同的信息需求,有效快速的对搜索日志进行划分。本发明的有益效果在于:本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。(51)Int.Cl.权利要求书1页 说明书4页 附图3页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书4。
3、页 附图3页(10)申请公布号 CN 103164537 ACN 103164537 A1/1页21.一种面向用户信息需求的搜索引擎日志数据挖掘的方法,其特征在于包括查询日志块归类、查询相似度计算和用户信息需求提供,查询日志块归类包括以下步骤:1)根据日志信息标志每个用户查询的查询时间和IP;2)根据用户IP对搜索日志进行划分,默认IP相同的搜索日志为一个用户的查询日志块;3)对相同用户的查询日志块用时间划分,将查询时间间隔大于时间阈值的查询划分成不同查询块;查询相似度计算包括查询词相似度计算、查询结果相似度计算及查询相似度输出,查询词相似度计算包括以下步骤:1)输入用户查询块中的查询语句,将。
4、查询语句的词进行分词,去掉停用词;2)在经过分词的查询语句中提取查询关键词;3)计算查询关键词中相同的词和不同的词;4)输出相同的词和查询关键词的比值作为查询词相似度;查询结果相似度计算包括以下步骤:1)提取查询返回的结果网页作为输入;2)提取网页进行文本化,对文本进行分词;3)计算每个单词的TF-IDF值,将文本向量化;4)通过比较两个查询的距离计算出查询结果相似度;根据查询词相似度和查询结果相似度,输出查询相似度;用户信息需求提供包括以下步骤:1)输入经过时间和用户IP划分的用户搜索日志;2)在划分好的查询块内,计算第一个查询和其他查询的相似度,将相似度高的所有查询归为同一个用户信息需求的。
5、搜索任务查询并标记;3)统计用户查询相似度得出用户信息需求,并通过搜索引擎提供给用户个性化需求的结果。2.根据权利要求1所述的一种面向用户信息需求的搜索引擎日志数据挖掘的方法,其特征在于,查询词相似度计算的步骤2)所述的查询语句的分词的词为中文。权 利 要 求 书CN 103164537 A1/4页3一种面向用户信息需求的搜索引擎日志数据挖掘的方法技术领域0001 本发明涉及互联网搜索引擎日志划分领域,尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法。背景技术0002 搜索引擎日志的研究是互联网不可缺少的一个环节,尤其是对优化网站来说,SEO业务需要做好,都必须进行科学的日志分析。搜索。
6、引擎日志包含的用户活动信息,如用户的使用时间、点击文档位置、搜索次数等,能够为用户行为分析提供依据,指导搜索引擎的技术改进。搜索引擎日志划分,是搜索引擎日志研究的基础。目前对搜索引擎日志划分,主要有两种方法:人工划分和自动划分,其中人工划分的方法又可以分为用户自报告和评估员人工标注。0003 用户自报告是指用户在搜索的时候就标注出自己使用的情况,这样得到的是真实准确的数据,但自报告的方法需要大量的人力,可行性低。0004 评估员人工标注是指评估员根据自己理解对日志标注数据,重现用户使用搜索引擎的情况,这样做比自报告需要的人力略少,但是准确度没有用户自报告高。0005 自动划分是提取搜索引擎日志。
7、中的特征,根据特征对日志进行划分,最普遍的方法是根据时间进行划分,将搜索引擎记录下来的数据视为连续的序列,判断两次用户搜索的时间间隔是否大于时间阈值,将小于时间阈值的用户搜索划分入同一个数据块。这类方法首先要确定一个合适的时间阈值,但是不同情况下用户搜索的情况千变万化,准确的时间阈值难以确定。其他的自动划分方法提取的特征有用户IP、Cookie、搜索语句等。自动划分和和人工划分相比,胜在简单快速,劣势在于准确度不高。0006 但是前面所提到的方法都忽略了一个事实,用户在使用搜索引擎时经常在同一时间进行多个信息需求的搜索活动,在搜索日志上表现为带有多个搜索目的的搜索行为同时进行,一个完整的查询活。
8、动会被分成几个小块记录在搜索引擎日志中。传统的方法往往将这类同一个信息需求的几个小块划分成多个不同信息需求的搜索记录,不能有效识别这种带有多信息需求的用户活动搜索引擎日志。发明内容0007 本发明为克服上述的不足之处,目的在于提供面向用户信息需求的搜索引擎日志划分方法,解决多用户信息需求并存的搜索引擎日志中,对一个用户单一信息需求搜索的记录的识别和划分,统计用户查询相似度得出用户信息需求,并通过搜索引擎提供给用户个性化需求的结果。0008 本发明是通过以下技术方案达到上述目的:0009 一种面向用户信息需求的搜索引擎日志数据挖掘的方法,包括查询日志块归类、查询相似度计算和用户信息需求提供,查询。
9、日志块归类包括以下步骤:0010 1)根据日志信息标志每个用户查询的查询时间和IP;说 明 书CN 103164537 A2/4页40011 2)根据用户IP对搜索日志进行划分,默认IP相同的搜索日志为一个用户的查询日志块;0012 3)对相同用户的查询日志块用时间划分,将查询时间间隔大于时间阈值的查询划分成不同查询块。0013 查询相似度计算包括查询词相似度计算、查询结果相似度计算及查询相似度输出,查询词相似度计算包括以下步骤:0014 1)输入用户查询块中的查询语句,将查询语句的词进行分词,去掉停用词;0015 2)在经过分词的查询语句中提取查询关键词;0016 3)计算查询关键词中相同的。
10、词和不同的词;0017 4)输出相同的词和查询关键词的比值作为查询词相似度。0018 查询结果相似度计算包括以下步骤:0019 1)提取查询返回的结果网页作为输入;0020 2)提取网页进行文本化,对文本进行分词;0021 3)计算每个单词的TF-IDF值,将文本向量化;0022 4)通过比较两个查询的距离计算出查询结果相似度;0023 根据查询词相似度和查询结果相似度,输出查询相似度。0024 用户信息需求提供包括以下步骤:0025 1)输入经过时间和用户IP划分的用户搜索日志;0026 2)在划分好的查询块内,计算第一个查询和其他查询的相似度,将相似度高的所有查询归为同一个用户信息需求的搜。
11、索任务查询并标记;0027 3)统计用户查询相似度得出用户信息需求,并通过搜索引擎提供给用户个性化需求的结果。0028 作为优选,查询词相似度计算的步骤2)所述的查询语句的分词的词为中文。0029 本发明的有益效果在于:0030 本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。0031 本发明综合计算了查询词相似度和查询结果相似度作为查询相似度,以此为依据判。
12、断了两个查询是否具有相同的信息需求,能够更加有效快速的对搜索日志进行划分,为用户搜索行为分析提供更加准确的依据,通过搜索引擎提供给用户个性化需求的结果,为搜索引擎的改善提供更加准确的指导。附图说明0032 图1:面向用户信息需求的搜索引擎日志数据挖掘的方法流程图;0033 图2:查询日志块归类流程图;0034 图3:查询相似度计算流程图;0035 图4:用户信息需求提供流程图。说 明 书CN 103164537 A3/4页5具体实施方式0036 本发明提出了面向用户信息需求的搜索引擎日志数据挖掘的方法,流程图如图1所示,本方法可以分为三个阶段:查询日志块归类、查询相似度计算和用户信息需求提供。。
13、0037 查询日志块归类:0038 根据用户IP和时间对用户搜索日志的划分和传统方法一致,主要是为了简化多任务划分,缩小用户信息需求细划分循环的范围。0039 方法如图2所示:0040 1)根据日志信息标志每个用户查询的查询时间和IP;0041 2)对于得到的数据,先对两两相邻的查询(记为查询Qi和Qi+1)的用户IP进行比较,IP不同则将查询标注为不同的块;0042 3)对IP相同的相邻的两个查询,判断两个查询相隔时间是否大于时间阈值,大于时间阈值则将两个划分为不同的块。0043 查询相似度计算:0044 包括查询词相似度计算、查询结果相似度计算及查询相似度输出,查询词相似度计算包括以下步骤。
14、,如图3所示:0045 由于搜索引擎的用户大部分都是中文用户,在输入关键词查询信息时使用的都是中文。这里采用了计算查询语句之间的相同关键词的方法,首先对查询语句进行中文分词,分出的关键词再计算有多少个是相同的。0046 将第i个查询Qi分词后的结果记为集合R(Qi),将第j个查询Qj分词后的结果记为集合R(Qj),记Qi和Qj的查询词相似度为Kij,则查询Qi和查询Qj的查询词相似度可以计算为:0047 0048 步骤2:查询结果相似度计算:0049 返回结果的相似度是指,用户搜索后,搜索引擎返回的结果之间的相似度。这里的结果主要是指网页结果。为了能定量地计算查询结果相似度,首先,要将两张网页。
15、都向量化。0050 引入TF-IDF(term frequency-inverse document frequency)来表示一个词的权重。TF指的是某一个给定的词语在该文件中出现的次数,IDF是一个词语普遍重要性的度量。TF和IDF的乘积(记为TF-IDF值)可以作为一个词在文档中的权重的参考。0051 查询返回结果相似度是指两个查询的搜索引擎返回结果的相似度比较。为此,提取得所有查询的快照中的正文内容,并进行了分词,去掉了停用词,存入文档中。基于这个文档,可以计算每个单词的TF-IDF值。将第i个查询的返回结果向量化为:Pi,,.,0052 其中,Xpi_k(k1n)指在所有返回结果组成。
16、的文档集中一条查询返回结果经过中文分词之后的单词;Wpi_k指Xpi_k在这个查询中的权重,在本发明中为Wpi_k的TF-IDF值。0053 通过余弦值来比较两个查询的距离,记查询结果相似度为Rij,则:说 明 书CN 103164537 A4/4页60054 0055 步骤3:综合查询词相似度和查询结果相似度,输出查询相似度:0056 综合查询词相似度和查询结果相似度,计算查询相似度,记为Sij,则:0057 SijKij+(1-)Rij(3)0058 通过对人工标注的数据进行研究,这里取0.4作为参考数值,使得计算出的相似度最能代表查询之间的关系。0059 用户信息需求提供包括以下步骤:0。
17、060 根据查询相似度将同一用户相同信息需求的查询聚合到一起,如图4所示:0061 1)输入经过时间和用户IP划分的用户搜索日志数据;0062 2)在划分好的块内,计算第一个查询和其他查询的相似度,将相似度高的所有查询归为同一个目的的搜索任务查询并标记;0063 3)重复步骤2直到所有查询都已被标记;0064 4)统计用户查询相似度得出用户信息需求,输出已划分的数据,并通过搜索引擎提供给用户个性化需求的结果。0065 以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。说 明 书CN 103164537 A1/3页7图1图2说 明 书 附 图CN 103164537 A2/3页8图3说 明 书 附 图CN 103164537 A3/3页9图4说 明 书 附 图CN 103164537 A。