简历搜索方法和装置技术领域
本发明涉及计算机信息检索领域,尤其涉及一种简历搜索方法和装置。
背景技术
通常在对简历进行搜索匹配过程中,一般是通过关键词+相关词检进行检索
的,但是发明人在实施过程中发现该方案存在以下问题:在进行简历搜索时搜
索引擎会将关键词和相关词取相同的权重值进行搜索,那么命中的频次决定了
搜索出来的简历的排序,则搜索结果极有可能偏向某个频次较高的相关词,另
一方面,当相关词的数量大大多于关键词时,则在检索过程中关键词可能会被
相关词淹没,难以突出关键词相对于相关词在搜索出简历过程中作为主要作检
索关键词的作用。
发明内容
本发明实施例提出一种简历搜索方法,平衡关键词和相关词在简历搜索过
程中所占的权重,提高简历搜索的效率。
本发明实施例提出一种简历搜索方法,包括:
接收用于从简历数据库中进行简历搜索的关键词和相关词集;其中,所述
相关词集记载有多个相关词,以及每一个相关词与所述关键词的相关度;
根据所述相关词集中的相关词的数量选择权重计算方式,并基于所选择的
权重计算方式,根据所述每一个相关词与所述关键词的相关度,计算出在进行
简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值;
将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相
关词的权重值提交给搜索引擎,以从所述简历数据库中搜索出简历。
进一步地,当所述相关词集中的相关词的数量处于上限词量和下限词量之
间时,选择第一方式作为权重计算方式,则基于所选择的权重计算方式,根据
所述每一个相关词与所述关键词的相关度,计算出在进行简历搜索时每一个相
关词所占的权重值及所述关键词所占的权重值,具体为:
根据第一权重公式计算出所述相关词集中第i个相关词在进行简
历搜索时所占的权重值Wi;其中,rmax为在所述相关词集中所记载的所有相关词
的相关度的最大值;
根据第二权重公式WA=m×sumW,计算出所述关键词在进行简历搜索时所占
的权重值WA;其中,A为所述关键词,m为第一权重系数,sumW为所述相关词
集中所有相关词的权重值的总和。
进一步地,当所述相关词集中的相关词的数量不处于所述上限词量和所述
下限词量之间时,选择第二方式作为权重计算方式,则基于所选择的权重计算
方式,根据所述每一个相关词与所述关键词的相关度,计算出在进行简历搜索
时每一个相关词所占的权重值及所述关键词所占的权重值,具体为:
根据基准分值公式计算出所述相关词集中第i个相关词的
基准分值Si;其中,ri为所述相关词集中的第i个相关词的相关度;rmin为在所述
相关词集中所记载的所有相关词的相关度的最小值;rmax为在所述相关词集中所
记载的所有相关词的相关度的最大值;
对所述所有相关词的基准分值进行求和,获得基准分值总值sum;
根据第三权重公式WA=5+log1.5(sum+1),计算出所述关键词在进行简历搜索
时所占的权重值WA;其中,A为所述关键词;
判断所述第i个相关词的基准分值是否大于WA/n;若是,则根据第四权重公
式计算出所述第i个相关词在进行简历搜索时所占的权重值
Wi;若否,则根据第五权重公式计算出所述第i个相关词在进
行简历搜索时所占的权重值Wi;其中,n为第二权重系数;k为所述相关词集中
的相关词的数量。
再进一步地,在所述判断所述第i个相关词的基准分值是否大于WA/n之前,
还包括:
根据均值公式计算基准分值均值其中,为所述所有相关
词的相关度的平均值;
对于所述相关词集中的第i个相关词,判断所述第i个相关词的基准分值Si
是否大于所述基准分值均值
若是,通过更新公式更新所述第i个相关词的基准分值Si。
更进一步地,所述将所述关键词、所述关键词所占的权重值、每一个相关
词和所述每一个相关词所占的权重值提交给搜索引擎,以从所述简历数据库中
搜索出简历,具体为:
根据搜索引擎的权重关联格式,将所述关键词所占的权重值和所述关键词
相关联作为第一组合,以及将所述每一个相关词所占的权重值与其对应的相关
词相关联作为第二组合;
将所述第一组合和所述第二组合提交给搜索引擎,以供所述搜索引擎从所
述简历数据库中搜索出简历,并根据所述搜索引擎内置的排序算法显示搜索出
的简历;其中,所述简历中包含的所述关键词和所述每一个相关词以高亮形式
显示。
相应地,本发明实施例还提供一种简历搜索装置,包括:
接收模块,用于接收用于从简历数据库中进行简历搜索的关键词和相关词
集;其中,所述相关词集记载有多个相关词,以及每一个相关词与所述关键词
的相关度;
权重计算模块,用于根据所述相关词集中的相关词的数量选择权重计算方
式,并基于所选择的权重计算方式,根据所述每一个相关词与所述关键词的相
关度,计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占
的权重值;
搜索模块,用于将所述关键词、所述关键词所占的权重值、每一个相关词
和所述每一个相关词的权重值提交给搜索引擎,以从所述简历数据库中搜索出
简历。
进一步地,所述权重计算模块包括:
第一计算单元,用于当所述相关词集中的相关词的数量处于上限词量和下
限词量之间时,选择第一方式作为权重计算方式,根据第一权重公式
计算出所述相关词集中第i个相关词在进行简历搜索时所占的权重值Wi;其中,
rmax为在所述相关词集中所记载的所有相关词的相关度的最大值;
第二计算单元,用于根据第二权重公式WA=m×sumW,计算出所述关键词在
进行简历搜索时所占的权重值WA;其中,A为所述关键词,m为第一权重系数,
sumW为所述相关词集中所有相关词的权重值的总和。
进一步地,所述权重计算模块还包括:
基准分值计算单元,用于当所述相关词集中的相关词的数量不处于所述上
限词量和所述下限词量之间时,选择第二方式作为权重计算方式,根据基准分
值公式计算出所述相关词集中第i个相关词的基准分值Si;其中,
ri为所述相关词集中的第i个相关词的相关度;rmin为在所述相关词集中所记载的
所有相关词的相关度的最小值;rmax为在所述相关词集中所记载的所有相关词的
相关度的最大值;
求和计算单元,用于对所述所有相关词的基准分值进行求和,获得基准分
值总值sum;
第三计算单元,用于根据第三权重公式WA=5+log1.5(sum+1),计算出所述关
键词在进行简历搜索时所占的权重值WA;其中,A为所述关键词;
第四计算单元,用于判断所述第i个相关词的基准分值是否大于WA/n;若是,
则根据第四权重公式计算出所述第i个相关词在进行简历搜
索时所占的权重值Wi;若否,则根据第五权重公式计算出所述
第i个相关词在进行简历搜索时所占的权重值Wi;其中,n为第二权重系数;k
为所述相关词集中的相关词的数量。
再进一步地,所述权重计算模块还包括:
均值计算单元,用于在所述判断所述第i个相关词的基准分值是否大于WA/n
之前,根据均值公式计算基准分值均值其中,为所述所有相
关词的相关度的平均值;
判断单元,用于对于所述相关词集中的第i个相关词,判断所述第i个相关
词的基准分值Si是否大于所述基准分值均值
更新单元,用于当判断所述第i个相关词的基准分值Si是大于所述平均分值
时,通过更新公式更新所述第i个相关词的基准分值Si。
更进一步地,所述搜索模块具体包括:
权重相联单元,用于根据搜索引擎的权重关联格式,将所述关键词所占的
权重值和所述关键词相关联作为第一组合,以及将所述每一个相关词所占的权
重值与其对应的相关词相关联作为第二组合;
搜索显示单元,用于将所述第一组合和所述第二组合提交给搜索引擎,以
供所述搜索引擎从所述简历数据库中搜索出简历,并根据所述搜索引擎内置的
排序算法显示搜索出的简历;其中,所述简历中包含的所述关键词和所述每一
个相关词以高亮形式显示。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的简历搜索方法和装置,能根据相关词的数量选取不同
的权重计算算法,来进行计算关键词和相关词在搜索过程所占的权重,充分考
虑相关词的数量对关键词在检索过程的影响,平衡关键词和相关词在简历搜索
过程中所占的权重,避免在权重计算过程中出现当相关词过多时导致关键词权
重过大或过小,当相关词过少时关键词的权重过大或过小的权重失衡情况,使
得简历检索的过程更为合理,减少再次进行简历搜索的发生,提高简历搜索的
效率。
附图说明
图1是本发明提供的简历搜索方法的一个实施例的流程示意图;
图2是本发明提供的简历搜索装置的一个实施例的结构示意图;
图3是本发明提供的简历搜索装置的权重计算模块的一个实施例的结构示
意图
图4是本发明提供的简历搜索装置的搜索模块的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清
楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是
全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造
性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的简历搜索方法的一个实施例的流程示意图,该方
法包括以下步骤:
S1,接收用于从简历数据库中进行简历搜索的关键词和相关词集;其中,
所述相关词集记载有多个相关词,以及每一个相关词与所述关键词的相关度;
S2,根据所述相关词集中的相关词的数量选择权重计算方式,并基于所选
择的权重计算方式,根据所述每一个相关词与所述关键词的相关度,计算出在
进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值;
S3,将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一
个相关词的权重值提交给搜索引擎,以从所述简历数据库中搜索出简历。
进一步地,上述步骤S2中,当所述相关词集中的相关词的数量处于上限词
量和下限词量之间时,选择第一方式作为权重计算方式,则基于所选择的权重
计算方式,根据所述每一个相关词与所述关键词的相关度,计算出在进行简历
搜索时每一个相关词所占的权重值及所述关键词所占的权重值,具体的实施过
程为:
根据第一权重公式计算出所述相关词集中第i个相关词在进行简
历搜索时所占的权重值Wi;其中,rmax为在所述相关词集中所记载的所有相关词
的相关度的最大值;
根据第二权重公式WA=m×sumW,计算出所述关键词在进行简历搜索时所占
的权重值WA;其中,A为所述关键词,m为第一权重系数,sumW为所述相关词
集中所有相关词的权重值的总和。
需要说明的是,采用上述权重计算算法,进行计算关键词和相关词的权重
值,计算过程简单,能快速计算出关键词和相关词的权重值,但本权重计算算
法仅适合相关词的数量适当时,才能够即能快速计算出权重值,并能确保关键
词所占的权重值处于恰当的区间内。而当相关词的数量过多或过小时,即不在
上述上限词量和下限词量的范围之内,采用第二权重计算算法进行计算,具体
为步骤S4的实施过程。
进一步地,上述步骤S2中,当所述相关词集中的相关词的数量不处于所述
上限词量和所述下限词量之间时,选择第二方式作为权重计算方式,则基于所
选择的权重计算方式,根据所述每一个相关词与所述关键词的相关度,计算出
在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值,具
体的实施过程为:
根据基准分值公式计算出所述相关词集中第i个相关词的
基准分值Si;其中,ri为所述相关词集中的第i个相关词的相关度;rmin为在所述
相关词集中所记载的所有相关词的相关度的最小值;rmax为在所述相关词集中所
记载的所有相关词的相关度的最大值;
对所述所有相关词的基准分值进行求和,获得基准分值总值sum;
根据第三权重公式WA=5+log1.5(sum+1),计算出所述关键词在进行简历搜索
时所占的权重值WA;其中,A为所述关键词;
判断所述第i个相关词的基准分值是否大于WA/n;若是,则根据第四权重公
式计算出所述第i个相关词在进行简历搜索时所占的权重值
Wi;若否,则根据第五权重公式计算出所述第i个相关词在进
行简历搜索时所占的权重值Wi;其中,n为第二权重系数;k为所述相关词集中
的相关词的数量。
需要说明的是,计算相关词集中每个相关词的基准分值的目的是将相关词
的相关度基于同一个基准,以一个分值的形式,表示该相关词与关键词的相关
程度,该基准值优选为rmax-rmin+1;第一权重公式采用对数形式的公式,在基准
分值总值增长过快时,关键词的权重值仍保持缓和增长,因而,可以在相关词
相对较多的情况下,避免关键词所占权重过大这种情况的出现;在进行相关词
的权重计算时,分别采用第二权重公式和第三权重公式进行计算,是考虑到当
相关词的基准分值过大和过小这两种情况出现时,避免计算出该相关词的权重
值大于关键词的权重值,或者是大大小于关键词的权重值,也就是说在检索简
历过程中,能避免相关词过多把关键词淹没、以及出现关键词过于突出的情况;
对于第二权重系数的设置,可由实际情况来决定,一般取值为2或4.
再进一步地,上述步骤S2的具体实施过程还包括以下步骤:
在所述判断所述第i个相关词的基准分值是否大于WA/n之前,根据均值公式
计算基准分值均值其中,为所述所有相关词的相关度的平均
值;
对于所述相关词集中的第i个相关词,判断所述第i个相关词的基准分值Si
是否大于所述基准分值均值
若是,通过更新公式更新所述第i个相关词的基准分值Si。
需要说明的是,将该相关词集中的相关词的相关度均值基于同一个基准,
且该基准与上述基准相同,目的是以一个分值的形式,表示该相关词集与关键
词的平均相关程度;当一个相关词与关键词的相关程度(即基准分值)大于该
相关词集与关键词的平均相关程度(平均分值)时,可将该相关词与关键词的
相关程度,与该相关词集与关键词的平均相关程度这两个相关程度的差异值放
大10倍,作为该相关词与关键词的相关程度的基准分值;反之,则保持该相关
词与关键词的相关程度的原基准分值不变,这种方式更能确切地表达该相关词
与关键词的相关程度,使得相关词与关键词之间的关系更为合理。
更进一步地,上述步骤S3的具体实施过程为:
根据搜索引擎的权重关联格式,将所述关键词所占的权重值和所述关键词
相关联作为第一组合,以及将所述每一个相关词所占的权重值与其对应的相关
词相关联作为第二组合;
将所述第一组合和所述第二组合提交给搜索引擎,以供所述搜索引擎从所
述简历数据库中搜索出简历,并根据所述搜索引擎内置的排序算法显示搜索出
的简历;其中,所述简历中包含的所述关键词和所述每一个相关词以高亮形式
显示。
需要说明的是,一般采用的搜索引擎为solr搜索引擎,则上述权重关联格
式,可依据如下格式进行关联:关键词^关键词权重、相关词1^相关词1权重、
相关词2^相关词2权重……
实施本发明实施例的简历搜索方法,能根据相关词的数量选取不同的权重
计算算法,来进行计算关键词和相关词在搜索过程所占的权重,充分考虑相关
词的数量对关键词在检索过程的影响,平衡关键词和相关词在简历搜索过程中
所占的权重,避免在权重计算过程中出现当相关词过多时导致关键词权重过大
或过小,当相关词过少时关键词的权重过大或过小的权重失衡情况,使简历检
索的过程更为合理,减少再次进行简历搜索的发生,提高简历搜索的效率。
参见图2,是本发明提供的简历搜索装置的一个实施例的结构示意图,该简
历搜索装置能实施上述简历搜索方法的全部流程,其具体结构如下:
接收模块10,用于接收用于从简历数据库中进行简历搜索的关键词和相关
词集;其中,所述相关词集记载有多个相关词,以及每一个相关词与所述关键
词的相关度;
权重计算模块20,用于根据所述相关词集中的相关词的数量选择权重计算
方式,并基于所选择的权重计算方式,根据所述每一个相关词与所述关键词的
相关度,计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所
占的权重值;
搜索模块30,用于将所述关键词、所述关键词所占的权重值、每一个相关
词和所述每一个相关词的权重值提交给搜索引擎,以从所述简历数据库中搜索
出简历。
进一步地,参见图3,是本发明提供的简历搜索装置的权重计算模块的一个
实施例的结构示意图;该权重计算模块20包括:
第一计算单元21,用于当所述相关词集中的相关词的数量处于上限词量和
下限词量之间时,选择第一方式作为权重计算方式,根据第一权重公式
计算出所述相关词集中第i个相关词在进行简历搜索时所占的权重值Wi;其中,
rmax为在所述相关词集中的所有相关词的相关度的最大值;
第二计算单元22,用于根据第二权重公式WA=m×sumW,计算出所述关键
词在进行简历搜索时所占的权重值WA;其中,A为所述关键词,m为第一权重系
数,sumW为所述相关词集中所有相关词的权重值的总和。
进一步地,如图3所示,上述权重计算模块20还包括:
基准分值计算单元23,用于当所述相关词集中的相关词的数量不处于所述
上限词量和所述下限词量之间时,选择第二方式作为权重计算方式,根据基准
分值公式计算出所述相关词集中第i个相关词的基准分值Si;其
中,ri为所述相关词集中的第i个相关词的相关度;rmin为在所述相关词集中所记
载的所有相关词的相关度的最小值;rmax为在所述相关词集中所记载的所有相关
词的相关度的最大值;
求和计算单元24,用于对所述所有相关词的基准分值进行求和,获得所述
相关词集的基准分值总值sum;
第三计算单元25,用于根据第三权重公式WA=5+log1.5(sum+1),计算出所述
关键词在进行简历搜索时所占的权重值WA;其中,A为所述关键词;
第四计算单元26,用于判断所述第i个相关词的基准分值是否大于WA/n;
若是,则根据第四权重公式计算出所述第i个相关词在进行
简历搜索时所占的权重值Wi;若否,则根据第五权重公式计算
出所述第i个相关词词在进行简历搜索时所占的权重值Wi;其中,n为第二权重
系数;k为所述相关词集中的相关词的数量。
再进一步地,如图3所示,上述权重计算模块20还包括:
均值计算单元27,用于在所述判断所述第i个相关词的基准分值是否大于
WA/n之前,根据平均分值公式计算基准分值均值其中,为
所述相关词集中的所有相关词的相关度的平均值;
判断单元28,用于对于所述相关词集中的第i个相关词,判断所述第i个相
关词的基准分值Si是否大于所述基准分值均值S;
更新单元29,用于当判断所述第i个相关词的基准分值Si是大于所述基准
分值均值时,通过更新公式更新所述第i个相关词的基准分值
Si。
更进一步地,参见图4,是本发明提供的简历搜索装置的搜索模块的一个实
施例的结构示意图;该搜索模块30具体包括:
权重相联单元31,用于根据搜索引擎的权重关联格式,将所述关键词所占
的权重值和所述关键词相关联作为第一组合,以及将所述每一个相关词所占的
权重值与其对应的相关词相关联作为第二组合;
搜索显示单元32,用于将所述第一组合和所述第二组合提交给搜索引擎,
以供所述搜索引擎从所述简历数据库中搜索出简历,并根据所述搜索引擎内置
的排序算法显示搜索出的简历;其中,所述简历中包含的所述关键词和所述每
一个相关词以高亮形式显示。
本发明实施例提供的简历搜索装置,能根据相关词的数量选取不同的权重
计算算法,来进行计算关键词和相关词在搜索过程所占的权重,充分考虑相关
词的数量对关键词在检索过程的影响,平衡关键词和相关词在简历搜索过程中
所占的权重,避免在权重计算过程中出现当相关词过多时导致关键词权重过大
或过小,当相关词过少时导致关键词的权重过大或过小的权重失衡情况,使简
历检索的过程更为合理,减少再次进行简历搜索的发生,提高简历搜索的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,
是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算
机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,
ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技
术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这
些改进和润饰也视为本发明的保护范围。