《一种信息检索方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种信息检索方法及系统.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410733635.2(22)申请日 2014.12.04G06F 17/30(2006.01)G06N 5/02(2006.01)(71)申请人浙江大学地址 310027 浙江省杭州市西湖区浙大路38号(72)发明人皮特 李玺 张仲非(74)专利代理机构杭州宇信知识产权代理事务所(普通合伙) 33231代理人张宇娟 施海寅(54) 发明名称一种信息检索方法及系统(57) 摘要本发明一种信息检索方法,包括如下步骤:S10:输入用于排序学习的数据,对其进行特征提取;S20:输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样。
2、本-排序列表对组成的训练数据集;S30:建立数学模型;S40:推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至各参数收敛;S50:对新输入的查询样本在数据集上进行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。本发明信息检索方法结合了结构支持向量机和布莱格曼距离函数的优点,克服了传统距离函数的局限,检索准确率高。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书6页 附图2页(10)申请公布号 CN 104376120 A(43)申请公布日 2015.02.25CN 104376120。
3、 A1/1页21.一种信息检索方法,其特征在于,包括如下步骤:S10:输入用于排序学习的数据,对其进行特征提取,将原始数据转化为可用于机器学习的数据样本特征;S20:输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样本-排序列表对组成的训练数据集;S30:基于结构支持向量机和布莱格曼距离函数,对所得到的由查询样本-排序列表对组成的训练数据集建立数学模型;S40:根据所建立的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至各参数收敛;S50:根据所得到的布莱格曼距离函数,对新输入的查询样本在数据集上进行检索,将数据集中的各样本按照与查询样本的距离。
4、以升序排列,输出该排序作为检索结果。2.如权利要求1所述的信息检索方法,其特征在于:步骤S30中,以结构支持向量机为框架建立结构学习模型,优化基于布莱格曼距离函数的总体排序结构代价,并添加正则项进行调节;其中,所建立的数学模型包括参数模型和非参数模型,模型中的布莱格曼距离函数具有参数化形式或非参数化形式。3.如权利要求2所述的信息检索方法,其特征在于,步骤S40包括有:S401:利用单松弛变量割平面法对所建立的数学模型作近似,使模型参数可解,并推导模型参数的更新公式;S402:根据推导的更新公式,迭代地更新模型的参数,直至各参数收敛。4.一种信息检索系统,其特征在于:包括数据预处理模块、模型输。
5、入处理模块、建模模块以及参数更新模块与检索模块;其中,数据预处理模块输入用于排序学习的数据,对其进行特征提取,输出可用于机器学习的数据样本特征;模型输入处理模块输入由数据预处理模块得到的数据样本特征,输入样本间的相似性信息,输出由查询样本-排序列表对组成的训练数据集;建模模块用于根据模型输入处理模块输出的由查询样本-排序列表对组成的训练数据集,基于结构支持向量机和布莱格曼距离函数,建立数学模型;参数更新模块用于根据建模模块输出的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至收敛;检索模块用于根据参数迭代更新模块得到的布莱格曼距离函数,对新输入的查询样本进。
6、行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。5.如权利要求4所述的信息检索系统,其特征在于:所述建模模块还用于以结构支持向量机为框架建立结构学习模型,优化基于布莱格曼距离函数的总体排序结构代价,并添加正则项进行调节。6.如权利要求5所述的信息检索系统,其特征在于:所述建模模块还用于参数模型和非参数模型的建模。7.如权利要求6所述的信息检索系统,其特征在于:所述参数更新模块利用单松弛变量割平面法对建模模块输出的数学模型作近似,使模型参数可解,并推导模型参数的更新公式;根据推导的更新公式,迭代地更新模型的参数,直至各参数收敛。权 利 要 求 书CN 10437。
7、6120 A1/6页3一种信息检索方法及系统技术领域0001 本发明涉及信息检索技术领域,具体涉及一种信息检索方法及系统。背景技术0002 在信息时代,各种形式的数据呈爆炸性增长,从海量的数据中检索出用户所需信息的信息检索技术显得尤为重要。特别地,在信息检索和数据挖掘领域中,排序学习是一个活跃的研究主题。排序学习的目标在于学习一个排序函数以精确刻画数据样本间的相关关系,也即,该排序函数对输入的查询样本输出一个排序列表,使得与查询样本相关的样本尽量排在前面,与查询样本不相关的样本尽量排在后面。由于数据样本间的关联程度通常由一个相似度或距离度量确定,因此排序学习的本质是学习一个相似度或距离度量函数。
8、,来准确刻画数据样本之间的相关关系,使相似或相关的样本距离近,不相似或不相关的样本距离远。0003 如何学习一个有效的距离函数来捕捉数据特征的内在模式和数据间的相关关系,是数据挖掘中的一个基本问题。传统的距离度量学习方法有两个局限。第一,已有的距离度量学习方法通常假设一个在全体特征空间中固定的度量,从而缺乏灵活性和泛化能力,难以挖掘数据的局部模式。第二,对于高维的数据,传统的度量学习方法的计算代价很高,甚至难以处理。以最常用的玛氏距离为例:0004 dM(xa,xb)(xa-xb)TM(xa-xb)0005 其中M是对称半正定矩阵。度量矩阵M在整个输入空间中是固定不变的,缺乏灵活性,且待求解的。
9、矩阵M的变量维度是数据维度的平方,从而难以处理高维度的数据。此外,玛氏距离可等价于将数据从原特征空间线性映射到另一个隐含子空间后的平方欧式距离:0006 dM(xa,xb)|R(xa-xb)|20007 其中RTRM。因此玛氏距离只能挖掘数据特征中的线性关联模式,不能捕捉隐含在数据特征中的复杂的非线性模式。综上,我们需要开发一个新的距离函数学习方法以克服上述传统距离函数的局限。发明内容0008 为解决上述问题,本发明的目的在于提供一种信息检索方法,能够捕捉隐含在数据中的复杂的非线性模式,并能高效地处理高维度数据,从而更精确地使相似或相关的样本距离更近,不相似或不相关的样本距离更远,提高检索的效。
10、率和精确度。0009 为实现上述目的,本发明的技术方案为:0010 一种信息检索方法,包括如下步骤:0011 S10:输入用于排序学习的数据,对其进行特征提取,将原始数据转化为可用于机器学习的数据样本特征;0012 S20:输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样说 明 书CN 104376120 A2/6页4本-排序列表对组成的训练数据集;0013 S30:基于结构支持向量机和布莱格曼距离函数,对所得到的由查询样本-排序列表对组成的训练数据集建立数学模型;0014 S40:根据所建立的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至。
11、各参数收敛;0015 S50:根据所得到的布莱格曼距离函数,对新输入的查询样本在数据集上进行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。0016 进一步地,步骤S30中,以结构支持向量机为框架建立结构学习模型,优化基于布莱格曼距离函数的总体排序结构代价,并添加正则项进行调节;0017 其中,所建立的数学模型包括参数模型和非参数模型,模型中的布莱格曼距离函数具有参数化形式或非参数化形式。0018 进一步地,步骤S40包括有:0019 S401:利用单松弛变量割平面法对所建立的数学模型作近似,使模型参数可解,并推导模型参数的更新公式;0020 S402:根据推导。
12、的更新公式,迭代地更新模型的参数,直至各参数收敛。0021 本发明的另一技术方案为:0022 一种信息检索系统,包括数据预处理模块、模型输入处理模块、建模模块以及参数更新模块与检索模块;其中,数据预处理模块输入用于排序学习的数据,对其进行特征提取,输出可用于机器学习的数据样本特征;模型输入处理模块输入由数据预处理模块得到的数据样本特征,输入样本间的相似性信息,输出由查询样本-排序列表对组成的训练数据集;建模模块用于根据模型输入处理模块输出的由查询样本-排序列表对组成的训练数据集,基于结构支持向量机和布莱格曼距离函数,建立数学模型;参数更新模块用于根据建模模块输出的数学模型,推导各参数的更新公式。
13、,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至收敛;检索模块用于根据参数迭代更新模块得到的布莱格曼距离函数,对新输入的查询样本进行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。0023 进一步地,所述建模模块还用于以结构支持向量机为框架建立结构学习模型,优化基于布莱格曼距离函数的总体排序结构代价,并添加正则项进行调节。0024 进一步地,所述建模模块还用于参数模型和非参数模型的建模。0025 进一步地,所述参数更新模块利用单松弛变量割平面法对建模模块输出的数学模型作近似,使模型参数可解,并推导模型参数的更新公式;根据推导的更新公式,迭代地更新模型的参。
14、数,直至各参数收敛。0026 本发明信息检索方法结合了结构支持向量机和布莱格曼距离函数的优点,克服了传统距离函数的局限。相比于现有的排序学习方法和距离度量学习方法,本发明提出的方法有更高的检索准确率。附图说明0027 图1为本发明的方法流程图示。0028 图2为本发明的建模参数更新流程图。说 明 书CN 104376120 A3/6页50029 图3为本发明信息检索系统的模块结构框图。具体实施方式0030 本发明实施例提供了一种信息检索方法。0031 为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下。
15、面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。0032 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单。
16、元。0033 以下分别进行详细说明。0034 参照图1所示,本发明一种信息检索方法以结构支持向量机为框架学习一个布莱格曼距离函数,据此可对新的查询样本输出其检索结果排序。具体包括如下步骤:0035 S10:输入用于排序学习的数据,对其进行特征提取,将原始数据转化为可用于机器学习的数据样本特征;0036 S20:输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样本-排序列表对组成的训练数据集;0037 S30:基于结构支持向量机和布莱格曼距离函数,对所得到的由查询样本-排序列表对组成的训练数据集建立数学模型;0038 进一步地,步骤S30包括:0039 S301:以结构支持向量机为框。
17、架建立结构学习模型,优化基于布莱格曼距离函数的总体排序结构代价,并添加正则项进行调节;0040 其中,所建立的数学模型包括参数模型和非参数模型,即模型中的布莱格曼距离函数可具有参数化形式或非参数化形式。0041 S40:根据所建立的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至各参数收敛;0042 进一步地,步骤S40包括:0043 S401:利用单松弛变量割平面法对所建立的数学模型作近似,使模型参数可解,并推导模型参数的更新公式;0044 S402:根据推导的更新公式,迭代地更新模型的参数,直至各参数收敛。0045 S50:根所得到的布莱格曼距离函数,。
18、对新输入的查询样本在数据集上进行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。0046 以含有类别标签信息的图像数据集、SIFT特征和非参数建模方法为例,对本发明信息检索方法进行说明。其中,包括如下步骤:0047 S100:输入用于排序学习的图像数据,对其提取SIFT特征,将图像转化为可用于说 明 书CN 104376120 A4/6页6机器学习的数值型特征,记为Xx1,.,xn,其中,n是图像样本的个数,xiRm(i1,.,n)是提取出的图像数据特征,m是特征维度;0048 S200:输入由步骤S100中所得到的图像数据特征X,输入图像样本的类别标签数据,视。
19、具有相同标签的两个图像样本为相关,具有不同标签的两个图像样本为不相关,根据与查询样本相关的样本排在前、不相关的样本排在后的原则,建立由查询样本-排序列表对组成的训练数据集,记为其中,xi表示第i个图像样本的特征,表示第i个图像样本对应的真实排序列表;0049 S300:基于结构支持向量机和布莱格曼距离函数,对步骤S100中所得到的SIFT图像特征和步骤S200中所得到的由查询样本-排序列表对组成的训练数据集建立数学模型,具体地,建立数学模型如下:0050 首先,以对称化的布莱格曼距离函数作为反映样本间相关关系的距离度量:0051 0052 其中,xa,xbRm;是严格凸函数,表示函数的梯度。0。
20、053 以非参数化方法形式化凸函数假设属于由正定核函数k(xa,xb)定义的再生核希尔伯特空间,即具有如下形式:0054 0055 其中,k(xa,)对任意xa应为凸函数,i0(i1,.,n)保证了是凸函数。核函数k的例子有:k(xa,xb)(xaTxb+1)2,exp(xaTxb)等。0056 建立学习模型如下:0057 0058 0059 其中,0060 0061 D+和D-分别是与查询样本x相关和不相关的样本集合;(y,y*)是排序结构损失说 明 书CN 104376120 A5/6页7函数,量化当真实排序为y*而预测排序为y时的损失,应满足(y,y)0且对任意yy都有(y,y)0,例如。
21、:(y,y*)1-AUC(y,y*),1-MAP(y,y*)等;Kk(xi,xj)nn是核矩阵;y是排序列表的取值空间。0062 上述数学模型中,表示的是查询样本x与排序列表y之间的相符性评分;上述优化问题的约束条件的目的,是对不同的排序按照与真实排序的接近程度合理地施以不同的惩罚,使与真实排序y*差别较大的排序y(即(y,y*)较大)的评分间隔应尽量大,与真实排序y*较接近的排序y(即(y,y*)较小)的评分间隔可以较小。0063 S400:对步骤S300建立的数学模型,利用单松弛变量割平面法作近似。算法的流程图如图2所示,具体分为以下三步:0064 (1)初始化有效约束集ACS为空集:00。
22、65 (2)在当前ACS下学习模型参数(,):0066 0067 0068 (3)更新有效约束集ACS:0069 0070 0071 迭代进行(1)(2)两步,直至满足以下收敛条件,即惩罚度的增量不大于某门限:0072 0073 S500:根据S400输出的模型参数定义的布莱格曼距离函数对新输入的查询样本在数据集上进行检索,也即,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。0074 本发明的另一实施例为一种信息检索系统,包括数据预处理模块、模型输入处理模块、建模模块以及参数更新模块与检索模块。其中,数据预处理模块输入用于排序学习的数据,对其进行特征提取,输出可用于。
23、机器学习的数据样本特征;模型输入处理模块输入由数据预处理模块得到的数据样本特征,输入样本间的相似性信息,输出由查询样本-排序列表对组成的训练数据集;建模模块用于根据模型输入处理模块输出的由查询样本-排序说 明 书CN 104376120 A6/6页8列表对组成的训练数据集,基于结构支持向量机和布莱格曼距离函数,建立数学模型;参数更新模块用于根据建模模块输出的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至收敛;检索模块用于根据参数迭代更新模块得到的布莱格曼距离函数,对新输入的查询样本进行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为。
24、检索结果。0075 进一步地,所述建模模块用于以结构支持向量机为框架建立结构学习模型,优化基于布莱格曼距离函数的总体排序结构代价,并添加正则项进行调节;所述建模模块还用于参数模型和非参数模型的建模,即模型中的布莱格曼距离函数可具有参数化形式或非参数化形式。0076 进一步地,所述参数更新模块利用单松弛变量割平面法对建模模块输出的数学模型作近似,使模型参数可解,并推导模型参数的更新公式;根据推导的更新公式,迭代地更新模型的参数,直至各参数收敛。0077 本发明以结构支持向量机为框架,以对称化的布莱格曼距离函数作为挖掘样本间相关关系的距离度量:0078 0079 其中,xa,xbRm是数据样本,为。
25、m维实向量;是严格凸函数,表示函数的梯度。布莱格曼距离函数是包括欧式距离、玛氏距离在内的许多距离度量函数的一般形式,具有更好的泛化能力和灵活性;通过设计和学习凸函数可以挖掘数据特征的复杂的局部模式和非线性模式,同时能高效地处理高维度数据。因此,本发明结合了结构支持向量机和布莱格曼距离函数的优点,克服了前述的传统距离函数的局限。相比于现有的排序学习方法和距离度量学习方法,本发明提出的方法有更高的检索准确率。0080 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等。
26、来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。0081 综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。说 明 书CN 104376120 A1/2页9图1说 明 书 附 图CN 104376120 A2/2页10图2图3说 明 书 附 图CN 104376120 A10。