一种基于公共隐空间的异构网络排序方法.pdf

上传人:三** 文档编号:5739272 上传时间:2019-03-15 格式:PDF 页数:17 大小:766.60KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910238290.2

申请日:

2009.11.24

公开号:

CN101710338A

公开日:

2010.05.19

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30公开日:20100519|||实质审查的生效IPC(主分类):G06F 17/30申请日:20091124|||公开

IPC分类号:

G06F17/30; G06N5/00

主分类号:

G06F17/30

申请人:

清华大学

发明人:

唐杰; 王波; 杨子

地址:

100084 北京市海淀区清华园北京100084-82信箱

优先权:

专利代理机构:

北京路浩知识产权代理有限公司 11002

代理人:

胡小永

PDF下载: PDF下载
内容摘要

本发明提出了一种基于公共隐空间的异构网络排序方法,包括:设定源域与目标域之间的公共隐空间,并将源域与目标域的训练样本通过转换函数映射到该公共隐空间内;设定通用目标函数;并通过公共隐空间对源域与目标域进行关联,并为源域和目标域上分别设定损失函数;优化损失函数并进行公共隐空间学习。本发明利用目标域与源域之间的公共隐空间,将两个域中的样本均通过一个转换函数被映射到该隐空间中,该公共隐空间也潜在地量化了两个域之间的相关性。本发明在保持已标号数据中偏好顺序不变的同时,能够最小化目标域中未标注数据的错误,并提出了一个能同时优化损失函数并进行隐空间学习的有效算法。

权利要求书

1: 一种基于公共隐空间的异构网络排序方法,包括: 步骤1、设定源域与目标域之间的公共隐空间,并将源域与目标域的训练样本通过转换函数映射到该公共隐空间内; 步骤2、设定通用目标函数;并通过公共隐空间对源域与目标域进行关联,并为源域和目标域上分别设定损失函数; 步骤3、优化损失函数并进行公共隐空间学习。
2: 根据权利要求1所述的基于公共隐空间的异构网络排序方法,其特征在于,所述步骤1具体为: 设定转换函数 所述转换函数将源域与目标域中的实例均映射到d′维的公共隐空间中。
3: 根据权利要求1所述的基于公共隐空间的异构网络排序方法,其特征在于,所述步骤2具体为: 步骤21、最小化如下的损失函数: 其中, 是指示函数,即当π成立时函数值为1,否则为0; 统计目标域中的错误排序对的数目;η是权衡经验损失项R和模型复杂性的惩罚项ε的参数; 步骤22、为异构网络排序问题,设定通用目标函数如下: 其中,J φ (f S ,f T )是对于异构网络排序模型复杂度的惩罚项;λ是调节经验损失和惩罚项的参数;C是为了控制两个域上样本数量的不平衡性的参数。
4: 根据权利要求1所述的基于公共隐空间的异构网络排序方法,其特征在于,所述步骤3具体为: 步骤31、设定f T 是实例空间上的线性函数f T (x)= w T ,x ; 其中w T 是通过训练数据学习到的参数,即特征的权重; · 表示向量之间的内积; 步骤32、将f T (x)= w T ,x 替换损失函数得到: 步骤33、对目标域的损失函数 采用排序支持向量机的铰链损失估算排序错误对的数目的上界,具体为: 对于每个查询 给定一个不同排序等级的实例对 以及该实例 对对应的标号为 则新实例表示为: x T i a - x T i b , z T i = + 1 y T i a > y T i b - 1 y T i a y T i b ]]> 以此得到目标域中新的训练数据 步骤34、对源域采用上述步骤31~步骤33的方法得到源域的w S 以及 w S 是通过训练数据学习到的参数,即特征的权重。 步骤35、对损失函数的凸上界进行优化,并将所述通用目标函数重新写为: min w S , w T , φ Σ i = 1 n 1 [ 1 - z S i w S , ( φ ( x S i a ) - φ ( x S i b ) ) > ] + ]]> + C Σ i = 1 n 2 [ 1 - z T i w T , ( φ ( x T i a ) - φ ( x T i b ) ) > ] + ; ]]> + λJ φ ( w S , w T ) ]]> 步骤36、通过d×d矩阵U描述特征间的相关性,则训练样本之间的内积为 ;通过该转换函数,重新定义损失函数,即所述步骤35中的通用目标函数的第一项替换为: 步骤37、将模型复杂性的惩罚项J φ (w S ,w T )设定为正则化项,则重新设定通用目标函数为: s.t. 其中, 表示正交归一化约束,以保证求解得到的投影矩阵U唯一; 步骤38、将步骤37的通用目标函数的等价凸形式设定如下: min M , D Σ i = 1 n 1 [ 1 - z S i α 1 , x S i a - x S i b > ] + ]]> + C Σ i = 1 n 2 [ 1 - z T i α 2 , x T i a - x T i b > ] + + λ Σ t = 1 2 α t , D + α t > - - - ( 1 ) ]]> s.t.D≥0 trace(D)≤1 range ( M ) ⊆ range ( D ) ]]> 其中,M=[α 1 ,α 2 ]=UW, 并且 表示W的第i行;D的上标“+”表示矩阵D的伪逆;对于一个p×q的矩阵X,X的值域即 是指由其列向量张成的空间。
5: 根据权利要求4所述的基于公共隐空间的异构网络排序方法,其特征在于,所述方法还包括: 步骤39、通过迭代最小化算法求解所述步骤38中等价的凸问题,即过迭代算法优化矩 阵M和D;具体为: 步骤391、保持矩阵D固定不变,并分别从源域及目标域中的训练数据中学习矩阵M=[α 1 ,α 2 ]; 其中, α 1 = arg min { Σ i = 1 n 1 [ 1 - z S i α , x S i a - x S i b > ] + + λ α , D + α > } ; ]]> α 2 = arg min { Σ i = 1 n 2 [ 1 - z T i α , x T i a - x T i b > ] + + λ α , D + α > } ; ]]> 步骤392、通过学到的矩阵M更新矩阵D;即 步骤393、判断是否收敛或是否达到最大迭代次数;如果是则进入步骤394;否则返回步骤391; 步骤394、在矩阵D上运用SVD分解,即 ,并根据D的最大和次大特征值对应的特征向量构建U; 步骤395、通过在公共隐空间中对源域和目标域中的已标号数据进行学习,从而得到目标域中的权向量w T * ; 步骤396、用学到的权向量w T * 在目标域上预测新实例的排序等级 其中i=1-n。

说明书


一种基于公共隐空间的异构网络排序方法

    【技术领域】

    本发明涉及一种网络排序技术,特别是指一种基于公共隐空间的异构网络排序方法。

    背景技术

    随着互联网的飞速发展以及Web1.0向Web2.0的转变,社会网络逐渐成为一项非常重要的Web应用。社会网络通常包含各种不同的对象,从而为我们提供了大量的异构数据源。例如,在顾客-产品-评价网络中,我们需要根据用户对产品的评价或打分预测用户的偏好。我们往往拥有大量的关于已有产品的评价信息,但是缺乏甚至没有新产品的打分数据。再例如,在社会网络中,我们拥有大量的可以用来为用户推荐电影的数据,但是却只有很有限的数据为用户推荐可能的好友(即与其爱好相似的用户)或者社团。因此一个基本的问题就是如何利用从已有的源域中的标号数据学到的知识为目标域中的未知数据建立准确可靠的排序模型。

    对于异构网络中相互关联的实体进行排序的问题,一些相关研究已经展开:例如迁移学习方法、领域自适应方法、多任务学习方法以及排序学习方法。但是现有的方法都不能很好的处理异构网络中的以下问题:

    1、由于异构网络排序问题中涉及到多种类型的实体(即异构对象),第一个需要解决的问题就是怎样去描述源域和目标域的相关性。

    2、迁移排序:并不只是需要从源域中迁移知识到目标域,还需要在学到的排序模型中,保持源域中的排序关系。

    3、效率:通常来讲,排序学习需要有上千(甚至上万)的训练数据,因此需要处理大规模的数据。

    【发明内容】

    针对现有技术中存在的缺陷和不足,本发明的目的是提供一种基于隐空间的异构网络排序装置和方法,能够在异构网络中进行排序。

    为达到上述目的,本发明提出了一种基于公共隐空间的异构网络排序方法,包括:

    步骤1、设定源域与目标域之间的公共隐空间,并将源域与目标域的训练样本通过转换函数映射到该公共隐空间内;

    步骤2、设定通用目标函数;并通过公共隐空间对源域与目标域进行关联,并为源域和目标域上分别设定损失函数;

    步骤3、优化损失函数并进行公共隐空间学习。

    其中,所述步骤1具体为:

    设定转换函数φ:所述转换函数将源域与目标域中的实例均映射到d′维的公共隐空间中。

    其中,所述步骤2具体为:

    步骤21、最小化如下的损失函数:

    其中,是指示函数,即当π成立时函数值为1,否则为0;统计目标域中的错误排序对的数目;η是权衡经验损失项R和模型复杂性的惩罚项ε的参数;

    步骤22、为异构网络排序问题,设定通用目标函数如下:

    其中,Jφ(fS,fT)是对于异构网络排序模型复杂度的惩罚项;λ是调节经验损失和惩罚项的参数;C是为了控制两个域上样本数量的不平衡性的参数。

    其中,所述步骤3具体为:

    步骤31、设定fT是实例空间上的线性函数fT(x)=<wT,x>;

    其中wT是通过训练数据学习到的参数,即特征的权重;<·>表示向量之间的内积;

    步骤32、将fT(x)=<wT,x>替换损失函数得到:

    步骤33、对目标域的损失函数采用排序支持向量机的铰链损失估算排序错误对地数目的上界,具体为:

    对于每个查询(k=1,…,nT),给定一个不同排序等级的实例对以及该实例对对应的标号为则新实例表示为:

    (xTia-xTib,zTi=+1yTia>yTib-1yTia<yTib)]]>

    以此得到目标域中新的训练数据LT′={(xTia-xTib,zTi)}i=1n2;]]>

    步骤34、对源域采用上述步骤31~步骤33的方法得到源域的wS以及wS是通过训练数据学习到的参数,即特征的权重。

    步骤35、对损失函数的凸上界进行优化,并将所述通用目标函数重新写为:

    minwS,wT,φΣi=1n1[1-zSi<wS,(φ(xSia)-φ(sSib))>]+]]>

    +CΣi=1n2[1-zTi<wT,(φ(xTia)-φ(xTib))>]+;]]>

    +λJφ(wS,wT)]]>

    步骤36、通过d×d矩阵U描述特征间的相关性,则训练样本之间的内积为通过该转换函数,重新定义损失函数,即所述步骤35中的通用目标函数的第一项替换为:

    步骤37、将模型复杂性的惩罚项Jφ(wS,wT)设定为正则化项,则重新设定通用目标函数为:

    s.t.

    其中,表示正交归一化约束,以保证求解得到的投影矩阵U唯一;

    步骤38、将步骤37的通用目标函数的等价凸形式设定如下:

    minM,DΣi=1n1[1-zSi<α1,xSia-xSib>]+]]>

    +CΣi=1n2[1-zTi<α2,xTia-xTib>]++λΣt=12<αt,D+αt>---(2)]]>

    s.t.D≥0

    trace(D)≤1

    range(M)⊆range(D)]]>

    其中,M=[α1,α2]=UW,并且表示W的第i行;D的上标“+”表示矩阵D的伪逆;对于一个p×q的矩阵X,X的值域即是指由其列向量张成的空间。

    其中,所述方法还包括:

    步骤39、通过迭代最小化算法求解所述步骤38中等价的凸问题,即过迭代算法优化矩阵M和D;具体为:

    步骤391、保持矩阵D固定不变,并分别从源域及目标域中的训练数据中学习矩阵M=[α1,α2];

    其中,α1=argmin{Σi=1n1[1-zSi<α,xSia-xSib>]++λ<α,D+α>};]]>

    α2=argmin{Σi=1n2[1-zTi<α,xTia-xTib>]++λ<α,D+α>};]]>

    步骤392、通过学到的矩阵M更新矩阵D;即

    步骤393、判断是否收敛或是否达到最大迭代次数;如果是则进入步骤394;否则返回步骤391;

    步骤394、在矩阵D上运用SVD分解,即并根据D的最大和次大特征值对应的特征向量构建U;

    步骤395、通过在公共隐空间中对源域和目标域中的已标号数据进行学习,从而得到目标域中的权向量wT*;

    步骤396、用学到的权向量wT*在目标域上预测新实例的排序等级其中i=1-n。

    上述技术方案具有如下优点:本发明提出了一个通用的框架(异构网络排序模型),在该框架中我们通过隐空间对两个域进行关联,并且分别在两个域上定义了各自的损失函数。然后本发明提出了一个能同时优化损失函数并进行隐空间学习的有效算法。由此可见,本发明利用目标域与源域之间的公共隐空间,将两个域中的样本均通过一个转换函数被映射到该隐空间中,该公共隐空间也潜在地量化了两个域之间的相关性。本发明在保持已标号数据中偏好顺序不变的同时,能够最小化目标域中未标注数据的错误,并提出了一个能同时优化损失函数并进行隐空间学习的有效算法。

    【附图说明】

    图1是本发明的优选实施例结构示意图。

    图2是本发明的实施例中特征相关性分析结果图。

    【具体实施方式】

    下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

    本发明的发明构思如下:在异构网络排序问题中,本发明的目标是从与目标域相关联的源域中迁移偏好信息,其中源域与目标域为异构网络。

    由于在不同域之间对象类型以及他们特征的分布存在差异,首先需要解决的问题就是如何定量地度量两个域之间存在的相关性,以此来反映什么样的信息可以在不同域之间进行迁移。另一方面,本发明的最终目标是得到一个更高的排序性能。

    基于上述考虑,本发明首先设定在两个域之间有一个公共隐空间。两个域中的样本均可以通过一个转换函数被映射到该隐空间中。而该公共隐空间也潜在地量化了两个域之间的相关性。然后,本发明在保持已标号数据中偏好顺序不变的同时,能够最小化目标域中未标注数据的错误。当从源域中迁移监督信息时,本发明也希望保持原来的偏好顺序,即我们希望最小化源域上的损失。因此,本发明提出了一个通用的框架(异构网络排序模型),在该框架中我们通过隐空间对两个域进行关联,并且分别在两个域上定义了各自的损失函数。然后本发明还提出了一个能同时优化损失函数并进行隐空间学习的有效算法。

    本发明以下实施例都是基于上述构思实现的。由于对于给定目标域中已标号的训练数据我们的目标是对每个查询qTk学习一个能够正确预测实例之间的偏好关系的排序函数fT,即对于排序任务,基于学到的排序函数fT,我们可以预测新的实例的排序等级。

    为了学习排序函数,我们可以最小化如下的损失函数:

    其中,是指示函数,即当π成立时函数值为1,否则为0;统计目标域中的错误排序对的数目;η是权衡经验损失项(第一项R)和模型复杂性的惩罚项(第二项ε)的参数。

    当从源域上迁移监督信息时,我们希望保持源域上实例的偏好顺序不变。为了联系两个异构空间中的实例,我们定义一个转换函数φ:它将两个域中的实例均映射到d′维的公共隐空间中。

    进而,本发明可以为异构网络排序问题,设定通用目标函数如下:

    其中,Jφ(fS,fT)是对于异构网络排序模型复杂度的惩罚项;λ是调节经验损失和惩罚项的参数;C是为了控制两个域上样本数量的不平衡性的参数。

    这样,我们就获得了一个对于异构网络排序问题的通用目标函数。为了使得目标函数最优,还需要找到最佳的参数(fS、fT和φ)。

    找到最佳的参数(fS、fT和φ)的方法为:

    在异构网络排序模型中,我们并不只是为了两个域学习排序函数fT和fS,同时也要学习转换函数φ。除此之外,我们希望去掉在知识迁移过程中不重要的特征,进而得到稀疏解。本发明采用了以下方法对找出最佳的参数(fS、fT和φ):

    一、对异构网络排序模型框架进行初始化:

    不失一般性,假设fT是实例空间上定义的线性函数:fT(x)=<wT,x>;

    其中wT是通过训练数据学习到的参数(特征的权重),而<·>表示向量之间的内积。

    将其替换公式错误!未找到引用源。,我们得到:

    损失函数并不连续,因此我们使用排序支持向量机(Ranking SVM)的铰链损失估计排序错误对的数目的上界。为了便于表述,我们定义下列记号:对于每个查询(k=1,…,nT),给定一个不同排序等级的实例对以及该实例对对应的标号为我们可以构造一个新的实例:

    (xTia-xTib,zTi=+1yTia>yTib-1yTia<yTib)---(6)]]>

    因此,我们得到了目标域中一组由实例对构成的新的训练数据对于源域,我们做同样的假设,并使用平行的记号wS以及最后通过对原来损失函数的凸上界进行优化,我们将目标函数重新写为:

    minwS,wT,φΣi=1n1[1-zSi<wS,(φ(xSia)-φ(sSib))>]+]]>

    +CΣi=1n2[1-zTi<wT,(φ(xTia)-φ(xTib))>]+---(7).]]>

    +λJφ(wS,wT)]]>

    二、定义转换函数以及模型复杂性的惩罚项:

    本发明采用d×d矩阵U描述特征间的相关性,进而样本之间的内积可以定义为这种参数化方法等价于将每个样本投影到由张成的隐空间中。通过该转换函数,我们可以重新定义损失函数,例如将公式错误!未找到引用源。中的第一项替换为:

    对于模型复杂性的惩罚项Jφ(wS,wT),我们将其定义为正则化项,例如可以是源域和目标域中参数的(2,1)范数‖W‖2,1,其中W=[wS,wT]是d×2的矩阵,其第一列为wS而第二列为wT;W的(2,1)范数,定义为其中ai是W的第i行。在W的每一行中进行2范数正则化会使得在两个域上产生公共特征空间,而1范数会导致最后得到稀疏解。因此(2,1)范数正则化方法在表述两个域间相关性的同时引入了稀疏性。最后,我们重新定义目标函数为:

    s.t.

    其中,表示正交归一化约束,以保证求解得到的投影矩阵U唯一。

    三、定义学习算法:

    由于矩阵的非凸特性,直接求解目标函数(包括求解公式错误!未找到引用源。中的wS、wT和U)并不容易。不过我们可以得到目标函数公式错误!未找到引用源。的等价凸形式如下:

    minM,DΣi=1n1[1-zSi<α1,xSia-xSib>]+]]>

    +CΣi=1n2[1-zTi<α2,xTia-xTib>]++λΣt=12<αt,D+αt>---(10)]]>

    s.t.D≥0

    trace(D)≤1

    range(M)⊆range(D)]]>

    其中,M=[α1,α2]=UW,并且表示W的第i行;D的上标“+”表示矩阵D的伪逆;对于一个p×q的矩阵X,它的值域(即range,又称列空间)是指由其列向量张成的空间,即如果D被设为∞,目标函数将退化为只最小化经验损失,因此我们加入了对D的秩的约束。范围约束使得惩罚项的下界不为零。该等价形式也在多任务特征学习中使用。

    作为优选,本发明可以通过迭代最小化算法求解等价的凸问题,在如下表的算法1中给出了算法流程:

    算法1:异构网络排序模型

    输入:训练集:测试集:S

    输出:排序函数以及在测试集上预测的偏好:{yi}i=1n

    初始化:D=Id×dd]]>

    步骤1:发现隐空间

    1:while没有达到最大迭代次数T do

    2:α1=argmin{Σi=1n1[1-zSi<α,xSia-xSib>]++λ<α,D+α>}]]>

    3:α2=argmin{Σi=1n2[1-zTi<α,xTia-xTib>]++λ<α,D+α>}]]>

    4:M=[α1,α2]

    5:令

    6:end while

    7:在D上使用SVD分解,

    8:用D的最大和次大特征值对应的特征向量构建U

    步骤2:隐空间中排序模型学习

    9:

    10:for i=1到n do

    11:yi=<wT*,UTxi>]]>

    12:end for

    其中,所述具体为:

    步骤1:用迭代算法优化矩阵M和D;即:

    步骤11、在第2至4行中,我们保持D固定不变,分别从两个域中的训练数据中学习α1和α2,也就是矩阵M;

    步骤12、在第5行,我们通过学到的矩阵M更新矩阵D;

    步骤13、重复进行上述步骤11和步骤12的迭代过程,直到收敛或者达到设定的最大迭代次数;

    步骤14,在第7行和第8行,我们在学到的中间矩阵D上运用SVD分解,即之后根据D的最大和次大特征值对应的特征向量构建U;

    步骤2:在第9行,通过在隐空间中对两个域中的已标号数据进行学习,从而得到目标域中的权向量;

    在第10到12行,用学到的权向量wT*在目标域上预测新实例的排序等级。

    作为优选,为了提高排序的效率,本发明优选实施例还对上述算法的复杂性进行了设定。即:

    异构网络排序算法中优化的两个矩阵的大小仅仅依赖于特征的数目,例如矩阵D是d×d的,而W是d×2的。矩阵D上的SVD分解复杂度为O(d3)。令N=n1+n2是用于训练的总样本数,s是非零特征数。用割平面算法,线性排序支持向量机训练需要时间复杂性为O(sN log(N)),令T为最大的迭代次数,算法的时间复杂度为O((2T+1)·sN log(N)+d3)。

    下面,针对本发明的排序算法与现有排序算法进行比较以证明本发明的排序算法优于已有的排序算法:

    (1)评估方法

    为了定量评估我们的排序算法,本发明使用均值平均查准率(即MAP)和归一化的折扣累积增益(即NDCG)来评估实验结果。

    和MAP不同的是,NDCG对于排序中认为最相关的文档给予更高的权重,而在MAP中所有相关的文档有相同的权重。在位置n上的NDCG定义为:

    N@n=ZnΣj=1n2r(j)-1log(1+j)]]>

    其中,r(j)是第j个文档的排序,Zn是归一化因子。

    (2)基线方法

    本发明提出的排序算法标记为HCDRank。将本发明提出的方法和三种基线方法进行比较,其结果如表1所示。

    排序支持向量机(RSVM)在信息检索中是一种经典的排序算法。但是该方法的设计初衷是为了在同构数据的单一域中进行排序训练。为了比较的公平,采用RSVM进行两组实验。在其中一组中,只在目标域上训练排序模型;而另外一组中(称为RSVMt),将源域和目标域组合在一起进行训练。第三种比较方法是使用排序支持向量机铰链损失的多任务特征学习方法(称为MTRSVM)。

    表格1:三种基线方法

    上述实验在Windows XP系统,双核AMD双核速龙处理器(2GHz)以及2G内存上进行。我们使用SVMlight的线性核以及默认参数实现RSVM、RSVMt以及MTRSVM的偏好学习步骤。我们将最大迭代次数I设置为50。并且除了特别说明外,我们使用格点搜寻法从{2-6,2-5,2-4,2-3,2-2,2-1,1,2,22,23,24,25}中选择参数C。所有实验结果均为10次重复实验的平均。

    (3)数据集

    我们使用学术异构网络作为实验数据集。这里我们使用了从ArnetMiner的日志中得到的44个最频繁的查询关键词(如“datamining”(数据挖掘)及“information retrieval”(信息检索))。其中ArnetMiner是搜索引擎,可以从http://www.arnetminer.org/中获得。在本实施例中只是引用该搜索引擎的数据,亦可从其他引擎中获得,并不以此为限定。

    为了得到标准答案,对于每个查询关键词,本发明从三个在线学术搜索引擎(Libra、Rexa以及ArnetMiner)中分别选择前30个查询结果并组成一个合并的列表。之后,标注者会根据每一个专家发表论文的数量、论文和相应查询关键词的相关性、他所发表在顶级期刊会议上的论文数目、以及他所获得荣誉等标准评价该专家的排序等级。一共有4种排序等级(分别为3,2,1和0),依次表示:绝对相关>相关>临界相关>不相关。

    在这个实验中,本发明将要研究异构数据之间通过相互关联是否可以学习得到更好的排序结果?我们使用某一类型的标注数据(如会议)作为源域,而使用另两类数据(如专家和论文)作为目标域,主要是考虑到有标注的会议数据较易获得。因此本实验的目标是迁移会议信息帮助排序专家。

    (4)特征定义

    我们使用一个专家发表的所有论文的标题组成的长串文本作为专家的描述文字,而使用一个会议中发表的全部论文的标题组成的长串文本作为会议的描述文字。我们对这些实体定义特征,并总结在表2中。对于每一个实体的描述文字,有10个低层次的内容特征(如L1是词频(TF),L5是逆文档频率(IDF))和3个高层次的内容特征(如H1和H2表示原始的BM25值以及该值的对数运算结果,H3表示基于文本的语言模型的生成概率值)。S1-S3是会议独有的特征,分别表示了会议举办的年数,文章被引用的总次数。S4-S7是专家独有的特征,例如该专家第一篇文章发表的年份,所有发表过的文章总数以及所有文章被引用的总次数。总结起来,我们为会议定义了16个特征(L1一L10、H1-H3以及S1-S3),为专家定义了17个特征(L1-L10,H1-H3以及S4-S7)。

    我们在查询关键词上归一化原始的特征向量。如果第i个查询关键词对应的描述文本集表示为{dj(i)}j=1N(i),则归一化之后,文档dj(i)的特征xj(i)为

    xj(i)-mink=1,···,N(i){xk(i)}maxk=1,···,N(i){xk(i)}-mink=1,···,N(i){xk(i)}---(11)]]>

    表格2:学术异构网络迁移排序的特征定义

      特征  描述  L1-L10  低层次内容特征  H1-H3  高层次内容特征  S1  该会议举办的年数  S2  最近5年中该会议的文章被引用的总次数  S3  最近10年中该会议的文章被引用的总次数  S4  该专家发表他的第一篇文章距今的年数  S5  该专家的文章被引用的总次数  S6  该专家的文章被引用在5次以上的数目  S7  该专家的文章被引用在10次以上的数目

    (5)结果和分析

    在本实验中,我们从目标域中选择一个查询关键词和其对应的文档作为标注数据。后面的实验结果是对所有查询关键词的平均。参数C设为1。

    对于基线方法,除了RSVM、RSVMt和MTRSVM外,我们还将我们的算法性能和两个在线学术搜索系统的查询结果进行比较:Libra以及Rexa,这些学术搜索系统主要基于无监督的学习算法,例如语言模型。表3展示了不同方法得到的结果,我们的方法用HCDRank表示,通过观察可以得到以下要点:

    表格3:专家发现问题中不同方法的结果

    查询精度在所有的方法中,我们的异构网络迁移排序模型的精度优于其它的五种基线方法。RSVM和MTRSVM的实验结果较为接近,这说明当目标域中的标注数据稀少时,MTRSVM并不能充分地进行迁移学习。同时,我们还可以发现所有的学习排序模型都优于两个在线系统的搜索结果,这说明在特定的领域中,一些监督信息对于提高排序性能是十分有帮助的。

    特征分析图2中展示了从该数据集中最后学到的权向量。我们可以看出,wT*可以从两个域中发现数据信息,并调整从单一域的数据中学到的权重,使得在目标域中进行更好的偏好预测。这也是我们提出的算法可以胜出的主要原因。表4中按照权值绝对值的降序,列出了在学术数据集上10个最为重要的特征,包括低层次内容特征中的L2、L6、L9、L10以及高层次特征的H1-H3,和独有特征中的S1、S2和S4。

    表格4:从学术数据集中学到的10个最重要特征权重

     IDs  Features  Weights 14 10 12 13 11 2 17 9 15 6  S1  L10  H2  H3  H1  L2  S4  L9  S2  L6  2.72  2.51  2.50  2.00  1.58  1.51  1.13  1.05  0.99  0.63

    由上例可以看出,迁移方法有效最主要的原因是:即便在异构网络中,实体之间也存在潜在的依赖关系,而我们可以从该潜在依赖关系中发现一些公共特征。例如在专家搜索中,专家和会议通过发表的论文联系起来。发现的潜在依赖关系可以用来在异构实体间迁移监督知识。本发明所提出的算法可以有效地发现异构网络中的公共隐空间,因此会得到更好的专家搜索性能。

    从实验结果可以看出,我们的方法所有的评测结果都优于其他三种方法。实验表明,我们提出的异构网络排序方法是切实有效的。

    以上所述仅是本发明的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

一种基于公共隐空间的异构网络排序方法.pdf_第1页
第1页 / 共17页
一种基于公共隐空间的异构网络排序方法.pdf_第2页
第2页 / 共17页
一种基于公共隐空间的异构网络排序方法.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种基于公共隐空间的异构网络排序方法.pdf》由会员分享,可在线阅读,更多相关《一种基于公共隐空间的异构网络排序方法.pdf(17页珍藏版)》请在专利查询网上搜索。

本发明提出了一种基于公共隐空间的异构网络排序方法,包括:设定源域与目标域之间的公共隐空间,并将源域与目标域的训练样本通过转换函数映射到该公共隐空间内;设定通用目标函数;并通过公共隐空间对源域与目标域进行关联,并为源域和目标域上分别设定损失函数;优化损失函数并进行公共隐空间学习。本发明利用目标域与源域之间的公共隐空间,将两个域中的样本均通过一个转换函数被映射到该隐空间中,该公共隐空间也潜在地量化了两。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1