一种基于位置的移动社会网络用户关系的识别方法.pdf

上传人:Y0****01 文档编号:6013816 上传时间:2019-04-03 格式:PDF 页数:14 大小:962.46KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510427877.3

申请日:

2015.07.20

公开号:

CN106372072A

公开日:

2017.02.01

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20150720|||公开

IPC分类号:

G06F17/30; G06Q50/00(2012.01)I

主分类号:

G06F17/30

申请人:

北京大学

发明人:

宋国杰; 刘丹萌

地址:

100871 北京市海淀区颐和园路5号

优先权:

专利代理机构:

北京万象新悦知识产权代理事务所(普通合伙) 11360

代理人:

苏爱华

PDF下载: PDF下载
内容摘要

本发明公布了一种基于位置的移动社会网络用户关系识别方法,基于用户数据构建移动社会网络,通过对用户行为进行特征提取建立因子图模型,再进行模型参数学习和多元关系并行推断,得到用户关系;包括对用户数据进行预处理,获得抽样数据;利用抽样数据提取用户行为特征,包括交互行为特征和空间行为特征;得到用户关系的交互因子、空间因子和团因子;建立因子图模型;针对因子图模型进行参数学习训练;利用训练好的因子图模型通过多元关系并行推断方法进行关系识别,得到用户多元关系。本发明考虑空间位置交互特征、用户周边环境以及家庭和同事关系之间的相互作用,可提高关系识别的准确率。

权利要求书

1.一种基于位置的移动社会网络用户关系识别方法,基于用户数据构建移动社会网络,
通过对用户行为进行特征提取,建立因子图模型,再进行模型参数学习和多元关系的并行推
断,识别得到用户关系;具体包括如下步骤:
1)对用户数据进行预处理,获得用于关系识别的抽样数据;
2)利用抽样数据提取用户行为特征;所述用户行为特征包括交互行为特征和空间行为特
征;通过用户行为特征提取,得到用户关系的交互因子、空间因子和团因子;
3)基于提取的用户行为特征,建立因子图模型,作为用户关系识别模型;
4)针对因子图模型进行参数学习训练;
5)利用训练好的因子图模型通过多元关系并行推断方法进行关系识别,得到用户多元关
系。
2.如权利要求1所述基于位置的移动社会网络用户关系识别方法,其特征是,所述用户
数据包括基本数据和辅助数据;所述基本数据为用户通话详单;所述辅助数据包括基站信息
表、家庭信息表和集团信息表;步骤1)所述预处理具体包括基于家庭信息表对数据进行抽
样和通过删除用户来解决噪声干扰。
3.如权利要求1所述基于位置的移动社会网络用户关系识别方法,其特征是,所述交互
行为特征包括交互强度特征和交互稳定性特征;所述空间行为特征包括空间同现特征和地理
语义特征。
4.如权利要求1所述基于位置的移动社会网络用户关系识别方法,其特征是,
所述交互因子通过式6表示:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mi>e</mi> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&alpha;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>}</mo> </mrow> (式6)
式6中,交互因子f(ri,j,xi,j)描述两个用户之间的关系ri,j和交流关系属性xi,j之间的关系;
we为用来标准化的参数;对于每一对有关系的用户i和j,参数是一个|xi,j|维长度的参
数,并且参数的第k维描述xi,j k对于两个用户i和j之间关系的贡献;
所述空间因子通过式7表示:
<mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&beta;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>}</mo> </mrow> (式7)
式7中,空间因子g(ri,j,si,j)描述两个用户之间的关系ri,j和在物理空间属性之间si,j的关
系;对于每对有关系的用户i和j,参数的第k维描述的是两个用户同现的地点语义对于
用户之间关系的贡献;
所述社团因子通过式8表示:
<mrow> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = '{' close = ''> <mtable> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>1</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>1</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>2</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>2</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>2</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>3</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>3</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>3</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> (式8)
式8中,社交因子h(ri,j,ci,j,k)描述两个用户之间的关系ri,j与他们和其他用户所构成的团
之间的影响;wcp为标准化参数;函数h′1(ri,k,rj,k)为向量函数,在集团中用向量函数来描述
集团中另外两边的关系对于用户i和j关系预测的贡献。
5.如权利要求1所述基于位置的移动社会网络用户关系识别方法,其特征是,步骤3)
所述建立因子图模型包括如下步骤:
首先,使用无向图结构表达出移动社交网络拓扑结构,在网络的节点属性中表达用户行
为的特征向量,在网络边的属性中表达用户之间交互行为的特征向量;
然后,基于因子图模型建模方法定义一个全局函数来描述用户之间关系的条件概率分布
的表达,将全局函数分解为交互因子、空间因子和团因子,分别用来刻画所提取的移动用户
行为特征;
最后,使用极大似然估计的方法,求得使得模型达到最大似然值的参数,得到用于关系
识别的因子图模型。
6.如权利要求1所述基于位置的移动社会网络用户关系识别方法,其特征是,步骤3)
所述因子图模型为一个全局概率分布函数,描述为式5:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>|</mo> <mi>G</mi> <mo>,</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>&Element;</mo> <mi>G</mi> </mrow> </msub> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> (式5)
式5中,R代表用户之间的关系类型(包括家庭关系、同事关系、朋友关系);G表
示网络结构图;X表示特征矩阵,X特征矩阵的每一行代表一个用户的特征;ri,j代表用
户i,j之间的关系;xi,j代表用户i,j之间的交流因子特征;si,j代表用户i,j之间的空
间因子;ci,j,k代表用户i,j之间的社交因子;ei,j表示图中i,j的连接边;ci,j,k表示用户
i,j与其他用户构成的团因子;
定义目标函数式9作为所述因子图模型的极大似然值:
<mrow> <mi>O</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>&beta;</mi> <mo>,</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <msub> <mi>&alpha;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <msub> <mi>&beta;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&Sigma;</mi> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mi>G</mi> </mrow> </msub> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>3</mn> </msubsup> <msub> <mi>&gamma;</mi> <mi>q</mi> </msub> <msubsup> <mi>h</mi> <mi>q</mi> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <mo>&CenterDot;</mo> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>W</mi> </mrow> (式9)
式9中,O(α,β,γ)是P(R|G,X)的对数函数;ei,j表示用户i,j之间的边,如果用户i,j之
间有通话等交互动作,则认为这两个用户之间存在边;E表示数据集中所有的边的集合;
γq为需要学习的参数,实质上表达不同特征的权重;xi,j、si,j、h′q(·)表示三种
因子,分别是交流因子、空间因子和社团因子;W=WeWesWcp是全局标准化参数。
7.如权利要求1所述基于位置的移动社会网络用户关系识别方法,其特征是,步骤
4)所述针对因子图模型进行参数学习训练,具体采用经典的梯度下降方法,所述梯度下
降方法每次迭代需要进行的操作为式10:
<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&theta;</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>+</mo> <mi>&eta;</mi> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>O</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>&theta;</mi> </mrow> </mfrac> </mrow> (式10)
式10中,θnew表示每一次迭代获取的新θ值;θold表示每一次迭代之前的θ值,初始
是随机赋值的θ;η表示梯度下降法更新的速率值,η越大,更新越快,但是波动也越大;
θ={α,β,γ},其中α,β,γ分别为交互因子、空间因子和团因子;O(θ)为极大似然目标函
数;表示梯度下降法中的梯度选取量。
8.如权利要求7所述基于位置的移动社会网络用户关系识别方法,其特征是,所述
模型参数学习时同时考虑家庭、同事和朋友三类关系。
9.如权利要求1所述基于位置的移动社会网络用户关系识别方法,其特征是,步骤
5)所述多元关系并行推断方法具体包括运用梯度下降的参数估计方法和基于多元关系的
概率值进行关系推断的方法。

说明书

一种基于位置的移动社会网络用户关系的识别方法

技术领域

本发明涉及用户关系识别方法,尤其涉及一种基于位置的移动社会网络的用户关系的识
别方法。

背景技术

关系识别是社会网络研究的关键问题之一。在社会网络中,人们往往因不同类别的关系
(家人、同事、朋友等)连接在一起,而分析关系的类型,在诸多领域都具有非常重要的意
义。如在营销领域,通过分析用户的家人和同事关系,能对其进行精准的营销推荐;在安全
领域,通过掌握犯罪分子的家人和好友关系,则能帮助相关部门寻找线索,更有效率地进行
嫌疑犯排查。随着手机的大规模普及,移动通话数据的人群覆盖率已经接近100%,这为基于
移动通信数据进行真实社会人际间社会关系的识别提供了天然的平台。同时,移动用户关系
的识别也为运营商自身的业务开展提供帮助,如家庭套餐、集团套餐等业务的个性化定制等。

关系识别问题的本质是分类。目前,大多数识别方法都是将关系抽象为几类,如“强与弱”、
“信任与怀疑”、“友好与敌对”等类的关系,没有将关系赋予具体的语义(如家人、同事等)。
也有一些方法对关系进行了语义分类,例如“指导-被指导关系”或“讲授-指导-助教关系”,这
些方法建立的关系识别模型是特定领域的专用模型,无法直接套用在“家庭-同事关系”分类上;
也有方法基于恐怖分子网络数据等特定数据集进行关系识别,无法直接套用在移动通话数据
集上。

基于移动社会网络的社交关系识别,需重点解决如下几个关键问题:

一,空间关系特征的提取:目前进行社会网络关系的识别方法,大多采用网络拓扑结构
特征来进行关系的判定,而对用户空间行为特征对所要识别的关系的影响缺少考虑;

二,基于图模型的多元关系的识别:现在的关系识别方法一般采用传统的识别方法,如
决策树、SVM等方法,没有充分考虑关系识别数据的网络化特征;

三,多元关系的判定:现在的关系识别方法一般对单一关系进行判定,如朋友和非朋友
关系,没有考虑推断识别过程中不同关系之间的相互作用对模型识别精度的提升。

发明内容

为了克服上述现有技术的不足,本发明提供一种基于位置的移动社会网络用户关系识别
方法,根据移动社会网络数据对用户间多元社会关系进行识别。

本发明提供的技术方案是:

一种基于位置的移动社会网络用户关系识别方法,基于用户数据构建移动社会网络,通
过对用户行为进行特征提取,建立因子图模型,再进行模型参数学习和多元关系的并行推断,
识别得到用户关系;具体包括如下步骤:

1)对用户数据进行预处理,获得用于关系识别的抽样数据;

2)利用抽样数据提取用户行为特征;所述用户行为特征包括交互行为特征和空间行为特
征;通过用户行为特征提取,得到用户关系的交互因子、空间因子和团因子;

3)基于提取的用户行为特征,建立因子图模型,作为用户关系识别模型;

4)针对因子图模型进行参数学习训练;

5)利用训练好的因子图模型通过多元关系并行推断方法进行关系识别,得到用户多元关
系。

上述基于位置的移动社会网络用户关系识别方法中,用户数据包括基本数据和辅助数据;
所述基本数据为用户通话详单;辅助数据包括基站信息表、家庭信息表和集团信息表;步骤
1)所述预处理具体包括基于家庭信息表对数据进行抽样和通过删除用户来解决噪声干扰。

交互行为特征包括交互强度特征和交互稳定性特征;空间行为特征包括空间同现特征和
地理语义特征。

针对上述基于位置的移动社会网络用户关系识别方法,其中,交互因子通过式6表示:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mi>e</mi> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&alpha;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>}</mo> </mrow> (式6)

式6中,交互因子f(ri,j,xi,j)描述两个用户之间的关系ri,j和交流关系属性xi,j之间的关系;
we为用来标准化的参数;对于每一对有关系的用户i和j,参数是一个|xi,j|维长度的参
数,并且参数的第k维描述xi,jk对于两个用户i和j之间关系的贡献;

空间因子通过式7表示:

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&beta;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>}</mo> </mrow> (式7)

式7中,空间因子g(ri,j,si,j)描述两个用户之间的关系ri,j和在物理空间属性之间si,j的关
系;对于每对有关系的用户i和j,参数的第k维描述的是两个用户同现的地点语义对于
用户之间关系的贡献;

社团因子通过式8表示:

<mrow> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>1</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>1</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>2</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>2</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>2</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>3</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>3</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>3</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> (式8)

式8中,社交因子h(ri,j,ci,j,k)描述两个用户之间的关系ri,j与他们和其他用户所构成的团
之间的影响;wcp为标准化参数;函数h′1(ri,k,rj,k)为向量函数,在集团中用向量函数来描述集
团中另外两边的关系对于用户i和j关系预测的贡献。

上述基于位置的移动社会网络用户关系识别方法中,步骤3)建立因子图模型包括如下
步骤:

首先,使用无向图结构表达出移动社交网络拓扑结构,在网络的节点属性中表达用户行
为的特征向量,在网络边的属性中表达用户之间交互行为的特征向量;

然后,基于因子图模型建模方法定义一个全局函数来描述用户之间关系的条件概率分布
的表达,将全局函数分解为交互因子、空间因子和团因子,分别用来刻画所提取的移动用户
行为特征;

最后,使用极大似然估计的方法,求得使得模型达到最大似然值的参数,得到用于关系
识别的因子图模型。

步骤3)所述因子图模型为一个全局概率分布函数,描述为式5:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>|</mo> <mi>G</mi> <mo>,</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>&Element;</mo> <mi>G</mi> </mrow> </msub> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> (式5)

式5中,R代表用户之间的关系类型(包括家庭关系、同事关系、朋友关系);G表示网
络结构图;X表示特征矩阵,X特征矩阵的每一行代表一个用户的特征;ri,j代表用户i,j之
间的关系;xi,j代表用户i,j之间的交流因子特征;si,j代表用户i,j之间的空间因子;ci,j,k代
表用户i,j之间的社交因子;ei,j表示图中i,j的连接边;ci,j,k表示用户i,j与其他用户构成
的团因子;

定义目标函数式9作为所述因子图模型的极大似然值:

<mrow> <mi>O</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>&beta;</mi> <mo>,</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <msub> <mi>&alpha;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <msub> <mi>&beta;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&Sigma;</mi> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mi>G</mi> </mrow> </msub> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>3</mn> </msubsup> <msub> <mi>&gamma;</mi> <mi>q</mi> </msub> <msubsup> <mi>h</mi> <mi>q</mi> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <mo>&CenterDot;</mo> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>W</mi> </mrow> (式9)

式9中,O(α,β,γ)是P(R|G,X)的对数函数;ei,j表示用户i,j之间的边,如果用户i,j之间有
通话等交互动作,则认为这两个用户之间存在边;E表示数据集中所有的边的集合;
γq为需要学习的参数,实质上表达不同特征的权重;xi,j、si,j、h′q(·)表示三种因
子,分别是交流因子、空间因子和社团因子;W=WeWesWcp是全局标准化参数。

步骤4)所述针对因子图模型进行参数学习训练,具体采用经典的梯度下降方法,所述
梯度下降方法每次迭代需要进行的操作为式10:

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&theta;</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>+</mo> <mi>&eta;</mi> <mo>.</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>O</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>&theta;</mi> </mrow> </mfrac> </mrow> (式10)

式10中,θnew表示每一次迭代获取的新θ值;θold表示每一次迭代之前的θ值,初始是随
机赋值的θ;η表示梯度下降法更新的速率值,η越大,更新越快,但是波动也越大;θ={α,β,γ},
其中α,β,γ分别为交互因子、空间因子和团因子;O(θ)为极大似然目标函数;表示梯度
下降法中的梯度选取量。

上述模型参数学习时同时考虑家庭、同事和朋友三类关系。

步骤5)所述多元关系并行推断方法具体包括运用梯度下降的参数估计方法和基于多元
关系的概率值进行关系推断的方法。

与现有技术相比,本发明的有益效果是:

本发明提供一种基于位置的移动社会网络用户关系识别方法,根据移动社会网络数据对
用户间多元社会关系进行识别;本发明技术方案考虑了空间信息对关系的影响、利用因子图
模型并进行多元关系并行识别,其优点体现在以下几方面:

第一,不同关系的用户具备不同的空间交互特征;现有针对用户关系识别的方法大多基
于facebook等具备位置信息的网站进行的;而本发明具体是基于“移动通话数据”考虑空间
位置交互特征对关系的影响;

第二,已有的关系识别方法大多利用传统分类器进行关系识别,没有考虑用户之间的交
互网络结构;而本发明利用因子图模型将用户周边环境的影响考虑进来;

第三,已有的关系识别方法大多基于单元关系串行识别,通过进行两次识别进行。比如
首先进行“家庭关系”和“朋友关系”的识别,之后再进行“同事关系”和“朋友关系”的
识别;而本发明进行多元并行关系识别,在一次识别过程中获取最终结果;相比于现有方法,
本发明考虑了家庭关系和同事关系之间的相互作用,可提高关系识别的准确率。

附图说明

图1是本发明提供的基于位置的移动社会网络用户关系识别方法的流程框图;

其中,实线边框表示每一个步骤;虚线边框表示用户行为特征/属性;特征抽取实质上是
抽取三个因子;三个因子用实线箭头连接到下一步骤“因子图模型建立”;步骤“用户行为特征
提取”到下一步骤“因子图模型建立”用虚线箭头连接。

图2是本发明方法中用户行为特征提取步骤的流程框图。

图3是本发明建立的用于用户关系识别的因子图模型包括三个因子的示意图。

具体实施方式

下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。

本发明提供一种基于位置的移动社会网络用户关系识别方法,基于通话详单数据构建移
动社会网络,提取移动用户的交互行为特征和空间行为特征,建立包含三类因子(交互因子、
空间因子和团因子)的图模型,进而实现家庭、同事和朋友关系的并行推断;图1是本发明
的整体流程,方法步骤包括移动数据预处理、用户行为特征提取、建立关系识别模型和关系
学习,再推断得到识别结果。

本实施例选定训练集和测试集的用户,分别为:训练集包括10个用户,分别是用户A、
用户B…用户J;测试集包括8个用户,分别是用户a、用户b...用户h。本实施例在进行特征
提取和模型训练的基础上进行关系预测识别,使用的数据包括基本数据和辅助数据,其中,
基本数据为用户通话详单,比如说用户A和用户B打过几次电话。对于每一次通话,通话详
单中会记录相应的“主叫电话号码”、“被叫电话号码”、“通话发生时间”、“通话持续时长”、
“主叫人所在基站”、“被叫所在基站”等信息。除去基本信息以外,还包括一些其他的辅助
信息如基站信息表、家庭信息表和集团信息表。其中,基站信息表中记录了“基站号码”,“基
站的经纬度”,“基站内部的地点语义”(即在此基站中有多少个学校、医院、商业街等);家
庭信息表中记录了“家庭ID”、“用户ID”等信息,可以通过该表确认两个用户是否属于一个
家庭;集团信息表中记录了“公司ID”、“用户ID”等信息,可以通过该表确认两个用户是否
属于一个公司。

本实施例主要采用sql语言进行数据处理和特征提取,获得多个因子的取值。基于上述
数据,本实施例实现基于位置的移动社会网络用户关系识别方法,具体按如下操作实施:

1)移动数据预处理;

由于总体样本数据过大,存在不方便进行实验等问题,所以需要进行数据抽样。数据预
处理主要解决数据抽样的完整性问题,以及解决噪声干扰。

11)基于家庭关系表对数据进行抽样,解决数据抽样的完整性问题;

如果不考虑数据完整性,在整体样本中完全随机抽取的话,我们会得到一个没有完整网
络结构的用户交流图,无法进行分析处理。所以需要通过数据预处理方法,获得用于关系识
别的抽样数据。

本实施例基于家庭关系表对数据进行抽样,以解决数据抽样的完整性问题;具体方法包
括如下步骤:

a)从家庭关系表中完全随机抽取一定数量的家庭ID;

b)根据家庭ID,抽取属于该家庭的全部用户;这些用户即构成抽样集合,最为待识别
用户数据。

12)通过删除用户来解决噪声干扰;

本实施例中,删除的用户种类包括:一个月内,总通话数量少于10的用户;一个月内,
暴露的联系人数量超过500的用户。

2)用户行为特征提取;

本发明涉及的移动用户行为特征提取涉及两类:第一种是交互行为特征,它侧重于描述
两个用户之间关系的交流特征,比如通话时间、通话强度等特征;第二种是空间行为特征,
侧重于描述的是两个用户之间在空间上的同现行为特征(比如他们最常同现的地方分布),以
及地理语义特征(比如家人常在家里、商场等场所同现,而同事则在单位办公场所位置同现)。

用户行为特征提取通过利用通话详单等原始数据抽取特征。输入通话详单、家庭关系表,
集团关系表和基站信息表;通过用户行为特征提取方法,得到用户关系的三个因子(交互因
子、空间因子和团因子)。

21)交互行为特征提取:主要包括如下刻画关系强度和稳定性的两类特征:

(1)交互强度特征:社会学中将关系描述为连接强度,通过式1定义连接强度tie strength,
用来表示通话交流特征,在识别过程中具有辅助提高准确率的作用;我们对于不同的通话特
征(即参数k1~k4)赋予不同的权值:


(式1)

式1中,参数k1~k4分别代表“两人交流次数”、“两人忙时交流次数”、“两人闲时
交流次数”和“两人周末交流次数”;参数k1~k4的值代表不同的通话特征的权值,可利用
回归拟合计算得到。

不同关系的用户之间,会有不同的通话特征;比如说家庭用户在闲时和周末通话较多;
而同事关系的用户在忙时交流次数较多。我们用svm训练器训练出K={k1,k2,k3,k4}值,
目的是进一步扩大不同关系之间的区分度。

具体训练过程包括如下步骤:

a)首先根据用户通话详单数据,获取训练集中A~J十个用户两两之间的数据,包括:“两
人交流次数”、“两人忙时交流次数”、“两人闲时交流次数”和“两人周末交流次数”。

举例说明,根据通话详单,我们可以获取用户的通话发生时间,根据不同的通话时间,
进行加和运算,即可得出上述数据,作为通话特征。

b)根据家庭信息表和集团信息表,获取用户之间的关系;

c)将“两人交流次数、两人忙时交流次数、两人闲时交流次数、两人周末交流次数”四
项属性作为x值,他们之间的关系作为y值,进行svm训练,最终训练出相应的K={k1,k2,
k3,k4}值,该值会在测试集中使用。

具体地,本实施例中,因为“原始信息表”分为通话表和短信表,所以每一步特征提取
都需要进行两次提取操作,分别获取“短信总数量”和“电话总数量”。将四个特征整合成交
互因子。开始我们不知道不同特征的权重,所以会在训练集上,利用svm分类器求得分类权
重。

输入:X(四项基本特征x1,x2,x3,x4),Y(用户之间的关系属性)

处理:利用svm分类器,进行迭代分类

输出:最终在分类准确率高的结果上,获取目标向量k(k1,k2,k3,k4)

分类过程具体为:

输入在学习过程中获取的k(k1,k2,k3,k4)值和在特征获取中获取的相应的特征;

处理过程:利用公式tie strength=k1*x1+k2*x2+k3*x3+k4*x4,计算出交互因子
数值。其中x1=两人通话次数总通话次数+两人短信条数总短信条数;x2=忙时通话次数两人通
话总次数+忙时短信条数两人短信条数;x3=闲时通话次数两人通话总次数+闲时短信条数两
人短信总条数;x4=周末通话次数两人通话总次数+周末短信条数两人短信总条数;

输出为交互强度值。

(2)交互稳定性特征:不同关系用户的通话行为在时间上具有差异性,总体来说工作关
系的用户对之间通话集中在工作时段,而家庭通话时间随机性较强。为了量化这一特征,提
出通话熵的概念,用于衡量不同关系用户通话的稳定性。通话熵Entropy的计算公式如下:

<mrow> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> (式2)

其中,p(xi)为用户对在第i个小时时段内的通话概率,i=1,2,…,T;典型的T的取值为
24,对应于一天中24个小时时段。

22)空间行为特征提取:主要包括刻画空间同现性和地理语义的两类特征:

(1)地理语义特征:

在已知的基站信息中,每一个基站都具备各自的语义—即在这个基站的覆盖范围内,有
几个医院、学校、娱乐设施等。基于最简单的累加法进行试验——即如果用户在这个基站出
现同现,那么将这个基站覆盖范围内的所有语义分别进行累加。但是,这样最终得到一个毫
无区分度的整个地区的设施分布结果。

为避免这种现象的出现,我们引进了TF-IDF方法。该方法作为一种统计方法,用于评估
字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文
件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在本专利
中主要用于评估某个地点语义的重要性。比如说“学校”这一关键词在整个城市中出现了100
次,我们就定义“学校”的IDF为1/100;用户x、y在基站l相遇,而l中“学校”这一关键词出
现了5次,那么我们定义本次相遇中,“学校”的TF为5;最终可以求得本次相遇中,“学校语
义”所占的权值:TF*IDF=5*1/100=0.05。最后我们用该基站权值最大的语义来代表该基站。

本实施例中,根据通话详单,可以获取用户的地点信息,比如说用户A在xxx时间在yyy
基站发生一次通话。我们可以简化理解为:用户A在xxx时间出现在yyy地点。

(2)空间同现性特征:

如果用户a、b在一个小时时间内,都在同一基站c出现,则记录同现一次。根据时间,
将同现特征分三类,分别是夜晚同现频率,工作日白天的同现频率,周末同现频率等。则定
义同现公式:其中a∩b表示用户a和用户b的空间同现次数;a∪b表示用户a空间
位置暴露次数以及b空间位置暴露次数的总和。举例说明:抽取夜晚同现频率,此时公式
的时间限定为夜晚,有a∩b表示在晚上,用户a和用户b的空间同现次数;a+b表示
在晚上,用户a空间位置暴露次数以及b空间位置暴露次数的总和。

根据用户的地点信息,我们可以获取用户的同现信息。比如说用户A在今天10点出现
在y基站,用户B在今天10点也出现在y基站,那么我们认为两个用户有一次同现。

模型中主要用到三个同现信息:

第一个是用户同现的频率,比如说“用户A和用户B同现的总次数”除以“他们分别同
现的次数之和”;

第二个是用户同现地点语义,每一个基站都有相应的地点语义,比如说基站y覆盖范围
下,有10个医院,2个学校等;用tf-idf方法计算基站的地点语义;

第三个是用户同现的分布规律,根据用户同现的时空信息计算分布熵。

3)建立因子图模型,作为关系识别模型;

用G=(V,C,R,S)来描述移动社交网络,其中V是网络中|V|=N个用户的集合,
表述网络中用户之间的团,R用来表示两个用户之间的关系,分朋友、同事和
家庭三类。S描述了两个用户之间在空间上的关系。用X是描述两个用户之间的基本属性关系
矩阵;X中每一个xi,j代表的是一个用来描述用户i和用户j之间关系属性的|xi,j|维特征向量。

给定一个社交网络G=(V,C,R,S)和关系特征属性矩阵X,我们的目标是学习如下函数:

f:G=(V,C,R,S),X→(R) (式3)

用来进行判别用户之间的社交关系。

为充分利用移动社会网络数据集中所包含的信息,所设计的模型不仅要考虑到用户关系
本身所具有的属性,也需考虑用户在空间上的行为特征,以及社交行为特征。为综合融入上
述信息,本发明构建因子图模型来进行多元关系识别。因子图模型建模包括如下步骤:

首先,使用无向图结构表达出移动社交网络拓扑结构,在网络的节点属性中表达用户自
身行为的特征向量,在网络边的属性中表达用户之间交互行为的特征向量;

然后,基于因子图模型建模理论,定义一个全局函数来描述用户之间关系的条件概率分
布的表达,进而将全局函数分解为三个因子,分别用来刻画所提取的移动用户行为特征;

最后,使用极大似然估计的方法,求得使得模型达到最大似然值的参数,即完成了关系
识别模型的构建。

在因子图模型中,定义一个全局函数使得描述用户关系的条件概率达到最大,将全局函
数分解为局部函数乘积,本发明将全局函数分解为三个因子(交互因子、空间因子、社交因
子):

<mfenced open = '' close = ''> <mtable> <mtr> <mtd> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>|</mo> <mi>G</mi> <mo>,</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>G</mi> <mo>|</mo> <mi>R</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>G</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&Proportional;</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>|</mo> <mi>G</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <mi>R</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&Proportional;</mo> <msub> <mo>&Pi;</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mo>&Pi;</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mo>&Pi;</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> (式4)

具体地,三个因子分别为:1)交互因子描述两个用户之间关系的交流特征,比如通话时
间、通话强度等特征;2)空间因子描述两个用户之间在物理空间上的联系,比如他们最常同
现的地方分布;3)社团因子描述用户之间的关系受到所属社团的影响。

因此,整个总的全局概率分布可以被下面公式描述:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>|</mo> <mi>G</mi> <mo>,</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mo>&Pi;</mo> <mrow> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>&Element;</mo> <mi>G</mi> </mrow> </msub> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> (式5)

其中,R代表用户之间的关系类型(包括家庭关系、同事关系、朋友关系),G表示网络
结构图;X表示特征矩阵,比如10个用户,那么X特征矩阵就有10行,每一行代表一个用户的
特征;ri,j代表用户i,j之间的关系;xi,j代表用户i,j之间的交流因子特征;si,j代表用户i,j
之间的空间因子特征;ci,j,k代表用户i,j之间的社交因子;ei,j表示图中i,j的连接边;ci,j,k表
示用户i,j与其他用户构成的团。

三个因子函数的构建过程:

交互因子:使用因子f(ri,j,xi,j)来描述两个用户之间的关系ri,j和交流关系属性xi,j之间的
关系;用一个指数线性函数(式6)来描述交互因子(函数):

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mi>e</mi> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&alpha;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>}</mo> </mrow> (式6)

是模型中需要进行学习的参数;we用来标准化的参数,对于每一对有关系的用户i
和j,参数是一个|xi,j|维长度的参数,并且参数的第k维描述了xi,jk对于两个用户之间关系
的贡献。比如说xi,j的第k维代表的是两者之间的通话强度,那么参数的第k维则描述的是
两者之间的通话强度对于他们之间的关系的贡献。交互因子的主要作用是用来描述两个用户
之间通话属性对于整个用户关系的影响。

空间因子:用因子g(ri,j,si,j)来描述两个用户之间的关系ri,j和在物理空间属性之间si,j的
关系,使用同现地点(两者同时出现在某个地点)的频率刻画,用一个线性指数函数来描述这个
因子(函数):

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&beta;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>}</mo> </mrow> (式7)

其中,是模型中需要进行学习的参数,wes是用来进行标准化的参数。对于每对有关
系的用户i和j,参数的第k维描述的是两个用户同现的地点语义对于他们关系的贡献。比如,
si,j的第k维描述的是两个用户在公司出现的频率,那么如果这个频率够高的话,那么他们两
者之间很有可能是同事关系。还比如两个用户同时在小区出现的频率较高,那么他们之间很
有可能是家庭关系。

社团因子:社交因子h(ri,j,ci,j,k)描述两个用户之间的关系ri,j与他们和其他用户所构成的
团之间的影响。更具体用一个函数来描述这个因子:

<mrow> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = '{' close = ''> <mtable> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>1</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>1</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>2</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>2</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>2</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mn>3</mn> </mrow> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <msub> <mi>&gamma;</mi> <mn>3</mn> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>h</mi> <mn>3</mn> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> (式8)

其中,函数h′1(ri,k,rj,k)为向量函数,wcp为标准化参数。在集团中用向量函数来描述集团
中另外两边的关系对于用户i和j关系预测的贡献。比如,如果另外两遍均为家庭关系,那么很
有可能需要进行预测的边也是家庭关系。根据另外两条边的类型不同可以构造三种不同的函
数。

本实施中,社团因子的获得具体是:输入原始通话详单,处理过程是运用sql语言,抽
取所有的三元团;比如说用户A和用户B、C都有通话,同时用户B、C之间也具有通话,
那么A、B、C构成三元团;输出为所有三元团信息。

综合以上三个因子,定义目标函数作为所提出模型的极大似然值(log-likelihood),

<mrow> <mi>O</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>&beta;</mi> <mo>,</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <msub> <mi>&alpha;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <msub> <mi>&beta;</mi> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&Sigma;</mi> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mi>G</mi> </mrow> </msub> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>3</mn> </msubsup> <msub> <mi>&gamma;</mi> <mi>q</mi> </msub> <msubsup> <mi>h</mi> <mi>q</mi> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <mo>&CenterDot;</mo> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>W</mi> </mrow> (式9)

其中,O(α,β,γ)是P(R|G,X)的对数函数;ei,j表示用户i,j之间的边,如果用户i,j之间有通
话等交互动作,则认为这两个用户之间存在边;E表示数据集中所有的边的集合;
γq为需要学习的参数,实质上表达不同特征的权重;xi,j、si,j、h′q(·)表示三种因
子,分别是交流因子、空间因子和社团因子;W=WeWesWcp是全局标准化参数。

4)通过关系学习与推断,得到识别结果。

目前,常被采用的关系预测方法分别对家庭、同事和朋友关系分别进行预测。但是,在
推断过程中,不同关系的相互协同有助于识别精度的提升,因此本发明采用多元社交关系的
并行推断方法,识别得到的结果将更为合理。

本发明从两个角度来实现移动社会网络中多元关系的并行推断:一,运用梯度下降的参
数估计方法,同时对因子图模型中三种关系类别进行参数推断;二,基于多元关系的概率值
进行关系推断:对于网络中的任意一条边,在参数学习的基础上用因子图模型进行推断的时
候,三种关系都可以得到一个概率,则选取概率最大值所对应的关系类别作为关系识别的结
果。

多元关系学习和并行推断,包括:

41)模型参数学习

本专利将图模型中任意两个用户的关系定义关系属性R∈{0,1,2},其中0代表朋友关系,
1代表同事关系,2代表家庭关系。因为家庭关系是一种比同事关系联系强度更强的关系类型,
所以在本发明中,在模型参数学习阶段,将既是家庭又是同事的关系类型仅仅标识为家庭关
系。

模型学习(训练)的输入是特征提取得到的数据和用户之间的具体关系属性R;本实施
例在训练集中进行模型训练。模型学习的输入训练集数据,抽取的所有因子和用户之间的具
体关系。对于训练集A~J,我们已知他们之间的关系属性R(比如说AB为一家人,那么RAB=2;
同事为1;普通朋友为0),在输入数据之后(需要输入交流特征xi,j,空间特征si,j,三元交互
特征ci,j,k),我们需要求出P(R|G,X)中的θ={α,β,γ}值(用于决定不同的因子的权重)来确定
模型。

模型学习的目标是找到一个适合的值θ={α,β,γ}在给定的训练集上使得极大似然目标
函数O(θ)达到最大。即θ*=argmaxO(θ)。通过模型学习输出分类模型的θ={α,β,γ}值。

采用经典的梯度下降的方法来解决训练的问题。下面即为每次迭代需要进行的操作:

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&theta;</mi> <mrow> <mi>o</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> <mo>+</mo> <mi>&eta;</mi> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>O</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>&theta;</mi> </mrow> </mfrac> </mrow> (式10)

式10中,θnew表示每一次迭代获取的新θ值;θold表示每一次迭代之前的θ值,初始是随
机赋值的θ;η表示梯度下降法更新的速率值,η越大,更新越快,但是波动也越大;表
示梯度下降法中的梯度选取量。

θ={α,β,γ},开始时,随机赋值θ,之后,用梯度下降法进行迭代运算。

42)多元关系的识别:

完成参数值θ估计之后,得到相应的参数值,就可以对于网络中未知边的关系类别进行
识别。

基于图模型的多元关系学习和推断过程中:1)模型参数学习时同时考虑了家庭、同事和
朋友三类关系;2)在关系推断的过程中,同时推断三类关系(家庭、同事和朋友),采用的
方法是依据每条边计算出的三类关系的概率值,取其概率最大值所对应的关系。对于网络中
的任意一条边用因子图模型进行推断的时候,三种关系都可以得到一个概率,则选取概率最
大值所对应的关系类别作为关系识别的结果。

对于测试集用户a~h,我们最终目标是求出他们的关系属性R。类似于模型训练,通过测
试集数据的通话详单获取用户的三元社交关系,输入三个因子,同时输入训练过程中求得的
θ={α,β,γ}值,找到式5所表示的函数中使得P(R|G,X)值最大的R,R就是用户之间的关系。

需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员
可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。
因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的
范围为准。

一种基于位置的移动社会网络用户关系的识别方法.pdf_第1页
第1页 / 共14页
一种基于位置的移动社会网络用户关系的识别方法.pdf_第2页
第2页 / 共14页
一种基于位置的移动社会网络用户关系的识别方法.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《一种基于位置的移动社会网络用户关系的识别方法.pdf》由会员分享,可在线阅读,更多相关《一种基于位置的移动社会网络用户关系的识别方法.pdf(14页珍藏版)》请在专利查询网上搜索。

本发明公布了一种基于位置的移动社会网络用户关系识别方法,基于用户数据构建移动社会网络,通过对用户行为进行特征提取建立因子图模型,再进行模型参数学习和多元关系并行推断,得到用户关系;包括对用户数据进行预处理,获得抽样数据;利用抽样数据提取用户行为特征,包括交互行为特征和空间行为特征;得到用户关系的交互因子、空间因子和团因子;建立因子图模型;针对因子图模型进行参数学习训练;利用训练好的因子图模型通过多。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1