一种用户行为分析方法及装置.pdf

摘要
申请专利号：	CN201611094430.X	申请日：	2016.12.01
公开号：	CN106776938A	公开日：	2017.05.31
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20161201\|\|\|公开
IPC分类号：	G06F17/30; G06F17/27	主分类号：	G06F17/30
申请人：	航天恒星科技有限公司
发明人：	邹俊; 彭龙; 李明泉; 刘华; 梁杰雯; 李志真; 郑东波; 赵清
地址：	100086 北京市海淀区知春路82号院
优先权：
专利代理机构：	北京睿驰通程知识产权代理事务所(普通合伙) 11604	代理人：	乔双双
PDF下载：	PDF下载

内容摘要

本发明提供一种用户行为分析方法及装置，其中，所述方法包括：预先获取区域用户的信息；对所述区域用户的信息进行分析，以获取所述区域用户的信息中各种信息对应的频率以及各种信息与人为分析的用户特征之间的相关性；对存储的信息进行散落分析，以得到所述存储的信息对应的散落因子；根据所述散落因子，确定所述存储的信息对应的语料更新周期，并根据所述语料更新周期对存储的信息进行整理；将整理后的存储的信息翻译为与所述区域用户相关联的属性信息。本发明提供的一种用户行为分析方法及装置，能够提高分析的结果的准确性。

权利要求书

1.一种用户行为分析方法，其特征在于，所述方法包括：
预先获取区域用户的信息，所述区域用户的信息包括面部表情信息、眼部动作信息、手
势动作信息、文本输入信息、语音音节信息以及地理位置信息中的至少一种；
对所述区域用户的信息进行分析，以获取所述区域用户的信息中各种信息对应的频率
以及各种信息与人为分析的用户特征之间的相关性；
将所述区域用户的信息、各种信息对应的频率以及各种信息与用户特征之间的相关性
进行存储，并对存储的信息进行散落分析，以得到所述存储的信息对应的散落因子；
根据所述散落因子，确定所述存储的信息对应的语料更新周期，并根据所述语料更新
周期对存储的信息进行整理；
将整理后的存储的信息翻译为与所述区域用户相关联的属性信息，所述属性信息包括
区域用户的喜好、幸福感以及情感中的至少一种。
2.根据权利要求1所述的用户行为分析方法，其特征在于，获取各种信息与人为分析的
用户特征之间的相关性具体包括：
在每种信息中，确定与人为分析的用户特征最接近的信息样本的数量；
将确定的信息样本的数量与信息样本的总数量之间的比值作为该信息与人为分析的
用户特征之间的相关性。
3.根据权利要求1所述的用户行为分析方法，其特征在于，对存储的信息进行散落分析
具体包括：
S11：计算预设区域的信息对应的信息矩阵的平均密度；
S12：从所述预设区域的信息对应的信息矩阵中，确定平均密度与计算的平均密度相等
的至少一个子矩阵序列；
S13：根据确定的所述子矩阵序列的分布，确定所述预设区域中密度分布的方差；
S14：将步骤S13所得的方差作为初始值，重复S11至S13的步骤，直至重复的次数达到预
设次数为止；
S15：将上一次所得的方差与当前所得的方差之间的比例作为所述散落因子。
4.根据权利要求1所述的用户行为分析方法，其特征在于，按照下述公式确定所述存储
的信息对应的语料更新周期：
T＝(log2N)/K
其中，T表示所述语料更新周期，N表示存储的信息的样本数量，K表示所述散落因子。
5.根据权利要求1所述的用户行为分析方法，其特征在于，根据所述语料更新周期对存
储的信息进行整理具体包括：
S21：当存储的信息在所述语料更新周期内没有更新时，判定所述存储的信息过期；
S22：将存储的信息中的文字和符号进行全切分，并保留预设长度范围的字或者符号的
字符串；
S23：确定所述字符串的归一化使用率；
S24：重复S22和S23的步骤，以生成阶段数据矩阵列表，并将所述阶段数据矩阵列表作
为下一次产生语料的原材料；
S25：根据本次待产生的文字和符号以及上一次已经生成的文本和符号，计算语料的阶
段使用率差；
S26：根据所述归一化使用率和阶段使用率差，对所述符号串进行过滤。
6.根据权利要求5所述的用户行为分析方法，其特征在于，按照下述公式计算语料的阶
段使用率差：
U(p)＝[U(t)-U(t-1)]/[U(t)+U(t-1)]
其中，U(p)表示所述阶段使用率差，U(t)表示本次待产生的文字和符号对应的归一化
使用率，U(t-1)表示上一次已经生成的文字和符号对应的归一化使用率。
7.根据权利要求5所述的用户行为分析方法，其特征在于，根据所述归一化使用率和阶
段使用率差，对所述符号串进行过滤具体包括：
将阶段使用率差低于第一预设阈值的符号串滤除；
将归一化使用率低于第二预设阈值的符号串滤除。
8.根据权利要求7所述的用户行为分析方法，其特征在于，所述方法还包括：
根据TF-IDF算法，将TF-IDF值低于第三预设阈值的符号串滤除。
9.一种用户行为分析装置，其特征在于，所述装置包括：
信息采集单元，用于预先获取区域用户的信息，所述区域用户的信息包括面部表情信
息、眼部动作信息、手势动作信息、文本输入信息、语音音节信息以及地理位置信息中的至
少一种；
信息分析单元，用于对所述区域用户的信息进行分析，以获取所述区域用户的信息中
各种信息对应的频率以及各种信息与人为分析的用户特征之间的相关性；
信息存储单元，用于将所述区域用户的信息、各种信息对应的频率以及各种信息与用
户特征之间的相关性进行存储；
散落分析单元，用于对存储的信息进行散落分析，以得到所述存储的信息对应的散落
因子；
语料整理单元，用于根据所述散落因子，确定所述存储的信息对应的语料更新周期，并
根据所述语料更新周期对存储的信息进行整理；
信息翻译单元，用于将整理后的存储的信息翻译为与所述区域用户相关联的属性信
息，所述属性信息包括区域用户的喜好、幸福感以及情感中的至少一种。
10.根据权利要求9所述的用户行为分析装置，其特征在于，所述信息分析单元具体包
括：
样本数量确定模块，用于在每种信息中，确定与人为分析的用户特征最接近的信息样
本的数量；
比值确定模块，用于将确定的信息样本的数量与信息样本的总数量之间的比值作为该
信息与人为分析的用户特征之间的相关性。

说明书

一种用户行为分析方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种用户行为分析方法及装置。

背景技术

大数据时给用户带来便利的同时也带来的是海量数据淹没，大量的互联网企业和
云服务公司正在从事对智能穿戴产品的研究，而这一过程的最重要环节为对用户的行为分
析的研究；有了对用户行为的分析，才能把握用户的兴趣爱好、创作出用户满意的产品和服
务。

然而现有的对用户行为分析的方法都仅仅针对单一的对用户的文字分析或者简
单的语音分析，由于分析因素的单一，所得的分析结果往往不够准确。

现有用户行为分析设备大多不对语料库进行整理或更新，采用的都是一些现有整
理好的文本语料库。部分大型互联网企业则自己整理文本语料库，但语料库不进行自我更
新。同时，现有用户行为分析设备鲜有区域性概念，所采用的分析方法大多基于一种书面语
言的性质的全区域，从而导致用户行为分析的结果不准确。

发明内容

本发明实施例的目的在于提供一种用户行为分析方法及装置，能够提高分析的结
果的准确性。

为实现上述目的，本发明实施例一方面提供一种用户行为分析方法，所述方法包
括：预先获取区域用户的信息，所述区域用户的信息包括面部表情信息、眼部动作信息、手
势动作信息、文本输入信息、语音音节信息以及地理位置信息中的至少一种；对所述区域用
户的信息进行分析，以获取所述区域用户的信息中各种信息对应的频率以及各种信息与人
为分析的用户特征之间的相关性；将所述区域用户的信息、各种信息对应的频率以及各种
信息与用户特征之间的相关性进行存储，并对存储的信息进行散落分析，以得到所述存储
的信息对应的散落因子；根据所述散落因子，确定所述存储的信息对应的语料更新周期，并
根据所述语料更新周期对存储的信息进行整理；将整理后的存储的信息翻译为与所述区域
用户相关联的属性信息，所述属性信息包括区域用户的喜好、幸福感以及情感中的至少一
种。

进一步地，获取各种信息与人为分析的用户特征之间的相关性具体包括：在每种
信息中，确定与人为分析的用户特征最接近的信息样本的数量；将确定的信息样本的数量
与信息样本的总数量之间的比值作为该信息与人为分析的用户特征之间的相关性。

进一步地，对存储的信息进行散落分析具体包括：S11：计算预设区域的信息对应
的信息矩阵的平均密度；S12：从所述预设区域的信息对应的信息矩阵中，确定平均密度与
计算的平均密度相等的至少一个子矩阵序列；S13：根据确定的所述子矩阵序列的分布，确
定所述预设区域中密度分布的方差；S14：将步骤S13所得的方差作为初始值，重复S11至S13
的步骤，直至重复的次数达到预设次数为止；S15：将上一次所得的方差与当前所得的方差
之间的比例作为所述散落因子。

进一步地，按照下述公式确定所述存储的信息对应的语料更新周期：

T＝(log2N)/K

其中，T表示所述语料更新周期，N表示存储的信息的样本数量，K表示所述散落因
子。

进一步地，根据所述语料更新周期对存储的信息进行整理具体包括：S21：当存储
的信息在所述语料更新周期内没有更新时，判定所述存储的信息过期；S22：将存储的信息
中的文字和符号进行全切分，并保留预设长度范围的字或者符号的字符串；S23：确定所述
字符串的归一化使用率；S24：重复S22和S23的步骤，以生成阶段数据矩阵列表，并将所述阶
段数据矩阵列表作为下一次产生语料的原材料；S25：根据本次待产生的文字和符号以及上
一次已经生成的文本和符号，计算语料的阶段使用率差；S26：根据所述归一化使用率和阶
段使用率差，对所述符号串进行过滤。

进一步地，按照下述公式计算语料的阶段使用率差：

U(p)＝[U(t)-U(t-1)]/[U(t)+U(t-1)]

其中，U(p)表示所述阶段使用率差，U(t)表示本次待产生的文字和符号对应的归
一化使用率，U(t-1)表示上一次已经生成的文字和符号对应的归一化使用率。

进一步地，根据所述归一化使用率和阶段使用率差，对所述符号串进行过滤具体
包括：将阶段使用率差低于第一预设阈值的符号串滤除；将归一化使用率低于第二预设阈
值的符号串滤除。

进一步地，所述方法还包括：根据TF-IDF算法，将TF-IDF值低于第三预设阈值的符
号串滤除。

为实现上述目的，本申请另一方面提供一种用户行为分析装置，所述装置包括：信
息采集单元，用于预先获取区域用户的信息，所述区域用户的信息包括面部表情信息、眼部
动作信息、手势动作信息、文本输入信息、语音音节信息以及地理位置信息中的至少一种；
信息分析单元，用于对所述区域用户的信息进行分析，以获取所述区域用户的信息中各种
信息对应的频率以及各种信息与人为分析的用户特征之间的相关性；信息存储单元，用于
将所述区域用户的信息、各种信息对应的频率以及各种信息与用户特征之间的相关性进行
存储；散落分析单元，用于对存储的信息进行散落分析，以得到所述存储的信息对应的散落
因子；语料整理单元，用于根据所述散落因子，确定所述存储的信息对应的语料更新周期，
并根据所述语料更新周期对存储的信息进行整理；信息翻译单元，用于将整理后的存储的
信息翻译为与所述区域用户相关联的属性信息，所述属性信息包括区域用户的喜好、幸福
感以及情感中的至少一种。

进一步地，所述信息分析单元具体包括：样本数量确定模块，用于在每种信息中，
确定与人为分析的用户特征最接近的信息样本的数量；比值确定模块，用于将确定的信息
样本的数量与信息样本的总数量之间的比值作为该信息与人为分析的用户特征之间的相
关性。

本发明提供的一种用户行为分析方法及装置，可以获取用户行为信息，通过对用
户的行为表现提取用户喜好、幸福感、情感等信息，最终可以为智能终端产品输出翻译后的
信息。本发明可以抽取用户行为信息建立用户行为语料库，得到用户行为的关键信息。本发
明将建立的用户行为信息语料库通过翻译，达到最终分析用户喜好、幸福感、情感等的目
的，极大地提高了行为分析的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所
需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施
例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施
例的内容和这些附图获得其他的附图。

图1是本实施例所述的用户行为分析的方法流程图；

图2是本实施例所述的用户行为分析的装置功能模块图。

贯穿附图，应该注意的是，相似的标号用于描绘相同或相似的元件、特征和结构。

具体实施方式

提供以下参照附图的描述来帮助全面理解由权利要求及其等同物限定的本公开
的各种实施例。以下描述包括帮助理解的各种具体细节，但是这些细节将被视为仅是示例
性的。因此，本领域普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可对
本文所述的各种实施例进行各种改变和修改。另外，为了清晰和简洁，公知功能和构造的描
述可被省略。

以下描述和权利要求书中所使用的术语和词汇不限于文献含义，而是仅由发明人
用来使本公开能够被清晰和一致地理解。因此，对于本领域技术人员而言应该明显的是，提
供以下对本公开的各种实施例的描述仅是为了示例性目的，而非限制由所附权利要求及其
等同物限定的本公开的目的。

应该理解，除非上下文明确另外指示，否则单数形式也包括复数指代。因此，例如，
对“组件表面”的引用包括对一个或更多个这样的表面的引用。

本申请实施方式提供一种用户行为分析方法，请参阅图1，所述方法包括以下步
骤。

S1：预先获取区域用户的信息，所述区域用户的信息包括面部表情信息、眼部动作
信息、手势动作信息、文本输入信息、语音音节信息以及地理位置信息中的至少一种。

在本实施方式中，可以采集区域用户信息。具体地，可以通过文本输入及传感器等
多种方式采集用户的文本输入与及用户面部表情和手势动作等信息进行分析。

所述面部表情信息包括但不限于目前互联网所有的表情信息，所述手势动作信息
包括但不限于区域手势习惯动作，所述眼部动作信息包括但不限于眼球活动所代表的表情
信息，所述文本输入信息包括但不限于区域语言及普及使用语言的综合信息；所述语音音
节信息可以是基于区域语言的(如普通话中1700个音节)对应音节信息；所述地理位置信息
可以是基于对地方或区域语言的文字信息与及地理位置(如GPS)信息。

当然，本领域技术人员应能理解上述几种信息获取方式仅为举例，其他现有的涉
及综合所述信息最终获取区域性文字与符号训练集的信息获取的方法与装置如可使用于
本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

S2：对所述区域用户的信息进行分析，以获取所述区域用户的信息中各种信息对
应的频率以及各种信息与人为分析的用户特征之间的相关性。

在本实施方式中，所述各种信息对应的频率包括但不限于所采集面部表情各自出
现次数，所采集手势动作各自出现次数，所采集眼球滑动各自出现次数与及所采集文本词
组出现次数和所采集音节出现次数。

所述各种信息与人为分析的用户特征之间的相关性具体地可以按照下述方式确
定：在每种信息中，确定与人为分析的用户特征最接近的信息样本的数量；将确定的信息样
本的数量与信息样本的总数量之间的比值作为该信息与人为分析的用户特征之间的相关
性。

S3：将所述区域用户的信息、各种信息对应的频率以及各种信息与用户特征之间
的相关性进行存储，并对存储的信息进行散落分析，以得到所述存储的信息对应的散落因
子。

在本实施方式中，对存储的信息进行散落分析具体包括：

S11：计算预设区域的信息对应的信息矩阵的平均密度；

S12：从所述预设区域的信息对应的信息矩阵中，确定平均密度与计算的平均密度
相等的至少一个子矩阵序列；

S13：根据确定的所述子矩阵序列的分布，确定所述预设区域中密度分布的方差；

S14：将步骤S13所得的方差作为初始值，重复S11至S13的步骤，直至重复的次数达
到预设次数为止；

S15：将上一次所得的方差与当前所得的方差之间的比例作为所述散落因子。

本技术领域人员应该能理解上述散落分析的方法仅为举例，其它现有的和今后可
能出现的有关散落分析的技术和方法如可适用于本发明，也应包含在本发明保护范围以
内，并在此以引用方式包含于此。

S4：根据所述散落因子，确定所述存储的信息对应的语料更新周期，并根据所述语
料更新周期对存储的信息进行整理。

在本实施方式中，可以按照下述公式确定所述存储的信息对应的语料更新周期：

T＝(log2N)/K

其中，T表示所述语料更新周期，N表示存储的信息的样本数量，K表示所述散落因
子。

具体地，再进行语料整理时，可以包括以下步骤：

S21：当存储的信息在所述语料更新周期内没有更新时，判定所述存储的信息过
期。

S22：将存储的信息中的文字和符号进行全切分，并保留预设长度范围的字或者符
号的字符串；例如，可以包括2-9字或者符号的符号串。全切分是指将所有可能的符号串全
部切出，尽量避免切分(或组合)盲点。

S23：确定所述字符串的归一化使用率。

S24：重复S22和S23的步骤，以生成阶段数据矩阵列表，并将所述阶段数据矩阵列
表作为下一次产生语料的原材料。

S25：根据本次待产生的文字和符号以及上一次已经生成的文本和符号，计算语料
的阶段使用率差。

具体地，可以按照下述公式计算语料的阶段使用率差：

U(p)＝[U(t)-U(t-1)]/[U(t)+U(t-1)]

S26：根据所述归一化使用率和阶段使用率差，对所述符号串进行过滤。

在本实施方式中，可以将阶段使用率差低于第一预设阈值的符号串滤除，还可以
将归一化使用率低于第二预设阈值的符号串滤除。具体地，过滤掉阶段使用率差较低的符
号串的目的在于，如果这一阶段都极少涉及到相关文本和符号的信息，则这一分析信息在
整个语料中的作用将会大大降低。过滤掉归一化使用率在10的负9次方以下的符号串，目的
是过滤掉频次及文本和符号数量较低的符号串。

此外，还可以根据TF-IDF算法，将TF-IDF值低于第三预设阈值的符号串滤除。这样
做的目的在于，过滤掉频次、文本和符号出现次数较多的符号串，从而对于用户的行为处于
温和状态的信息予以过滤，不进行行为分析。

在本实施方式中，还可以进一步地进行筛选。具体地，可以过滤掉符号传中较少的
助词和时间符号、日期符号、与所需用户行为无关的动作符号。对于非常明显的区分语音和
语调的音节符号应该将符号的重要性提高。

S5：将整理后的存储的信息翻译为与所述区域用户相关联的属性信息，所述属性
信息包括区域用户的喜好、幸福感以及情感中的至少一种。

在本实施方式中，在进行信息翻译时，所用的模型可以为2阶但不限于2阶的马尔
可夫模型，所采用的数据分析算法可以为维特比算法。

请参阅图2，本申请还提供一种用户行为分析装置，所述装置包括：

信息采集单元100，用于预先获取区域用户的信息，所述区域用户的信息包括面部
表情信息、眼部动作信息、手势动作信息、文本输入信息、语音音节信息以及地理位置信息
中的至少一种；

信息分析单元200，用于对所述区域用户的信息进行分析，以获取所述区域用户的
信息中各种信息对应的频率以及各种信息与人为分析的用户特征之间的相关性；

信息存储单元300，用于将所述区域用户的信息、各种信息对应的频率以及各种信
息与用户特征之间的相关性进行存储；

散落分析单元400，用于对存储的信息进行散落分析，以得到所述存储的信息对应
的散落因子；

语料整理单元500，用于根据所述散落因子，确定所述存储的信息对应的语料更新
周期，并根据所述语料更新周期对存储的信息进行整理；

信息翻译单元600，用于将整理后的存储的信息翻译为与所述区域用户相关联的
属性信息，所述属性信息包括区域用户的喜好、幸福感以及情感中的至少一种。

在本申请一个实施方式中，所述信息分析单元200具体包括：

样本数量确定模块，用于在每种信息中，确定与人为分析的用户特征最接近的信
息样本的数量；

比值确定模块，用于将确定的信息样本的数量与信息样本的总数量之间的比值作
为该信息与人为分析的用户特征之间的相关性。

应该注意的是，如上所述的本公开的各种实施例通常在一定程度上涉及输入数据
的处理和输出数据的生成。此输入数据处理和输出数据生成可在硬件或者与硬件结合的软
件中实现。例如，可在移动装置或者相似或相关的电路中采用特定电子组件以用于实现与
如上所述本公开的各种实施例关联的功能。另选地，依据所存储的指令来操作的一个或更
多个处理器可实现与如上所述本公开的各种实施例关联的功能。如果是这样，则这些指令
可被存储在一个或更多个非暂时性处理器可读介质上，这是在本公开的范围内。处理器可
读介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光学数
据存储装置。另外，用于实现本公开的功能计算机程序、指令和指令段可由本公开所属领域
的程序员容易地解释。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似
的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

尽管已参照本公开的各种实施例示出并描述了本公开，但是本领域技术人员将理
解，在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下，可对其进
行形式和细节上的各种改变。