用于通过社交网络进行情绪检测、测量和规格化的系统和方法.pdf

上传人:xia****o6 文档编号:274311 上传时间:2018-02-07 格式:PDF 页数:11 大小:709.84KB
返回 下载 相关 举报
摘要
申请专利号:

CN201280059775.5

申请日:

2012.10.26

公开号:

CN104145264A

公开日:

2014.11.12

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||专利申请权的转移IPC(主分类):G06F 17/30变更事项:申请人变更前权利人:托普西实验室股份有限公司变更后权利人:苹果公司变更事项:地址变更前权利人:美国加利福尼亚变更后权利人:美国加利福尼亚登记生效日:20150225|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121026|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

托普西实验室股份有限公司

发明人:

R·A·戈时; S·P·曼雷

地址:

美国加利福尼亚

优先权:

2011.10.26 US 61/551,833; 2012.10.25 US 13/660,533

专利代理机构:

中国国际贸易促进委员会专利商标事务所 11038

代理人:

陈新

PDF下载: PDF下载
内容摘要

本发明提出了一种新的方法,其构思了各种系统和方法,以提供检测、测量、聚合和规格化由一组用户在社交网络中对某个事件或话题所表达的情绪的能力,使得规格化的情绪真实地反映公众对该特定事件或话题的情绪。此外,也可相对于基线情绪对所收集和测量的个体用户在社交网络中表达的情绪进行规格化,以便真实地反映个体用户在其表达时的情绪。

权利要求书

1.  一种系统,包括:
数据收集引擎,所述数据收集引擎在运行时收集关于多个用户在社交网络中的活动的数据;
情绪分析引擎,所述情绪分析引擎在运行时,
检测并测量如在所收集的所述多个用户在所述社交网络中的活动的数据中所表达的他们中的每一个对某个事件或话题的情绪;
聚合所检测到的所述多个用户对所述事件或话题的情绪;
相对于基线情绪对所述用户的所聚合的情绪进行规格化,使得规格化的情绪真实地反映公众对所述事件或话题的情绪。

2.
  根据权利要求1所述的系统,其中:
所述社交网络是可公开访问的基于Web的平台或社区,所述平台或社区使得其用户/成员能够发帖、共享、交流以及与彼此进行交互。

3.
  根据权利要求1所述的系统,其中:
所述社交网络是以下之一:Facebook、Google+、Tweeter、LinkedIn、博客、论坛或任何其他基于Web的社区。

4.
  根据权利要求1所述的系统,其中:
所述用户在社交媒体网络中的活动包括以下中的一者或多者:发布推文、对推文进行回复和/或转发、发帖、评论其他用户的帖子、发表观点、供稿、联系、引用、链接到其他网站或应用、或所述社交网络中的任何其他活动。

5.
  根据权利要求1所述的系统,其中:
所述数据收集引擎通过周期性地采集所述社交网络的信息以收集来自所述用户的最新活动数据,来收集关于所述用户在所述社交网络中的活动的数据。

6.
  根据权利要求1所述的系统,其中:
所述数据收集引擎通过利用由所述社交网络提供的应用编程接口(API)来收集关于所述用户在所述社交网络中的活动的数据。

7.
  根据权利要求1所述的系统,其中:
所述情绪分析引擎通过多个情绪文本计分方案检测并识别所述用户在所收集的他们在所述社交网络中的活动的数据中表达的情绪,所述情绪文本计分方案考虑了人们在社交媒体网络中表达自己的方式。

8.
  根据权利要求7所述的系统,其中:
所述多个情绪文本计分方案利用在所收集的数据中识别的情绪表达的具体特征来检测所述用户在所述社交网络中表达的情绪。

9.
  根据权利要求1所述的系统,其中:
所述情绪分析引擎相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了表达所述用户观点所在的所述社交网络的自然偏差。

10.
  根据权利要求1所述的系统,其中:
所述情绪分析引擎相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述事件或话题的性质。

11.
  根据权利要求1所述的方法,其中:
所述情绪分析引擎相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述用户在所述社交网络中的活动时机。

12.
  根据权利要求1所述的系统,其中:
所述情绪分析引擎基于所述用户的所述情绪的规格化测量,计算针对所述事件或话题的社交情绪分数。

13.
  一种系统,包括:
数据收集引擎,所述数据收集引擎在运行时收集关于用户在社交网络中的活动的数据;
情绪分析引擎,所述情绪分析引擎在运行时,
检测并测量如在所收集的所述用户在所述社交网络中的活动的数据中所表达的所述用户对某个事件或话题的情绪;
相对于基线情绪对所述用户的所测量的情绪进行规格化,使得规格化的情绪真实地反映所述用户对所述事件或话题的真实情绪。

14.
  根据权利要求13所述的系统,其中:
所述数据收集引擎基于针对所述用户的活动收集计划表选择性地收集来自所述用户的数据。

15.
  根据权利要求13所述的系统,其中:
所述数据收集引擎基于与所述用户在所述社交网络中的活动相关联的时间戳来建立所述用户的随时间推移的活动分布模式。

16.
  根据权利要求13所述的系统,其中:
所述数据收集引擎确定在发生某些事件时所述用户是否和/或何时可能最活跃。

17.
  根据权利要求13所述的系统,其中:
所述情绪分析引擎相对于在链接到个体用户的其他内容中表达的情绪来对所述用户的所测量的情绪进行规格化。

18.
  根据权利要求13所述的系统,其中:
所述情绪分析引擎相对于所述基线情绪对所述用户的所测量的情绪进行规格化,所述基线情绪考虑了所述用户的自然倾向。

19.
  一种方法,包括:
收集关于多个用户在社交网络中的活动的数据;
检测并测量如在所收集的所述多个用户在所述社交网络中的活动的数据中所表达的他们中的每一个对某个事件或话题的情绪;
聚合所检测到的所述多个用户对所述事件或话题的情绪;
相对于基线情绪对所述用户的所聚合的情绪进行规格化,使得规格化的情绪真实地反映公众对所述事件或话题的情绪。

20.
  根据权利要求19所述的方法,还包括:
通过周期性地采集所述社交网络的信息以收集来自所述用户的最新活动数据,来收集关于所述用户在所述社交网络中的活动的数据。

21.
  根据权利要求19所述的方法,还包括:
通过利用由所述社交网络提供的应用编程接口(API)来收集关于所述用户在所述社交网络中的活动的数据。

22.
  根据权利要求19所述的方法,还包括:
通过多个情绪文本计分方案检测并识别所述用户在所收集的他们在所述社交网络中的活动的数据中表达的情绪,所述情绪文本计分方案考虑了人们在社交媒体网络中表达自己的方式。

23.
  根据权利要求19所述的方法,还包括:
利用在所收集的数据中识别的情绪表达的具体特征来检测所述用户在所述社交网络中表达的情绪。

24.
  根据权利要求19所述的方法,还包括:
相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了表达所述用户观点所在的所述社交网络的自然偏差。

25.
  根据权利要求19所述的方法,还包括:
相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述事件或话题的性质。

26.
  根据权利要求19所述的方法,还包括:
相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述用户在所述社交网络中的活动时机。

27.
  根据权利要求19所述的方法,还包括:
基于所述用户的所述情绪的规格化测量,计算针对所述事件或话题的社交情绪分数。

28.
  一种方法,包括:
收集关于用户在社交网络中的活动的数据;
检测并测量如在所收集的所述用户在所述社交网络中的活动的数据中所表达的所述用户对某个事件或话题的情绪;
相对于基线情绪对所述用户的所测量的情绪进行规格化,使得所述规格化的情绪真实地反映所述用户对所述事件或话题的真实情绪。

29.
  根据权利要求28所述的方法,还包括:
基于针对所述用户的活动收集计划表,选择性地收集来自所述用户的数据。

30.
  根据权利要求28所述的方法,还包括:
基于与所述用户在所述社交网络中的活动相关联的时间戳,建立所述用户的随时间推移的活动分布模式。

31.
  根据权利要求28所述的方法,还包括:
确定当发生某些事件时所述用户是否和/或何时可能最活跃。

32.
  根据权利要求28所述的方法,还包括:
相对于在链接到个体用户的其他内容中表达的情绪,对所述用户的所测量的情绪进行规格化。

33.
  根据权利要求28所述的方法,还包括:
相对于所述基线情绪对所述用户的所测量的情绪进行规格化,所述基线情绪考虑了所述用户的自然倾向。

说明书

用于通过社交网络进行情绪检测、测量和规格化的系统和方法
相关申请的交叉引用
本申请要求于2011年10月26日提交的美国临时专利申请No.61/551,833和于2012年10月25日提交的美国专利申请No.13/660,533的优先权,并且据此以引用方式并入本文。
背景技术
社交媒体网络,例如Facebook、Twitter和Google+,近年来作为基于Web的通信平台呈指数级增长。数以亿计的人每天都在使用各种形式的社交媒体网络彼此通信和保持联系。因此,用户在社交媒体网络中发生的活动,例如在Twitter上张贴推文,已经成为一种现象,并且可收集它们以用于各种测量和分析。具体地,可通过其相应的公开可用的应用编程接口(API)从社交网络的社交数据源来检索这些用户活动数据,对其进行索引、处理并在本地存储以用于进一步分析。
这些从社交网络实时收集的流数据与随时间推移(overtime)收集和存储的那些数据一起提供了用于各种测量和分析的基础。用于测量和分析的一些度量包括但不限于:
·提及的次数-提及关键字、术语或链接的总次数;
·由影响者提及的次数-有影响力的用户提及关键字、术语或链接的总次数;
·重要帖子提及的次数-已重新发布或包含链接的推文提及关键字、术语或链接的总次数;
·速度-在先前的时间窗口(如七天)中,关键字、术语或链接“复制”(taking off)的程度。
除了对数据内容执行上述测量和分析之外,分析用户通过其在社交网络中的活动(如推文和帖子)表达的所聚合的情绪也同样重要。作为非限制性实例,可由一组用户在一定时间段内关于某个话题表达的推文的百分 比来测量这种所聚合的情绪,分为积极、中性和消极。尽管对用户通过社交网络表达的情绪进行的此类测量提供了对其看法/观点的实时计量,但此类测量可能由于各种因素而有偏差,所述各种因素包括但不限于最活跃,从而最可能在社交网络中表达其感受的用户的类型、每个个体用户表达的时机和优选方式等。因此,如测量的那样,用户在社交网络中对某些问题或事件表达的情绪可能不是大多数公众情绪的真实和准确的反映。
相关领域的上述实例以及与其相关的局限性旨在为例证性的而非排他性的。在阅读说明书并研究附图后,相关领域的其他局限性将变得显而易见。
附图说明
图1示出了用以支持通过社交网络进行情绪检测、测量和规格化的一种系统图示的实例。
图2示出了用以支持通过社交网络进行情绪检测、测量和规格化的一种过程的流程图的实例。
具体实施方式
在附图的图示中通过举例而非限制的方式例示了该方法,其中类似附图标记表示类似元件。应该指出的是,本公开中提到“一个”或“一些”实施例未必是同一实施例,并且此类引用表示至少一个。
本发明提出了一种新的方法,该方法设想了各种系统和方法以提供对一组用户在社交网络中对于某个事件或话题表达的情绪进行检测、测量、聚合和规格化的能力,使得规格化的情绪真实地反映公众对该特定事件或话题的情绪。在本文中,可基于表达用户观点所在的社交网络的一种或多种的自然偏差、所讨论的事件或话题的性质、以及用户在社交网络中的活动时机,对用户表达的所聚合的情绪的测量进行规格化。此外,也可相对于基线情绪对所收集和测量的个体用户在社交网络中表达的情绪进行规格化,该基线情绪反映每个个体用户的自然倾向和/或在链接到个体用户的其他内容中表达的情绪,以便真实地反映用户在其表达时的情绪。
如下文所提及,社交媒体网络或社交网络可以是任何可公开访问的基于Web的平台或社区,使它的用户/成员能够发贴、共享、交流以及与彼此 进行交互。作为非限制性实例,此类社交媒体网络可以是但不限于Facebook、Google+、Tweeter、LinkedIn、博客、论坛或任何其他基于Web的社区。
如下文所提及,用户在社交媒体网络中的活动包括但不限于发布推文、对推文进行回复和/或转发、发帖、评论其他用户的帖子、发表观点(如喜欢)、供稿、联系(如添加其他用户为好友)、引用、链接到其他网站或应用,或社交网络中的任何其他活动。与创建时间可能不会始终与内容明确相关的典型Web内容相比,用户在社交网络中的活动的一个独有特性是,存在与每个活动相关联的明确时间戳,使得可以建立在社交网络中的随时间推移的用户活动的模式。
图1示出了支持通过社交网络进行情绪检测、测量和规格化的一种系统图示的实例。尽管图示将组件示出为在功能上是独立的,但此类示出仅用于说明性目的。显而易见的是,该图中所描绘的组件可以任意组合或划分成独立的软件、固件和/或硬件组件。此外,同样显而易见的是,无论此类组件如何组合或划分,其都可以在相同的主机或多个主机上执行,并且其中多个主机可通过一个或多个网络进行连接。
在图1的实例中,系统100包括至少数据收集引擎102和情绪分析引擎104。如本文所用,术语“引擎”是指用于实现某一目的的软件、固件、硬件或其他组件。引擎通常将包括存储于非易失性存储器(也称为辅助存储器)中的软件指令。在执行软件指令时,处理器将软件指令的至少一个子集加载到存储器(也称为主存储器)中。处理器然后执行存储器中的软件指令。处理器可以是共享处理器、专用处理器、或者共享或专用处理器的组合。典型的程序将包括对硬件组件(如I/O设备)的调用,这通常需要执行驱动程序。驱动程序可以被视为或不被视为引擎的一部分,但区别不是关键性的。
在图1的实例中,每个引擎都可以在一个或多个托管设备(主机)上运行。在本文中,主机可以是计算设备、通信设备、存储设备、或能够运行软件组件的任何电子设备。作为非限制性实例,计算设备可以是但不限于膝上型PC、台式PC、平板电脑、iPod、iPhone和iPad、Google的Android设备、PDA或服务器。存储设备可以是但不限于硬盘驱动器、闪存驱动器、或任何便携式存储设备。通信设备可以是但不限于移动电话。
在图1的实例中,数据收集引擎102和情绪分析引擎104均具有通信接口(未示出),该通信接口是一个软件组件,其使得引擎能够遵循某些通信协议,例如TCP/IP协议,通过一个或多个通信网络(未示出)彼此相互通信。在本文中,通信网络可以是但不限于互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、蓝牙、WiFi和移动通信网络。网络的物理连接和通信协议是本领域的技术人员所熟知的。
在图1的实例中,数据收集引擎102通过周期性地采集社交网络信息以收集来自每个用户的最新活动数据来收集关于用户在社交网络中的活动的数据。考虑到社交媒体网络中的巨大数量的可访问数据,数据收集引擎102可基于针对用户的活动收集计划表选择性地收集来自每个个体用户的数据。如果未在信息采集的时刻根据用户的活动收集计划表收集用户的活动,则数据收集引擎102将跳过与该用户相关的内容并继续移动到要根据他/她的计划表收集其活动的下一用户。数据收集引擎102对数据的此类选择性收集减少了每轮信息采集所需的时间和资源,而不会损害(comprising)所收集数据的新鲜度。在一些实施例中,数据收集引擎102可以运行和协调来自不同互联网地址(IP)的多个信息采集器以便收集尽可能多的数据。社交媒体信息采集引擎106也可最大化每次(HTTP)请求收集的新数据的量。
在一些实施例中,数据收集引擎102可基于与用户在社交网络中的活动相关联的时间戳,针对每个用户来建立随时间推移的活动分布模式/模型。这种随时间推移的活动分布模式可反映出每个个体用户在社交网络中何时最活跃或最不活跃以及用户在社交网络中的活动频率,并可用于为用户制定活动收集计划表。作为非限制性实例,用户可能在晚上8-12点之间在社交网络中最活跃,而在清晨期间可能最不活跃,或者用户在周末而非工作日最活跃。
在一些实施例中,数据收集引擎102还可以确定在发生某些事件时每个个体用户是否和/或何时可能最活跃,所述某些事件例如是用户追随的某项体育赛事或产品新闻(如iPhone发布)。作为另外一种选择,数据收集引擎102可以确定用户的活动与该用户在社交网络中联系的一个或多个好友的活动密切相关。作为非限制性实例,如果该用户的一个或多个好友变 得活跃,例如开始一个有趣的讨论或参与在线游戏,还可能使用户也主动参与进去。
在一些实施例中,数据收集引擎102可利用由社交网络提供的应用编程接口(API)收集关于用户在社交网络中的活动的数据。作为非限制性实例,由Facebook提供的OpenGraph API暴露了社交网络中的多个资源(即与用户活动相关的数据),其中每种资源都具有ID,并且内省法可用于了解其上可用的类型和方法。在本文中,ID可以是用户名和/或编号。由于所有资源都具有编号的ID并且只有部分资源具有命名的ID,因此仅使用编号的ID来指代资源。
在图1的实例中,情绪分析引擎104通过多个种情绪文本计分方案检测和识别用户在所收集的他们在社交网络中的活动的数据中表达的关于/对于某个特定事件或话题的情绪,所述计分方案考虑了通常人们在社交媒体网络中,尤其在Twitter中如何表达自己的方式和细微差别。在Twitter的非限制性实例中,在传统情绪测量技术无法很好处理的推文的140字符约束之内,人们表达自己的方式存在显著差异。基于数据收集引擎102实时收集的并随时间推移存储的海量数据的分析和测试,情绪分析引擎104能够识别推文中的多个“推客用语”(twitterisms),即在所收集的数据中的情绪表达的具体特征,所述具体特征不仅指示人们对某个事件或某些事物的感受,而且也是人们如何在诸如Twitter等社交网络中使用推文表达自己所特有的。由多个情绪文本计分方案利用这些识别的情绪表达的特征来检测用户在社交网络中表达的情绪。在本文中,每位用户的情绪以非常积极、积极、平常、消极、非常消极来表征。
一旦基于所收集的用户活动检测到了用户的情绪,情绪分析引擎104将评估和聚合用户对特定事件或话题的情绪(积极或消极情绪)。作为非限制性实例,在新的iPhone发布时间前后分析Twitter上与iPhone相关的推文可以表明,21%的用户是积极的,而18%的用户是消极的。如果将该时间段扩展到发布之后的一个星期或一个月,社交情绪分数可能指向不同的情绪分数(用户积极或消极的更高百分比),因为用户有更多时间体验新的iPhone。
在一些实施例中,情绪分析引擎104相对于基线情绪对用户的所聚合的情绪和/或每个个体用户的情绪进行规格化,所述基线情绪考虑了一个或 多个因素/偏差,其包括但不限于用户表达观点所在的社交网络的自然偏差、所讨论的事件或话题的性质、以及用户在社交网络中的活动的时机。在本文中,各种统计度量,例如中数、平均数、标准偏差、相关度或这些度量的任意组合,可由情绪分析引擎104使用以对用户的随时间推移而测量的情绪进行规格化。为了获得每个个体用户和/或公众对特定事件的情绪的准确测量,此类情绪规格化是必要的。此外,情绪分析引擎104可相对于每个个体用户的自然倾向和/或在链接到个体用户的其他内容中表达的情绪,对每个个体用户的所测量的情绪进行规格化。
在一些实施例中,情绪分析引擎104基于每个个体用户或一组用户的情绪的规格化测量,计算对于事件或话题的社交情绪分数。在本文中,对于事件的社交情绪分数代表一个或多个个体用户在社交网络中对当前事件和/或在一定时间段内(根据被分析的用户活动的时间戳)表达的规格化情绪,其中这种社交情绪分数反映个体用户的真实情绪或公众的情绪。
在发布新iPhone前后分析用户情绪的前一实例中,基于用户在Twitter上的推文所测量的情绪对于iPhone发布而言仅仅稍显积极(21%积极,18%消极)。不过,由于在Twitter上表达的情绪往往比公众的情绪更消极,因此在情绪分析引擎104相对于Twitter的消极偏差进行规格化时,稍显积极的情绪读数实际上要积极得多。
作为另一个非限制性实例,用户在Twitter上表达的最强烈的消极情绪往往针对与政治相关的事物,而最强烈的积极情绪不像消极情绪那样强烈,并且集中在无争议的话题上,例如旅行、摄影等。因此,在对情绪分析引擎104所测量的情绪分数进行规格化时必须要考虑到这一点,并且在围绕政治问题的大部分情绪呈压倒性消极的情况下进行规格化时,政治事件稍显积极的读数事实上可能指示该事件深受欢迎。
作为另一个非限制性实例,如果用户1在遣词造句时往往更积极(如他/她经常会讲“太好了”),而用户2在遣词造句时往往更保守(如他/她经常会讲“还可以”),那么在由情绪分析引擎104相对于其消极偏差进行规格化时,用户2的积极表达(例如“太好了”)实际上相当积极,而在相对于其积极偏差进行规格化时,用户1的相同表达可能仅仅是中性的。
图2示出了支持通过社交网络进行情绪检测、测量和规格化的一种过程的流程图的实例。尽管此图示为了例示目的按照特定顺序示出了功能步骤,但该过程不限于步骤的任何特定顺序或排列。相关领域的技术人员将会知道,可以通过各种方式省略、重新排列、组合和/或调整此图示中描绘的各个步骤。
在图2的实例中,流程图200开始于方框202,在该方框202中收集关于多个用户在社交网络中的活动的数据。流程图200继续至方框204,在该方框204中检测并测量如在所收集的用户在社交网络中的活动的数据中所表达的他们中的每一个对某个事件或话题的情绪。流程图200继续至方框206,在该方框206中任选地聚合所检测到的多个用户对事件或话题的情绪。流程图200结束于方框208,在该方框208中相对于基线情绪对用户的所聚合的情绪和/或每个个体用户的情绪进行规格化,使得规格化的情绪真实地反映公众和/或个体用户对事件或话题的情绪。
对于计算机领域中的技术人员显而易见的是,可利用本公开的教导编程的常规通用或专用数字计算机或一个或多个微处理器来实施一个实施例。对于软件领域的技术人员显而易见的是,熟练的程序员基于本公开的教导能够容易地准备适当的软件编码。对于本领域的技术人员显而易见的是,也可通过制备集成电路或将常规组件电路的适当网络进行互联来实施本发明。
一个实施例包括计算机程序产品,该计算机程序产品是在其上/其中存储有指令的一种或多种机器可读介质,其可用于对一个或多个主机进行编程以执行本文给出的任何特征。机器可读介质可包括但不限于一种或多种磁盘,包括软盘、光盘、DVD、CD-ROM、微驱动器和磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪存设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适于存储指令和/或数据的任何类型的介质或设备。本发明包括存储在一种或多种计算机可读介质中的任一种上的软件,以用于控制通用或专用计算机或微处理器的硬件,并用于使计算机或微处理器与人类观察者或利用本发明的结果的其他机构进行交互。此类软件可包括但不限于设备驱动程序、操作系统、执行环境/容器和应用。

用于通过社交网络进行情绪检测、测量和规格化的系统和方法.pdf_第1页
第1页 / 共11页
用于通过社交网络进行情绪检测、测量和规格化的系统和方法.pdf_第2页
第2页 / 共11页
用于通过社交网络进行情绪检测、测量和规格化的系统和方法.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《用于通过社交网络进行情绪检测、测量和规格化的系统和方法.pdf》由会员分享,可在线阅读,更多相关《用于通过社交网络进行情绪检测、测量和规格化的系统和方法.pdf(11页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104145264A43申请公布日20141112CN104145264A21申请号201280059775522申请日2012102661/551,83320111026US13/660,53320121025USG06F17/3020060171申请人托普西实验室股份有限公司地址美国加利福尼亚72发明人RA戈时SP曼雷74专利代理机构中国国际贸易促进委员会专利商标事务所11038代理人陈新54发明名称用于通过社交网络进行情绪检测、测量和规格化的系统和方法57摘要本发明提出了一种新的方法,其构思了各种系统和方法,以提供检测、测量、聚合和规格化由一组用户在社交网络中对某个事件。

2、或话题所表达的情绪的能力,使得规格化的情绪真实地反映公众对该特定事件或话题的情绪。此外,也可相对于基线情绪对所收集和测量的个体用户在社交网络中表达的情绪进行规格化,以便真实地反映个体用户在其表达时的情绪。30优先权数据85PCT国际申请进入国家阶段日2014060586PCT国际申请的申请数据PCT/US2012/0621562012102687PCT国际申请的公布数据WO2013/063416EN2013050251INTCL权利要求书3页说明书5页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书5页附图2页10申请公布号CN104145264ACN1041452。

3、64A1/3页21一种系统,包括数据收集引擎,所述数据收集引擎在运行时收集关于多个用户在社交网络中的活动的数据;情绪分析引擎,所述情绪分析引擎在运行时,检测并测量如在所收集的所述多个用户在所述社交网络中的活动的数据中所表达的他们中的每一个对某个事件或话题的情绪;聚合所检测到的所述多个用户对所述事件或话题的情绪;相对于基线情绪对所述用户的所聚合的情绪进行规格化,使得规格化的情绪真实地反映公众对所述事件或话题的情绪。2根据权利要求1所述的系统,其中所述社交网络是可公开访问的基于WEB的平台或社区,所述平台或社区使得其用户/成员能够发帖、共享、交流以及与彼此进行交互。3根据权利要求1所述的系统,其中。

4、所述社交网络是以下之一FACEBOOK、GOOGLE、TWEETER、LINKEDIN、博客、论坛或任何其他基于WEB的社区。4根据权利要求1所述的系统,其中所述用户在社交媒体网络中的活动包括以下中的一者或多者发布推文、对推文进行回复和/或转发、发帖、评论其他用户的帖子、发表观点、供稿、联系、引用、链接到其他网站或应用、或所述社交网络中的任何其他活动。5根据权利要求1所述的系统,其中所述数据收集引擎通过周期性地采集所述社交网络的信息以收集来自所述用户的最新活动数据,来收集关于所述用户在所述社交网络中的活动的数据。6根据权利要求1所述的系统,其中所述数据收集引擎通过利用由所述社交网络提供的应用编。

5、程接口API来收集关于所述用户在所述社交网络中的活动的数据。7根据权利要求1所述的系统,其中所述情绪分析引擎通过多个情绪文本计分方案检测并识别所述用户在所收集的他们在所述社交网络中的活动的数据中表达的情绪,所述情绪文本计分方案考虑了人们在社交媒体网络中表达自己的方式。8根据权利要求7所述的系统,其中所述多个情绪文本计分方案利用在所收集的数据中识别的情绪表达的具体特征来检测所述用户在所述社交网络中表达的情绪。9根据权利要求1所述的系统,其中所述情绪分析引擎相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了表达所述用户观点所在的所述社交网络的自然偏差。10根据权利要求1所述的。

6、系统,其中所述情绪分析引擎相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述事件或话题的性质。11根据权利要求1所述的方法,其中权利要求书CN104145264A2/3页3所述情绪分析引擎相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述用户在所述社交网络中的活动时机。12根据权利要求1所述的系统,其中所述情绪分析引擎基于所述用户的所述情绪的规格化测量,计算针对所述事件或话题的社交情绪分数。13一种系统,包括数据收集引擎,所述数据收集引擎在运行时收集关于用户在社交网络中的活动的数据;情绪分析引擎,所述情绪分析引擎在运行时,检测并测量如在所收集。

7、的所述用户在所述社交网络中的活动的数据中所表达的所述用户对某个事件或话题的情绪;相对于基线情绪对所述用户的所测量的情绪进行规格化,使得规格化的情绪真实地反映所述用户对所述事件或话题的真实情绪。14根据权利要求13所述的系统,其中所述数据收集引擎基于针对所述用户的活动收集计划表选择性地收集来自所述用户的数据。15根据权利要求13所述的系统,其中所述数据收集引擎基于与所述用户在所述社交网络中的活动相关联的时间戳来建立所述用户的随时间推移的活动分布模式。16根据权利要求13所述的系统,其中所述数据收集引擎确定在发生某些事件时所述用户是否和/或何时可能最活跃。17根据权利要求13所述的系统,其中所述情。

8、绪分析引擎相对于在链接到个体用户的其他内容中表达的情绪来对所述用户的所测量的情绪进行规格化。18根据权利要求13所述的系统,其中所述情绪分析引擎相对于所述基线情绪对所述用户的所测量的情绪进行规格化,所述基线情绪考虑了所述用户的自然倾向。19一种方法,包括收集关于多个用户在社交网络中的活动的数据;检测并测量如在所收集的所述多个用户在所述社交网络中的活动的数据中所表达的他们中的每一个对某个事件或话题的情绪;聚合所检测到的所述多个用户对所述事件或话题的情绪;相对于基线情绪对所述用户的所聚合的情绪进行规格化,使得规格化的情绪真实地反映公众对所述事件或话题的情绪。20根据权利要求19所述的方法,还包括通。

9、过周期性地采集所述社交网络的信息以收集来自所述用户的最新活动数据,来收集关于所述用户在所述社交网络中的活动的数据。21根据权利要求19所述的方法,还包括通过利用由所述社交网络提供的应用编程接口API来收集关于所述用户在所述社权利要求书CN104145264A3/3页4交网络中的活动的数据。22根据权利要求19所述的方法,还包括通过多个情绪文本计分方案检测并识别所述用户在所收集的他们在所述社交网络中的活动的数据中表达的情绪,所述情绪文本计分方案考虑了人们在社交媒体网络中表达自己的方式。23根据权利要求19所述的方法,还包括利用在所收集的数据中识别的情绪表达的具体特征来检测所述用户在所述社交网络中。

10、表达的情绪。24根据权利要求19所述的方法,还包括相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了表达所述用户观点所在的所述社交网络的自然偏差。25根据权利要求19所述的方法,还包括相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述事件或话题的性质。26根据权利要求19所述的方法,还包括相对于所述基线情绪对所述用户的所聚合的情绪进行规格化,所述基线情绪考虑了所述用户在所述社交网络中的活动时机。27根据权利要求19所述的方法,还包括基于所述用户的所述情绪的规格化测量,计算针对所述事件或话题的社交情绪分数。28一种方法,包括收集关于用户在社交网络中。

11、的活动的数据;检测并测量如在所收集的所述用户在所述社交网络中的活动的数据中所表达的所述用户对某个事件或话题的情绪;相对于基线情绪对所述用户的所测量的情绪进行规格化,使得所述规格化的情绪真实地反映所述用户对所述事件或话题的真实情绪。29根据权利要求28所述的方法,还包括基于针对所述用户的活动收集计划表,选择性地收集来自所述用户的数据。30根据权利要求28所述的方法,还包括基于与所述用户在所述社交网络中的活动相关联的时间戳,建立所述用户的随时间推移的活动分布模式。31根据权利要求28所述的方法,还包括确定当发生某些事件时所述用户是否和/或何时可能最活跃。32根据权利要求28所述的方法,还包括相对于。

12、在链接到个体用户的其他内容中表达的情绪,对所述用户的所测量的情绪进行规格化。33根据权利要求28所述的方法,还包括相对于所述基线情绪对所述用户的所测量的情绪进行规格化,所述基线情绪考虑了所述用户的自然倾向。权利要求书CN104145264A1/5页5用于通过社交网络进行情绪检测、测量和规格化的系统和方法0001相关申请的交叉引用0002本申请要求于2011年10月26日提交的美国临时专利申请NO61/551,833和于2012年10月25日提交的美国专利申请NO13/660,533的优先权,并且据此以引用方式并入本文。背景技术0003社交媒体网络,例如FACEBOOK、TWITTER和GOOG。

13、LE,近年来作为基于WEB的通信平台呈指数级增长。数以亿计的人每天都在使用各种形式的社交媒体网络彼此通信和保持联系。因此,用户在社交媒体网络中发生的活动,例如在TWITTER上张贴推文,已经成为一种现象,并且可收集它们以用于各种测量和分析。具体地,可通过其相应的公开可用的应用编程接口API从社交网络的社交数据源来检索这些用户活动数据,对其进行索引、处理并在本地存储以用于进一步分析。0004这些从社交网络实时收集的流数据与随时间推移OVERTIME收集和存储的那些数据一起提供了用于各种测量和分析的基础。用于测量和分析的一些度量包括但不限于0005提及的次数提及关键字、术语或链接的总次数;0006。

14、由影响者提及的次数有影响力的用户提及关键字、术语或链接的总次数;0007重要帖子提及的次数已重新发布或包含链接的推文提及关键字、术语或链接的总次数;0008速度在先前的时间窗口如七天中,关键字、术语或链接“复制”TAKINGOFF的程度。0009除了对数据内容执行上述测量和分析之外,分析用户通过其在社交网络中的活动如推文和帖子表达的所聚合的情绪也同样重要。作为非限制性实例,可由一组用户在一定时间段内关于某个话题表达的推文的百分比来测量这种所聚合的情绪,分为积极、中性和消极。尽管对用户通过社交网络表达的情绪进行的此类测量提供了对其看法/观点的实时计量,但此类测量可能由于各种因素而有偏差,所述各种。

15、因素包括但不限于最活跃,从而最可能在社交网络中表达其感受的用户的类型、每个个体用户表达的时机和优选方式等。因此,如测量的那样,用户在社交网络中对某些问题或事件表达的情绪可能不是大多数公众情绪的真实和准确的反映。0010相关领域的上述实例以及与其相关的局限性旨在为例证性的而非排他性的。在阅读说明书并研究附图后,相关领域的其他局限性将变得显而易见。附图说明0011图1示出了用以支持通过社交网络进行情绪检测、测量和规格化的一种系统图示的实例。0012图2示出了用以支持通过社交网络进行情绪检测、测量和规格化的一种过程的流说明书CN104145264A2/5页6程图的实例。具体实施方式0013在附图的图。

16、示中通过举例而非限制的方式例示了该方法,其中类似附图标记表示类似元件。应该指出的是,本公开中提到“一个”或“一些”实施例未必是同一实施例,并且此类引用表示至少一个。0014本发明提出了一种新的方法,该方法设想了各种系统和方法以提供对一组用户在社交网络中对于某个事件或话题表达的情绪进行检测、测量、聚合和规格化的能力,使得规格化的情绪真实地反映公众对该特定事件或话题的情绪。在本文中,可基于表达用户观点所在的社交网络的一种或多种的自然偏差、所讨论的事件或话题的性质、以及用户在社交网络中的活动时机,对用户表达的所聚合的情绪的测量进行规格化。此外,也可相对于基线情绪对所收集和测量的个体用户在社交网络中表。

17、达的情绪进行规格化,该基线情绪反映每个个体用户的自然倾向和/或在链接到个体用户的其他内容中表达的情绪,以便真实地反映用户在其表达时的情绪。0015如下文所提及,社交媒体网络或社交网络可以是任何可公开访问的基于WEB的平台或社区,使它的用户/成员能够发贴、共享、交流以及与彼此进行交互。作为非限制性实例,此类社交媒体网络可以是但不限于FACEBOOK、GOOGLE、TWEETER、LINKEDIN、博客、论坛或任何其他基于WEB的社区。0016如下文所提及,用户在社交媒体网络中的活动包括但不限于发布推文、对推文进行回复和/或转发、发帖、评论其他用户的帖子、发表观点如喜欢、供稿、联系如添加其他用户为。

18、好友、引用、链接到其他网站或应用,或社交网络中的任何其他活动。与创建时间可能不会始终与内容明确相关的典型WEB内容相比,用户在社交网络中的活动的一个独有特性是,存在与每个活动相关联的明确时间戳,使得可以建立在社交网络中的随时间推移的用户活动的模式。0017图1示出了支持通过社交网络进行情绪检测、测量和规格化的一种系统图示的实例。尽管图示将组件示出为在功能上是独立的,但此类示出仅用于说明性目的。显而易见的是,该图中所描绘的组件可以任意组合或划分成独立的软件、固件和/或硬件组件。此外,同样显而易见的是,无论此类组件如何组合或划分,其都可以在相同的主机或多个主机上执行,并且其中多个主机可通过一个或多。

19、个网络进行连接。0018在图1的实例中,系统100包括至少数据收集引擎102和情绪分析引擎104。如本文所用,术语“引擎”是指用于实现某一目的的软件、固件、硬件或其他组件。引擎通常将包括存储于非易失性存储器也称为辅助存储器中的软件指令。在执行软件指令时,处理器将软件指令的至少一个子集加载到存储器也称为主存储器中。处理器然后执行存储器中的软件指令。处理器可以是共享处理器、专用处理器、或者共享或专用处理器的组合。典型的程序将包括对硬件组件如I/O设备的调用,这通常需要执行驱动程序。驱动程序可以被视为或不被视为引擎的一部分,但区别不是关键性的。0019在图1的实例中,每个引擎都可以在一个或多个托管设。

20、备主机上运行。在本文中,主机可以是计算设备、通信设备、存储设备、或能够运行软件组件的任何电子设备。作为非限制性实例,计算设备可以是但不限于膝上型PC、台式PC、平板电脑、IPOD、IPHONE和说明书CN104145264A3/5页7IPAD、GOOGLE的ANDROID设备、PDA或服务器。存储设备可以是但不限于硬盘驱动器、闪存驱动器、或任何便携式存储设备。通信设备可以是但不限于移动电话。0020在图1的实例中,数据收集引擎102和情绪分析引擎104均具有通信接口未示出,该通信接口是一个软件组件,其使得引擎能够遵循某些通信协议,例如TCP/IP协议,通过一个或多个通信网络未示出彼此相互通信。。

21、在本文中,通信网络可以是但不限于互联网、内联网、广域网WAN、局域网LAN、无线网络、蓝牙、WIFI和移动通信网络。网络的物理连接和通信协议是本领域的技术人员所熟知的。0021在图1的实例中,数据收集引擎102通过周期性地采集社交网络信息以收集来自每个用户的最新活动数据来收集关于用户在社交网络中的活动的数据。考虑到社交媒体网络中的巨大数量的可访问数据,数据收集引擎102可基于针对用户的活动收集计划表选择性地收集来自每个个体用户的数据。如果未在信息采集的时刻根据用户的活动收集计划表收集用户的活动,则数据收集引擎102将跳过与该用户相关的内容并继续移动到要根据他/她的计划表收集其活动的下一用户。数。

22、据收集引擎102对数据的此类选择性收集减少了每轮信息采集所需的时间和资源,而不会损害COMPRISING所收集数据的新鲜度。在一些实施例中,数据收集引擎102可以运行和协调来自不同互联网地址IP的多个信息采集器以便收集尽可能多的数据。社交媒体信息采集引擎106也可最大化每次HTTP请求收集的新数据的量。0022在一些实施例中,数据收集引擎102可基于与用户在社交网络中的活动相关联的时间戳,针对每个用户来建立随时间推移的活动分布模式/模型。这种随时间推移的活动分布模式可反映出每个个体用户在社交网络中何时最活跃或最不活跃以及用户在社交网络中的活动频率,并可用于为用户制定活动收集计划表。作为非限制性。

23、实例,用户可能在晚上812点之间在社交网络中最活跃,而在清晨期间可能最不活跃,或者用户在周末而非工作日最活跃。0023在一些实施例中,数据收集引擎102还可以确定在发生某些事件时每个个体用户是否和/或何时可能最活跃,所述某些事件例如是用户追随的某项体育赛事或产品新闻如IPHONE发布。作为另外一种选择,数据收集引擎102可以确定用户的活动与该用户在社交网络中联系的一个或多个好友的活动密切相关。作为非限制性实例,如果该用户的一个或多个好友变得活跃,例如开始一个有趣的讨论或参与在线游戏,还可能使用户也主动参与进去。0024在一些实施例中,数据收集引擎102可利用由社交网络提供的应用编程接口API收。

24、集关于用户在社交网络中的活动的数据。作为非限制性实例,由FACEBOOK提供的OPENGRAPHAPI暴露了社交网络中的多个资源即与用户活动相关的数据,其中每种资源都具有ID,并且内省法可用于了解其上可用的类型和方法。在本文中,ID可以是用户名和/或编号。由于所有资源都具有编号的ID并且只有部分资源具有命名的ID,因此仅使用编号的ID来指代资源。0025在图1的实例中,情绪分析引擎104通过多个种情绪文本计分方案检测和识别用户在所收集的他们在社交网络中的活动的数据中表达的关于/对于某个特定事件或话题的情绪,所述计分方案考虑了通常人们在社交媒体网络中,尤其在TWITTER中如何表达自己的方式和细。

25、微差别。在TWITTER的非限制性实例中,在传统情绪测量技术无法很好处理说明书CN104145264A4/5页8的推文的140字符约束之内,人们表达自己的方式存在显著差异。基于数据收集引擎102实时收集的并随时间推移存储的海量数据的分析和测试,情绪分析引擎104能够识别推文中的多个“推客用语”TWITTERISMS,即在所收集的数据中的情绪表达的具体特征,所述具体特征不仅指示人们对某个事件或某些事物的感受,而且也是人们如何在诸如TWITTER等社交网络中使用推文表达自己所特有的。由多个情绪文本计分方案利用这些识别的情绪表达的特征来检测用户在社交网络中表达的情绪。在本文中,每位用户的情绪以非常积。

26、极、积极、平常、消极、非常消极来表征。0026一旦基于所收集的用户活动检测到了用户的情绪,情绪分析引擎104将评估和聚合用户对特定事件或话题的情绪积极或消极情绪。作为非限制性实例,在新的IPHONE发布时间前后分析TWITTER上与IPHONE相关的推文可以表明,21的用户是积极的,而18的用户是消极的。如果将该时间段扩展到发布之后的一个星期或一个月,社交情绪分数可能指向不同的情绪分数用户积极或消极的更高百分比,因为用户有更多时间体验新的IPHONE。0027在一些实施例中,情绪分析引擎104相对于基线情绪对用户的所聚合的情绪和/或每个个体用户的情绪进行规格化,所述基线情绪考虑了一个或多个因素。

27、/偏差,其包括但不限于用户表达观点所在的社交网络的自然偏差、所讨论的事件或话题的性质、以及用户在社交网络中的活动的时机。在本文中,各种统计度量,例如中数、平均数、标准偏差、相关度或这些度量的任意组合,可由情绪分析引擎104使用以对用户的随时间推移而测量的情绪进行规格化。为了获得每个个体用户和/或公众对特定事件的情绪的准确测量,此类情绪规格化是必要的。此外,情绪分析引擎104可相对于每个个体用户的自然倾向和/或在链接到个体用户的其他内容中表达的情绪,对每个个体用户的所测量的情绪进行规格化。0028在一些实施例中,情绪分析引擎104基于每个个体用户或一组用户的情绪的规格化测量,计算对于事件或话题的。

28、社交情绪分数。在本文中,对于事件的社交情绪分数代表一个或多个个体用户在社交网络中对当前事件和/或在一定时间段内根据被分析的用户活动的时间戳表达的规格化情绪,其中这种社交情绪分数反映个体用户的真实情绪或公众的情绪。0029在发布新IPHONE前后分析用户情绪的前一实例中,基于用户在TWITTER上的推文所测量的情绪对于IPHONE发布而言仅仅稍显积极21积极,18消极。不过,由于在TWITTER上表达的情绪往往比公众的情绪更消极,因此在情绪分析引擎104相对于TWITTER的消极偏差进行规格化时,稍显积极的情绪读数实际上要积极得多。0030作为另一个非限制性实例,用户在TWITTER上表达的最强。

29、烈的消极情绪往往针对与政治相关的事物,而最强烈的积极情绪不像消极情绪那样强烈,并且集中在无争议的话题上,例如旅行、摄影等。因此,在对情绪分析引擎104所测量的情绪分数进行规格化时必须要考虑到这一点,并且在围绕政治问题的大部分情绪呈压倒性消极的情况下进行规格化时,政治事件稍显积极的读数事实上可能指示该事件深受欢迎。0031作为另一个非限制性实例,如果用户1在遣词造句时往往更积极如他/她经常会讲“太好了”,而用户2在遣词造句时往往更保守如他/她经常会讲“还可以”,那么在由情绪分析引擎104相对于其消极偏差进行规格化时,用户2的积极表达例如“太好了”实际上相当积极,而在相对于其积极偏差进行规格化时,。

30、用户1的相同表达可能仅仅说明书CN104145264A5/5页9是中性的。0032图2示出了支持通过社交网络进行情绪检测、测量和规格化的一种过程的流程图的实例。尽管此图示为了例示目的按照特定顺序示出了功能步骤,但该过程不限于步骤的任何特定顺序或排列。相关领域的技术人员将会知道,可以通过各种方式省略、重新排列、组合和/或调整此图示中描绘的各个步骤。0033在图2的实例中,流程图200开始于方框202,在该方框202中收集关于多个用户在社交网络中的活动的数据。流程图200继续至方框204,在该方框204中检测并测量如在所收集的用户在社交网络中的活动的数据中所表达的他们中的每一个对某个事件或话题的情。

31、绪。流程图200继续至方框206,在该方框206中任选地聚合所检测到的多个用户对事件或话题的情绪。流程图200结束于方框208,在该方框208中相对于基线情绪对用户的所聚合的情绪和/或每个个体用户的情绪进行规格化,使得规格化的情绪真实地反映公众和/或个体用户对事件或话题的情绪。0034对于计算机领域中的技术人员显而易见的是,可利用本公开的教导编程的常规通用或专用数字计算机或一个或多个微处理器来实施一个实施例。对于软件领域的技术人员显而易见的是,熟练的程序员基于本公开的教导能够容易地准备适当的软件编码。对于本领域的技术人员显而易见的是,也可通过制备集成电路或将常规组件电路的适当网络进行互联来实施。

32、本发明。0035一个实施例包括计算机程序产品,该计算机程序产品是在其上/其中存储有指令的一种或多种机器可读介质,其可用于对一个或多个主机进行编程以执行本文给出的任何特征。机器可读介质可包括但不限于一种或多种磁盘,包括软盘、光盘、DVD、CDROM、微驱动器和磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪存设备、磁卡或光卡、纳米系统包括分子存储器IC,或适于存储指令和/或数据的任何类型的介质或设备。本发明包括存储在一种或多种计算机可读介质中的任一种上的软件,以用于控制通用或专用计算机或微处理器的硬件,并用于使计算机或微处理器与人类观察者或利用本发明的结果的其他机构进行交互。此类软件可包括但不限于设备驱动程序、操作系统、执行环境/容器和应用。说明书CN104145264A1/2页10图1说明书附图CN104145264A102/2页11图2说明书附图CN104145264A11。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1