《用于检测社交媒体中的社区的方法、计算机程序和计算机.pdf》由会员分享,可在线阅读,更多相关《用于检测社交媒体中的社区的方法、计算机程序和计算机.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103999082 A (43)申请公布日 2014.08.20 C N 1 0 3 9 9 9 0 8 2 A (21)申请号 201280062988.3 (22)申请日 2012.11.22 2011-276995 2011.12.19 JP G06F 17/30(2006.01) G06Q 50/10(2006.01) (71)申请人国际商业机器公司 地址美国纽约阿芒克 (72)发明人榎美纪 R.H.P.鲁迪 伊川洋平 (74)专利代理机构北京市柳沈律师事务所 11105 代理人胡琪 (54) 发明名称 用于检测社交媒体中的社区的方法、计算机 程序和计算机 (。
2、57) 摘要 本发明的目的是更精确地检测社交媒体中的 社区。本发明是一种在其中多个用户的每一个传 送消息的社交网络中使用计算机将多个用户聚类 的方法。所述方法具有下列步骤:基于消息之间 关系,从多个用户提取多个部分社区;基于属于 一个部分社区的用户与属于多个部分社区中的其 他部分社区的用户之间关系,计算指示两个部分 社区之间相似度程度的第一相似度程度;在第一 相似度程度高于预定义的第一阈值的条件下基 于由属于两个部分社区的用户传送的消息中的用 语,计算指示两个部分社区之间相似度程度的第 二相似度程度;以及在第二相似度程度高于预定 义的第二阈值的条件下整合两个部分社区以生成 整合社区。 (30)。
3、优先权数据 (85)PCT国际申请进入国家阶段日 2014.06.19 (86)PCT国际申请的申请数据 PCT/JP2012/080320 2012.11.22 (87)PCT国际申请的公布数据 WO2013/094361 JA 2013.06.27 (51)Int.Cl. 权利要求书2页 说明书5页 附图8页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图8页 (10)申请公布号 CN 103999082 A CN 103999082 A 1/2页 2 1.一种通过使用计算机对社交媒体的多个用户进行聚类的方法,其中多个用户的每一 个发送消息;所。
4、述方法包括下列步骤: 基于同伴消息的关系,从多个用户提取多个部分社区; 基于多个社区中属于一个部分社区的用户与属于其他部分社区的用户的关系,计算示 出同伴部分社区的相似度的第一相似度程度; 基于由属于两个部分社区的用户发送的消息内的词语并且在第一相似度高于预定第 一阈值的条件下,计算示出同伴部分社区的相似度的第二相似度程度;以及 在第二相似度高于预定第二阈值的条件下通过整合同伴部分社区创建整合社区。 2.如权利要求1所述的方法,其中,消息包括响应于从单个用户接收的单个消息由其 他用户发送的其他消息,并且用于提取的步骤基于同伴消息是否与来自单个用户的所述单 个消息和响应于所述单个消息接收的其他消。
5、息对应而从多个用户提取多个部分社区。 3.如权利要求1所述的方法,其中,用于提取的步骤是强连通分量。 4.如权利要求1所述的方法,其中,社交媒体存储用户简档信息,并且用于计算第一相 似度的步骤基于属于一个部分社区的用户的简档信息和属于其他部分社区的用户的简档 信息之间的关系来计算第一相似度。 5.如权利要求1所述的方法,其中,社交媒体提供某个用户关注某个其他用户的功能, 并且用于计算第一相似度的步骤基于属于一个部分社区的用户和属于其他部分社区的用 户之间的关注/被关注关系计算第一相似度。 6.如权利要求1所述的方法,其中,用于计算第二相似度的步骤基于由属于一个部分 社区的用户发送的消息内的特征。
6、词语与由属于其他部分社区的用户发送的消息内的特征 词语是否相似而计算第二相似度。 7.如权利要求6所述的方法,其中,通过创建消息的特征向量而提取特征词语。 8.如权利要求1所述的方法,其中,消息是在规定条件下从发布到社交媒体的消息采 样的消息。 9.如权利要求1所述的方法,其中,消息是在包括规定关键字的条件下从在规定时间 段内发布到社交媒体的消息聚类的消息。 10.如权利要求8所述的方法,其中,向社交媒体发布的计算机通过网络连接到将多个 用户聚类的计算机,并且所述方法进一步包括聚类计算机接收响应于来自聚类计算机的规 定条件请求而从发布计算机发送的消息的步骤。 11.如权利要求10所述的方法,其。
7、中,所述方法进一步包括用于在聚类计算机的存储 器装置中存储接收的消息的步骤。 12.如权利要求1所述的方法,其中,社交媒体是微博。 13.如权利要求1所述的方法,其中,所述方法进一步包括用于通过使用图形用户界面 输出整合社区的步骤。 14.如权利要求6所述的方法,其中,所述方法输出整合社区连同所述特征词语。 15.一种用于由计算机执行的计算机程序,其用于执行根据权利要求1-14中的任何一 项的方法的全部步骤。 16.一种对社交媒体的多个用户聚类的计算机,其中多个用户的每一个发送消息;其 中: 权 利 要 求 书CN 103999082 A 2/2页 3 在计算机的存储器装置中存储消息;以及 所。
8、述计算机的计算控制装置执行: 基于同伴消息的关系,从多个用户提取多个部分社区; 基于多个社区中属于一个部分社区的用户与属于其他部分社区的用户的关系,计算示 出同伴部分社区的相似度的第一相似度程度; 基于由属于两个部分社区的用户发送的消息内的词语并且在第一相似度高于预定第 一阈值的条件下,计算示出同伴部分社区的相似度的第二相似度程度;以及 在第二相似度高于预定第二阈值的条件下通过整合同伴部分社区创建整合社区。 17.如权利要求16所述的计算机,其中,存储在存储器装置中的消息是从发布到社交 媒体的消息采样的消息。 权 利 要 求 书CN 103999082 A 1/5页 4 用于检测社交媒体中的社。
9、区的方法、 计算机程序和计算机 技术领域 0001 本发明涉及一种信息处理技术,并且更具体地,其涉及一种用于更快和更精确地 检测社交媒体中的社区(共享例如爱好和兴趣的属性的社交媒体用户组)的技术。 背景技术 0002 结合社交媒体的广泛使用,存在从用户已在社交媒体上发送的信息提取社区和由 那些社区共享的爱好和兴趣的商业需求。当将社交媒体上的全部信息作为目标时,各种成 本将很高,因此通常执行从社交媒体采样的信息提取社区以及相关爱好和兴趣。通常,聚类 (clustering)方法被用作用于提取社区以及相关爱好和兴趣的技术。具体地,提取信息内 的词语、计算特征向量、以及基于那些向量执行聚类。 000。
10、3 引用列表 0004 专利文献 0005 专利文献1:日本专利公报No.4369104 0006 专利文献2:日本公开待审No.2009-301334 发明内容 0007 技术问题 0008 然而,使用这种先前的方法,与该正被采样的信息一致,出于下列原因存在对最初 社区最可能相同的节点进行划分的危险。第一,与聚类无关的词语可被确认为特征向量的 主分量。第二,不同于常见表示的词语的出现频率较小,并且从而它们对聚类的影响较小并 且存在它们将不被拾取的可能性。第三,并且尤其对于微博,许多陈述涉及问候和日常活 动,并且与预期目标不匹配的这些词语变为被包括在特征向量中。 0009 本发明是其中考虑了这。
11、种问题的发明,并且其目的是提供一种能够更快速和更精 确地检测社交媒体中的社区的技术。 0010 本发明是一种通过使用计算机将社交媒体的多个用户聚类的方法,其中多个用户 的每一个发送消息。所述方法包括下列步骤:基于同伴(companion)消息的关系,从多个用 户提取多个部分社区;基于多个社区中属于一个部分社区的用户与属于其他部分社区的用 户的关系,计算示出同伴部分社区的相似度的第一相似度程度;基于由属于两个部分社区 的用户发送的消息内的词语并且在第一相似度高于预定第一阈值的条件下,计算示出同伴 部分社区的相似度的第二相似度程度;以及在第二相似度高于预定第二阈值的条件下通过 整合同伴部分社区创建。
12、整合社区。 0011 这里,消息可以包括响应于从单个用户接收的单个消息由其他用户发送的其他消 息,并且用于提取的步骤可以基于同伴消息是否与来自单个用户的所述单个消息和响应于 所述单个消息接收的其他消息对应而从多个用户提取多个部分社区。此外,用于提取的步 骤可以是或其可以是。 0012 此外,社交媒体可以存储用户简档信息,并且用于计算第一相似度的步骤可以基 说 明 书CN 103999082 A 2/5页 5 于属于一个部分社区的用户的简档信息和属于其他部分社区的用户的简档信息之间的关 系来计算第一相似度。 0013 此外,社交媒体可以提供某个用户关注某个其他用户的功能,并且用于计算第一 相似度。
13、的步骤基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/被 关注关系计算第一相似度。此外,第一相似度可以示出通过一些其他用户在属于一个部分 社区的用户和属于其他部分社区的用户之间是否存在关注/被关注关系,用于计算第二相 似度的步骤可以基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/ 被关注关系计算第二相似度。 0014 用于计算第二相似度的步骤可以基于由属于一个部分社区的用户发送的消息内 的特征词语与由属于其他部分社区的用户发送的消息内的特征词语是否相似而计算第二 相似度。这里,可以使用社区的消息的特征向量提取特征词语。 0015 此外,消息可以是从在规定条件下在社交。
14、媒体上发布的消息采样的消息。此外,消 息也可以是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样 的消息。此外,社交媒体可以是微博。 0016 此外,社交媒体的宿主计算机可以通过网络连接到对多个用户聚类的计算机, 并且进一步提供用于聚类计算机接收响应于来自聚类计算机的规定条件请求而从宿主 (hosting)计算机发送的消息的步骤。可以进一步包括用于在聚类计算机的存储器装置中 存储接收的消息的步骤。 0017 所述方法可以进一步包括用于通过使用图形用户界面输出整合社区的步骤。此 时,整合社区可以与特征词语一起输出。 0018 显然,在其中本发明被理解为计算机程序和计算机系统的情。
15、况下,其提供与其中 本发明被理解为上面描述的方法的情况基本上相同的技术特征。 0019 发明的有利效果 0020 通过使用本发明,能够更快速地和更精确地检测社交媒体中的社区。 附图说明 0021 图1是解释微博(microblog)系统的概略图。 0022 图2是解释微博的关注者和被关注的关系的概略图。 0023 图3是用作用户终端的智能电话和相关屏幕显示的说明图。 0024 图4是存储在微博服务器的硬盘设备中的数据的数据结构的说明图。 0025 图5是发送的消息的类型的说明图。 0026 图6是解释计算机的硬件结构的框图。 0027 图7是解释由计算机执行的处理的流程图。 0028 图8是用。
16、于从部分社区生成整合社区的处理的说明图。 具体实施方式 0029 实施例 0030 下列部分基于附图详细描述执行本发明的最佳模式,但下列实施例并未限制根据 权利要求的范围的本发明,并且在实施例内描述的特征的整个组合对本发明的解决方式并 说 明 书CN 103999082 A 3/5页 6 非必要。可以通过许多不同模式执行本发明,并且没有理由其应被解释为限于对于实施例 记录的内容。此外,应注意在实施例内描述的特征的整个组合对本发明的解决方式并非必 要。贯穿实施例的整个描述相同标号应用于相同元件(当未另外指定时)。 0031 图1是解释微博系统的概略图。该系统包括微博服务器2和用户终端,并且它们 。
17、相互连接用于通过因特网4通信。用户终端可以是提供通信功能的任何模式的计算机。例 如,附图中示出智能电话31、平板32和个人计算机(笔记本型)33,但是此外,虽然未示出, 可以利用例如个人数字助理(PDA,移动信息设备)、车载计算机或笔记本计算机。 0032 图2是解释微博的关注者和被关注的关系的概略图。微博的用户可以提前登记分 享相同爱好或兴趣的其他用户,并且用户可以自动接收由那些其他用户发送的消息。该登 记过程被称为“关注(to follow)”,并且相关关系可以是下列两种类型:其中涉及的用户都 彼此关注,以及其中仅用户之一单方面关注其他用户。例如,图2中的箭头示出用户AAA和 用户BBB彼。
18、此相互关注,而用户BBB单方面关注CCC,并且用户CCC单方面关注用户AAA。 0033 图3是用作用户终端的智能电话31和相关屏幕显示的说明图。微博应用的屏 幕显示在智能电话31的触摸屏上,并且应用屏幕从顶部顺序分成主页组件311、时间轴 (timeline)组件312和操作组件313。在主页组件311内显示菜单按钮和时间轴组件312 是用户AAA的时间轴的指示符。在时间轴组件312内从顶部顺序显示来自用户AAA的消息 组件312a和312b以及来自用户BBB的消息组件312c。这些消息组件312a-312c沿时间序 列显示。具体地,在最高位置处的消息组件312a对应于最新消息。 0034 。
19、图4是存储在微博服务器2的硬盘设备20,21和22中的数据的数据结构的说明 图。在存储在硬盘设备20中的消息表(图4(a)内,提供示出发送每一个消息的日期和时 间的发送时间(created_at)、识别每一个消息的消息ID(id)、识别发送消息的用户的用户 ID(user_id)和作为消息的内容的文本(text)。此外,可以设置文本的字符计数限制(例 如140个字符或更少)。同时,在存储在硬盘设备21中的用户关系表(图4(b)内,提供示 出登记关注关系的日期和时间的登记时间(registered_at)、识别作为关注来源(origin) 的用户的关注来源用户ID(following_user_。
20、id)和识别作为关注目标的用户的关注目标 用户ID(followed_user_id)。作为比较,在存储在硬盘22中的简档表(图4(c)内,提供 用于识别每一个用户的用户ID(user_id)、每一个用户的名字(附图中未示出)、示出位置 的位置信息(location)以及作为相关web页面地址的URL信息(url)。 0035 图5是发送的消息类型的说明图。图5(a)描述正常消息。这里,用户AAA向她自 己的时间轴发送消息,并且这些消息不仅显示在用户AAA的时间轴中,而且显示在关注用 户AAA的那些用户的(在图2的示例中,用户BBB和用户CCC)时间轴中。图5(b)描述回 复消息。回复消息是对。
21、特定消息的响应,并且其被显示在响应者的时间轴中和关注响应者 的那些用户的时间轴中以及关注回复目标用户的那些用户的时间轴中。这里,用户BBB发 送回复消息“嗯,你好。”作为对用户AAA的消息的响应,并且该回复消息显示在用户BBB的 时间轴中以及关注用户BBB的用户(在图2的示例中,用户AAA)的时间轴中。 0036 图5(c)和5(d)都描述复制消息的类型,并且它们示出作为复制消息重新发送显 示在用户CCC的时间轴中的用户AAA来源消息“我第一次上微博”的形式。在两种情况下, 复制消息显示在关注用户CCC的用户(在图2的示例中,用户BBB)的时间轴中,但是在图 5(c)中示出的模式中,其以原始发。
22、布者用户AAA的名字显示在关注用户CCC的用户的时间 说 明 书CN 103999082 A 4/5页 7 轴中,并且在图5(d)中示出的第二模式中,其以转发发布者用户CCC的名字显示。图5(e) 描述引用消息,这示出作为引用原始消息并且还包括用户CCC的新评论“欢迎!”的消息重 新发送在用户CCC的时间线中显示的用户AAA起源消息“我第一次上微薄”的形式。所引 用的消息显示在关注用户CCC的用户的时间轴中。 0037 图6是解释计算机的硬件结构的框图。计算机1的硬件结构包括(低速或高速) 总线10、连接到总线10的CPU(中央处理单元)11、RAM(随机存取存储器、存储器设备)12、 ROM。
23、(只读存储器、存储器设备)13、HDD(硬盘驱动器、存储器设备)14、通信接口15和输 入-输出接口16。进一步提供连接到输入-输出接口16的鼠标17、平板显示器(显示设 备)18和键盘19。计算机1被描述为采用通用个人计算机架构,但在更高数据处理性能和 可用性的情况下可以倍增例如CPU11和HDD14的组件。还可以利用各种其他类型的计算机 系统代替桌面型计算机。 0038 计算机1的软件结构包括提供基本功能的操作系统(OS)、利用OS的功能的应用 软件和用于输入-输出设备的驱动器软件。这些软件中的每一个与各种数据一起被加载到 RAM12中,并且由例如CPU11执行。计算机1作为一个单元执行图。
24、7中示出的处理。 0039 图7是解释由计算机执行的处理的流程图。首先,从计算机1向微博服务器2发 送条件(S1)。这可以是指定在期间发送消息的时间段的条件、指定在消息内包括特定关键 字的条件、指定仅回复或重新发送消息的条件或结合这些参数的条件。然后,计算机1从微 博服务器2接收符合上述条件的一组消息的数据(S2)。此时,同时接收符合条件的消息组 的数据(图4(a)、和关于与这些消息相关的用户的数据(图4(b)、以及与消息相关的用 户的简档(图4(c)是可以接受的。该接收数据存储在计算机1的HDD14中。 0040 然后,基于同伴(companion)消息之间的关系从多个用户提取多个部分社区 。
25、(S3)。这里,消息是响应于由单个用户发送的单个消息由其他用户发送的其他消息;换句话 说,它们是回复消息(图5(b)、复制消息(图5(c)和图5(d)和引用消息中的任何一个。 该提取执行通过由单个用户发送的单个消息和其他消息之间的关系定义的用户网络的深 度优先搜索,并且因此其提取具有强连通分量的部分网络。图8(a)示出G1和G2,其中每一 个都作为部分网络而提取。G1和G2每一个中的每一个圆圈示出单个用户,并且箭头示出在 用户之间交换的消息。 0041 然后,基于属于一个部分社区的用户和属于另一部分社区的用户之间的关系,计 算示出社区同伴的相似度的第一相似度。这里,针对关注和被关注关系需要多少。
26、步骤而 对属于一个部分社区的用户和属于其他部分社区的用户进行评估,并且由此计算步骤的数 量,并且例如相关的倒数作为相似度程度。图8(b)示出部分网络G1和部分网络G2可以 通过第三用户(单个人)使用两个步骤链接两个部分社区,作为第三用户与属于一个部分 社区的用户的关注/被关注关系和第三用户与属于其他部分社区的用户的关注/被关注关 系。此外,相似度程度为1/2(2的倒数)。基于属于一个部分社区的用户的简档信息和属 于其他部分社区的用户的简档信息的关系来计算第一相似度也是可以接受的。例如,对于 具有相同国家或行政区域(在位置信息中示出)的同伴用户可以将相似度设置为较高;或 者,对于具有部分或完全匹。
27、配URL的同伴用户可以将相似度设置为较高。 0042 然后,基于由属于两个部分社区的用户发送的消息内的词语并在第一相似度比预 定第一阈值(例如,1/3)更高的条件下,计算示出两个部分社区同伴的相似度的第二相似 说 明 书CN 103999082 A 5/5页 8 度程度(S5)。这里,基于由属于一个部分社区的用户发送的消息内的特征词语与由属于其 他部分社区的用户发送的消息内的特征词语是否相似来计算第二相似度。此外,通过使用 特征向量提取而执行特征词语的深度优先搜索。执行也是可以接受的。 0043 然后,在第二相似度高于预定第二阈值的条件下,通过整合同伴部分社区而创建 整合社区(S6)。图8(c。
28、)示出其中整合了部分网络G1和G2的条件,从而生成整合社区 G1-G2。整合社区G1-G2可以使用平板显示器18上的图形用户界面输出,并且其可以与特 征词语一起输出。 0044 本发明能够采用完全硬件的实施例、或完全软件的实施例或包括硬件和软件两者 的元件的实施例的形式。在优选实施例中,虽然未限于下列内容,本发明由包括固件、永久 软件、微代码或语法解析微码的软件执行。 0045 此外,本发明可以采用计算机、或任意命令执行系统、或计算机程序或提供用于与 此相关的用途的程序代码的计算机可读介质的模式。在实现本发明的目的时,计算机可读 介质可以是能够保存、存储、传送或传播用于任意命令执行系统、装置或。
29、设备或用于相关用 途的程序的任意设备。具体地,上述语法解析控制模块结构化该任意命令执行系统或“计算 机”。 0046 介质可以是电子、磁、光、电磁、红外或半导体系统(或装置或设备)或传播介质。 作为计算机可读介质的示例,可以提供半导体或固态存储器、磁带、可安装可拆卸计算机磁 盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性电磁盘、或光盘。作为光盘的当前示例, 可以提供致密盘只读存储器(CD-ROM)、致密盘可读-可写存储器(CD-R/W)和DVD。 0047 对于适用于存储、执行或存储和执行程序代码的数据处理系统,可以提供直接或 通过系统总线间接链接到存储器元件的至少一个处理器。对于该。
30、存储器元件,可以提供在 程序代码的实际执行过程期间使用的本地存储器或大容量存储器,或者为了减少在执行期 间必须从大容量存储器设备读取的次数,可以提供为程序代码的至少部分提供临时存储的 高速缓冲存储器。 0048 输入-输出设备或I/O设备(例如键盘、显示器和指示设备,但不限于此)可以直 接或通过中间I/O控制器链接到系统。 0049 此外,网络适配器可以链接到系统,并且数据处理系统可以被布置为通过专用或 公共网络的中介连接到另一数据处理系统、或远程打印机或存储器设备。当前可获得的网 络适配器的部分是调制解调器、电缆调制解调器和以太网(R)卡。 0050 参考标号列表 0051 1:个人计算机。。
31、11:CPU(中央处理单元)。12:RAM(随机存取存储器、存储器设 备)。13:ROM(只读存储器、存储器设备)。14:HDD(硬盘驱动器、存储器设备)。15:通信 接口。16:输入-输出接口。17:鼠标。18:平板显示器(显示设备)。19键盘。2:微博服 务器。20、21:硬盘驱动器。31:智能电话。32:平板。33:个人计算机(笔记本型计算机)。 说 明 书CN 103999082 A 1/8页 9 图1 说 明 书 附 图CN 103999082 A 2/8页 10 图2 说 明 书 附 图CN 103999082 A 10 3/8页 11 图3 说 明 书 附 图CN 103999082 A 11 4/8页 12 图4 说 明 书 附 图CN 103999082 A 12 5/8页 13 图5 说 明 书 附 图CN 103999082 A 13 6/8页 14 图6 说 明 书 附 图CN 103999082 A 14 7/8页 15 图7 说 明 书 附 图CN 103999082 A 15 8/8页 16 图8 说 明 书 附 图CN 103999082 A 16 。