用于在计算机网络的网络设备中进行用户聚类的方法和设备.pdf

上传人:32 文档编号:1282102 上传时间:2018-04-12 格式:PDF 页数:23 大小:764.07KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010512468.0

申请日:

2010.10.12

公开号:

CN102063458A

公开日:

2011.05.18

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20101012|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

百度在线网络技术(北京)有限公司

发明人:

郑佳谦

地址:

100085 北京市海淀区上地十街10号百度大厦

优先权:

专利代理机构:

北京汉昊知识产权代理事务所(普通合伙) 11370

代理人:

罗朋

PDF下载: PDF下载
内容摘要

本发明涉及在计算机网络中用于进行用户聚类的方法和网络设备,本发明通过获取多个待聚类的用户的相关信息,将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中,及获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子群进行合并,获得合并后的最终的用户聚类子群。与现有技术相比,本发明具有以下优点:本发明提供了分布式处理用户聚类的方案,使得海量的互联网用户聚类成为可能。

权利要求书

1: 一种在计算机网络的网络设备中用于进行用户聚类的方法, 其中, 该方法包括以下 步骤 : a 获取多个待聚类的用户的相关信息 ; b 将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的 多个服务器中, 其中每个服务器获得至少两个待聚类的用户的相关信息 ; c 获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的 各个原始用户聚类子群, 并对所述各个原始用户聚类子群进行合并, 以获得合并后的最终 的用户聚类子群。
2: 根据权利要求 1 所述的方法, 其中, 所述步骤 c 还包括以下步骤 : c1 获取所述多个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得 到的各个原始用户聚类子群 ; c2 根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户 聚类子群进行合并, 以获得所述最终的用户聚类子群。
3: 根据权利要求 2 所述的方法, 其中, 所述步骤 c2 还包括以下步骤 : - 根据所述拟合度, 遍历合并所述各个原始用户聚类子群, 以及得合并后的最终的用户 聚类子群。
4: 根据权利要求 2 所述的方法, 其中, 所述步骤 c2 还包括以下步骤 : - 将所述各个原始用户聚类子群划分成多组原始用户聚类子群、 其中每组原始用户聚 类子群包含至少两个原始用户聚类子群 ; - 分别合并每组原始用户聚类子群中包含的原始用户聚类子群, 以获得多个过渡用户 聚类子群 ; - 合并所述多个过渡用户聚类子群, 以获得所述最终的用户聚类子群。
5: 根据权利要求 2 至 4 中任一项所述的方法, 其中, 所述步骤 c2 还包括以下步骤 : - 结合所述拟合度及第一预定规则, 将所述各个用户聚类子群进行合并, 以获得所述最 终的用户聚类子群。
6: 根据权利要求 5 所述的方法, 其中, 所述第一预定规则包括以下至少一项 : - 当所述拟合度相同, 选择合并后用户分布最均匀的合并方案 ; - 当一个用户存在于多个所述最终的用户聚类子群所包含的子群单元中时, 将该用户 保留在用户数最少的子群单元中, 并在其他子群单元中删除该用户。
7: 根据权利要求 2 至 6 中任一项所述的方法, 其中, 所述拟合度根据以下至少一项参数 得到 : - 合并后需删除的用户个数 ; - 合并后被归为一类的用户的相似度。
8: 根据权利要求 1 至 7 中任一项所述的方法, 其中, 该方法可包括以下步骤 : - 根据所述最终的用户聚类子群, 建立或更新用户子群库。
9: 根据权利要求 1 至 8 中任一项所述的方法, 其中, 所述用户的相关信息包括以下至少 一项 : - 用户的个人属性 ; - 用户的历史行为 ; 2 - 表示用户兴趣点的关键词。
10: 根据权利要求 1 至 9 中任一项所述的方法, 其中, 所述网络设备包括 : 多个网络服 务器集、 分布式网络设备或基于云计算的计算机集合。
11: 一种在计算机网络中用于进行用户聚类的网络设备, 其中, 该网络设备包括 : 第一获取装置, 用于获取多个待聚类的用户的相关信息 ; 分发装置, 用于将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计 算机网络中的多个服务器中, 其中每个服务器获得至少两个待聚类的用户的相关信息 ; 第一合并装置, 用于获取所述多个服务器分别对分发至该服务器的所述用户的相关信 息进行聚类得到的各个原始用户聚类子群, 并对所述各个原始用户聚类子群进行合并, 获 得合并后的最终的用户聚类子群。
12: 根据权利要求 11 所述的网络设备, 其中, 所述第一合并装置还包括 : 第二获取装置, 用于获取所述多个服务器分别根据分发至该服务器的所述用户的相关 信息进行聚类得到的各个原始用户聚类子群, 第二合并装置, 用于根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所 述各个原始用户聚类子群进行合并, 以获得所述最终的用户聚类子群。
13: 根据权利要求 12 所述的网络设备, 其中, 所述第二合并装置还包括 : 第一子合并装置, 用于根据所述拟合度, 遍历合并所述各个原始用户聚类子群, 以获得 合并后的最终的用户聚类子群。
14: 根据权利要求 12 所述的网络设备, 其中, 所述第二合并装置还包括 : 分组装置, 用于将所述各个原始用户聚类子群划分成多组原始用户聚类子群, 其中每 组原始用户聚类子群包含至少两个原始用户聚类子群 ; 第二子合并装置, 用于分别合并每组原始用户聚类子群中包含的所述原始用户聚类子 群, 以获得多个过渡用户聚类子群 ; 第三子合并装置, 用于合并所述多个过渡用户聚类子群, 以获得所述最终的用户聚类 子群。
15: 根据权利要求 12 至 14 任一项所述的网络设备, 其中, 所述第二合并装置还用于 : - 结合所述拟合度及第一预定规则, 将所述各个用户聚类子群进行合并, 以获得所述最 终的用户聚类子群。
16: 根据权利要求 15 所述的网络设备, 其中, 所述第一预定规则包括以下至少一项 : - 当所述拟合度相同, 选择合并后用户分布最均匀的合并方案 ; - 当一个用户存在于多个所述最终的用户聚类子群所包含的子群单元中时, 将该用户 保留在用户数最少的子群单元中, 并在其他子群单元中删除该用户。
17: 根据权利要求 12 至 16 任一项所述的网络设备, 其中, 所述拟合度根据以下至少一 项参数得到 : - 合并后需删除的用户个数 ; - 合并后被归为一类的用户的相似度。
18: 根据权利要求 11 至 17 任一项所述的网络设备, 其中, 所述网络设备还包括 : 更新装置, 用于根据所述最终的用户聚类子群, 建立或更新用户子群库。
19: 根据权利要求 11 至 18 任一项所述的网络设备, 其中, 所述用户的相关信息包括以 3 下至少一项 : - 用户的个人属性 ; - 用户的历史行为 ; - 表示用户兴趣点的关键词。
20: 根据权利要求 11 至 19 任一项所述的设备, 其中, 所述网络设备包含于 : 多个网络 服务器集、 分布式网络设备或基于云计算的计算机集合中。

说明书


用于在计算机网络的网络设备中进行用户聚类的方法和设 备

    技术领域 本发明涉及计算机互联网领域, 尤其涉及一种用于在计算机网络的网络设备中进 行用户聚类的方法和设备。
     背景技术 在目前的互联网广告服务中, 作为服务端的广告投放系统由于无法收集到绝大部 分用户有商业价值的浏览行为, 所以, 投放的广告常常不被用户所关注, 效果不明显。 然而, 另一方面, 企业却往往又为广告发布付出了高昂的成本。
     因此, 现有技术通过对互联网用户进行聚类, 以在同一用户群中, 使用含有商业意 图的相似用户行为补足于当前用户, 来达到有针对性的对不同类型的用户提供差异化的广 告服务的效果。然而, 由于互联网用户数量巨大, 单个服务器难以承受如此大量的运算。考 虑到聚类运算又需要全局遍历, 无法简单在分布式环境中进行。
     因此, 面对海量的互联网用户, 如何在分布式环境中对其进行聚类, 已经成为本领 域技术人员极为关注的问题。
     发明内容
     本发明的目的是提供一种用于在计算机网络的网络设备中进行用户聚类的方法 和设备。
     根据本发明的一个方面, 提供一种在计算机网络的网络设备中用于进行用户聚类 的方法。其中, 该方法包括以下步骤 :
     a 获取多个待聚类的用户的相关信息 ;
     b 将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络 中的多个服务器中, 其中每个服务器获得至少两个待聚类的用户的相关信息 ;
     c 获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得 到的各个原始用户聚类子群, 并对所述各个原始用户聚类子群进行合并, 以获得合并后的 最终的用户聚类子群。
     根据本发明的另一个方面, 还提供了一种在计算机网络中用于进行用户聚类的网 络设备, 其中, 该网络设备包括 :
     第一获取装置, 用于获取多个待聚类的用户的相关信息 ;
     分发装置, 用于将所述多个待聚类的用户的相关信息分别复制成多份并分发至所 述计算机网络中的多个服务器中, 其中每个服务器获得至少两个待聚类的用户的相关信 息;
     第一合并装置, 用于获取所述多个服务器分别对分发至该服务器的所述用户的相 关信息进行聚类得到的各个原始用户聚类子群, 并对所述各个原始用户聚类子群进行合 并, 获得合并后的最终的用户聚类子群。与现有技术相比, 本发明具有以下优点 : 本发明提供了分布式处理用户聚类的方 案, 使得海量的互联网用户聚类成为可能。 附图说明 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本发明的其它 特征、 目的和优点将会变得更明显 :
     图 1 为本发明的一种计算机网络的系统拓扑图 ;
     图 2 为本发明一个方面的在计算机网络的网络设备中进行用户聚类的方法的流 程图 ;
     图 3 为本发明一个优选实施例的在计算机网络的网络设备中进行用户聚类的方 法的流程图 ;
     图 4 为本发明一个优选实施例的合并各个原始用户聚类子群以获得最终的用户 聚类子群方法的流程图 ;
     图 5 为本发明一个方面的在计算机网络中进行用户聚类的网络设备的结构示意 图;
     图 6 为本发明一个优选实施例的在计算机网络中进行用户聚类的网络设备的结 构示意图 ;
     图 7 为本发明一个优选实施例的第二合并装置的结构示意图 ;
     附图中相同或相似的附图标记代表相同或相似的部件。
     具体实施方式
     下面结合附图对本发明作进一步详细描述。
     本发明中的计算机网络包括但不限于 : 1) 多个网络服务器集 ; 2) 分布式网络设 备; 3) 基于云计算 (Cloud Computing) 的由大量计算机或网络服务器构成的云的计算机集 合等。 其中, 云计算是分布式计算的一种, 由一群松散耦合的计算机集组成的一个超级虑拟 计算机。
     为了更为清楚的说明所述计算机网络, 图 1 示出了本发明的一种计算机网络的系 统拓扑图。所述计算机网络包括服务器 4 至服务器 6、 以及网络设备。其中, 服务器 4 至服 务器 6、 以及网络设备可以是任何一种具有数据处理能力的电子产品, 包括但不限于计算 机。单个网络服务器、 网络主机等。而且服务器 4 至服务器 6、 以及网络设备可以通过通讯 网络传送数据, 所述通讯网络包括但不限于 : 1) 无线网络 ; 2) 有线网络 ; 3) 局域网 ; 4) 广域 网等。在所述计算机网络中, 可以设置一台或多台设备作为主控服务器, 例如, 将所述网络 设备作为主控服务器, 此外, 也可以不设置主控服务器。总之, 所述计算机网络中各服务器 和网络设备可在主控服务器的统筹下进行数据处理, 也可各自相互配合工作。
     需要说明的是, 上述所示的计算机网络只是为了更好的说明本发明的方案, 而非 用于限制本发明, 事实上, 所述计算机网络包含的服务器的数量、 以及各服务器和网络设备 之间的通讯并非以上为限, 还有, 所述网络设备也可以仅是某一服务器中的一个处理单元, 而非独立的设备, 还可以是多个网络服务器集、 分布式网络设备或者基于云计算的由大量 计算机或网络服务器构成的云的计算机集合等等, 甚至, 所述网络设备包含在一个服务器中, 则该服务器同时完成主控服务器及普通服务器的功能。
     图 2 示出了本发明一个方面的在计算机网络的网络设备中进行用户聚类的方法 的流程图。
     在步骤 S1 中, 所述网络设备获取多个待聚类的用户的相关信息。其中, 所述用户 的相关信息包括但不限于 : 1) 用户的个人属性, 例如, 用户的年龄、 性别、 职业、 教育程度、 消费能力等等 ; 2) 用户的历史行为, 例如, 点击广告的记录的行为、 浏览记录的行为等 ; 3) 表示用户兴趣点的关键词等, 例如, 用户的历史查询词, 及根据所述历史查询词进行过滤、 分词、 拓展得到的关键词。 其中, 所述用户的个人属性可通过用户主动提供的信息或根据用 户的访问查询行为推测得到。
     其中, 网络设备可通过多种方式来识别用户, 其识别方式包括但不限于 : 1) 通过 用户的注册信息来识别用户 ; 2) 通过用户进行浏览操作时, 在用户 cookie 中记录的临时 ID 来识别用户, 例如, 当用户浏览网页时, 在该用户的 cookie 中赋予该用户一个临时 ID, 并以 该临时 ID 来识别用户。
     所述网络设备将获取的用户的相关信息记录在用户相关信息库中, 所述用户相关 信息库存储在所述计算机网络的一个或多个设备中。 所述网络设备获取用户相关信息的方 式有多种, 例如, 当用户申请成为与所述网络设备具有关联的网站的注册会员时, 会填写注 册信息, 由此, 所述网络设备可以从该用户递交的注册信息中获取用户相关信息。再比如, 用户在与所述网络设备具有关联的网站购物时, 会留下购物信息, 所述网络设备由此可以 获取购物信息并进行分析以建立或调整该用户的个人属性信息。再比如, 用户方位提供网 页的服务器时, 提供网页的服务器会在 cookie 中留下临时的用户相关信息。因此, 所述网 络设备可从 cookie 中获取用户相关信息。再比如, 对于用户兴趣点的关键词, 所述网络设 备可以通过分析用户在提供搜索服务的搜索栏中输入的问讯信息 (query) 来得到, 比如, 用户输入 : 我要参观世博园, 由此, 可分析出用户兴趣点的关键词是 “世博园” 。 总之, 上述各 列示仅是为了更好的说明本发明的方案, 而非用于限制本发明。
     接着, 在步骤 S2 中, 所述网络设备将所获取的多个待聚类的用户的相关信息分别 复制成多份并分发至所述计算机网络中的多个服务器中, 其中每个服务器获得至少两个待 聚类的用户的相关信息。
     例如, 所述网络设备获得了待聚类的用户 A 至用户 E 的用户相关信息, 将该些待聚 类的用户的相关信息复制 N 份后分发至服务器 4 至服务器 6 中。其中, 复制的份数 N 大于 或等于 2, 具体可以根据服务器的处理能力来确定, 较佳的, 复制的份数 N 小于服务器的数 量。
     所述网络设备在分发过程中可采用随机分发的方式, 例如, 将所述用户的相关信 息随机分发至各个服务器中等, 也可采用指定分发的方式, 例如, 指定一部分用户的相关信 息分发至一部分服务器中, 另一部分用户的相关信息分发至另一部分服务器中等。
     此外, 复制的过程和分发的过程包括但不限于 :
     1) 网络设备将所有待聚类的用户的相关信息复制 N 份后, 再分发至各服务器 ;
     以所述网络设备将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至服务器 6 为例, 所述网络设备将待聚类的用户 A 至用户 E 的相关信息都复制了 N 份后, 再分发至服 务器 4 至服务器 6 中 ;其中, 作为一个优选方式, 每个用户的 N 份相关信息分发至不同的服务器中 ;
     2) 所述网络设备复制了部分待聚类的用户的相关信息后对已复制的用户的相关 信息进行分发, 然后再复制, 再分发 ......, 如此反复 ;
     例如, 以所述网络设备将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至 服务器 6 为例, 所述网络设备复制了用户 A 和用户 B 的相关信息后, 先将用户 A 和用户 B 的 相关信息分发至服务器, 随后再复制用户 C 的相关信息, 将用户 C 的相关信息分发后。再复 制用户 D 和用户 E 的相关信息, 再将用户 D 和用户 E 的相关信息分发至各服务器 ;
     3) 所述网络设备每将一个用户的相关信息复制为 N 份, 即将该 N 份用户的相关信 息分发至不同的服务器中 ;
     例如, 以所述网络设备将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至 服务器 6 为例, 所述网络设备将用户 A 的信息复制了 N 份后, 分发至不同的服务器中, 然后, 所述网络设备将用户 A 的信息复制了 N 份后, 分发至不同的服务器中, 重复上述步骤直至所 有用户的相关信息均复制并分发完毕。
     其中, 无论采用何种分发方式, 所述网络设备在分发完成后, 要使收到待聚类用户 的相关信息的各服务器各自都获得至少两份或两份以上不同待聚类的用户的相关信息, 以 便各服务器各自进行用户聚类作业, 并且, 每个用户的相关信息 N 复制的份数可能不相同, 如, 对于用户 A, N = 2, 对于用户 B, N = 3 等。 需要说明的是, 上述举例仅为更好地说明本发明复制及分发用户的相关信息的方 案, 而非对本发明所做的限制, 事实上, 待聚类的用户数量相当庞大, 上述举例列出五个用 户, 仅为说明方便起见, 服务器的数量也并非以 3 个为限, 事实上, 服务器的数量应大于两 个, 但上不封顶。
     接着, 在步骤 S3 中, 网络设备获取所述多个服务器分别对分发至该服务器的所述 用户的相关信息进行聚类得到的各个原始用户聚类子群, 并对所述各个原始用户聚类子群 进行合并, 以获得合并后的最终的用户聚类子群。
     例如, 以所述网络设备将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至 服务器 6 为例, 服务器 4 获得了待聚类的用户 A、 用户 B 和用户 C 的相关信息, 经过聚类后获 得的原始用户聚类子群 Class1 为 (A, B) 和 (C) ; 服务器 5 获得了待聚类的用户 A, 用户 D 和 用户 E, 经过聚类后获得的原始用户聚类子群 Class2 为 (A, D) 和 (E) ; 服务器 6 获得了待聚 类的用户 B、 用户 C、 用户 D 和用户 E, 经过聚类后获得的原始用户聚类子群 Class3 为 (C, D) 和 (B, E)。各服务器进行聚类, 可以根据各待聚类的用户相关信息的相似度来进行, 例如, 如果待聚类的用户 A 和用户 B, 都是女性, 年龄都在 40 至 50 岁之间, 都对世博园感兴趣, 而 待聚类的用户 C 是男性, 年龄在 40 至 50 岁之间, 其对足球感兴趣, 如此, 服务器 4 可根据待 聚类的用户 A、 B、 和 C 的相关信息的相似程度, 将待聚类的用户 A 和用户 B 聚类, 从而获得 原始用户聚类子群 Class1 为 (A, B) 和 (C)。本领域的技术人员应该理解, 上述所述只是为 了更好的说明本发明的技术方案, 而非用于限制本发明。
     所述网络设备获取服务器 4 至服务器 6 各自所得到的各个原始用户聚类子群 Class1、 Class2 及 Class3, 并对所述各个原始用户聚类子群进行合并, 以获得合并后的最 终的用户聚类子群。 其中, 所述合并方式包括但不限于 : 1) 遍历合并 ; 2) 分组合并等。 后续 将以举例的方式对各合并的方式进行具体说明。
     图 3 为本发明一个优选实施例的在计算机网络的网络设备中进行用户聚类的方 法的流程图。
     本实施例中的步骤 S1 及步骤 S2 已在参照图 2 所述的实施例中予以详述, 在此以 引用的方式包含, 不再赘述。
     接着, 在步骤 S31 中, 所述网络设备获取各个服务器分别根据分发至该服务器的 所述用户的相关信息进行聚类得到的各个原始用户聚类子群 ;
     随后, 在步骤 S32 中, 所述网络设备根据所述各个原始用户聚类子群之间各种合 并方式的拟合度将所述各个原始用户聚类子群进行合并, 以获得所述最终的用户聚类子 群。
     其中, 所述拟合度可以根据参数来得到, 所述参数至少包括以下一项 :
     1) 合并后需删除的用户个数, 例如, 在将原始用户聚类子群 Class1 和 Class2 合并 时, 如果 Class1 中的 (A, B) 和 Class2 中的 (A, D) 合并, 则合并为 (A, B, A, D), 显然, 需要 删除一个待聚类用户 A, 据此可以得到拟合度为 1, 而如果 Class1 中的 (C) 和 Class2 中的 (A, D) 合并, 则合并为 (A, C, D), 显然没有需要删除用户, 故据此可以得到拟合度为 0。
     2) 合并后被归为一类的用户的相似度, 例如, 所述网络设备在将来自服务器 4、 服 务器 5、 和服务器 6 的原始用户聚类子群合并时, 如果合并后结果可以是将待聚类的用户 A、 用户 B 和用户 C 归为一类, 将待聚类的用户 D 和用户 E 归为一类, 即归类为 (A, B, C) 和 (D, E) ; 也可以是将待聚类的用户 A、 用户 B 和用户 D 归为一类, 而将待聚类的用户 C 和用户 E 归 为一类, 即归类为 (A, B, D) 和 (C, E), 如此, 所述网络设备可以通过比较待聚类的用户 A、 用 户 B 和用户 C 三者的相关信息的相似程度、 与待聚类的用户 A、 用户 B 和用户 D 三者的相关 信息的相似程度, 来确定拟合度。比如, 待聚类的用户 A、 用户 B 和用户 C 三者都是男性, 都 对足球感兴趣, 而待聚类的用户 D 是女性, 显然, 待聚类的用户 A、 用户 B 和用户 C 三者的相 似度高于待聚类的用户 A、 用户 B 和用户 D 三者的相似度, 也就可以据此来确定待聚类的用 户 A、 用户 B 和用户 C 三者的拟合度、 和待聚类的用户 A、 用户 B 和用户 D 三者的拟合度。本 领域技术人员应该理解, 上述列示只是用作对拟合度的解释性说明, 而非用于限制本发明, 事实上, 各待聚类的用户的相关信息并非以上述为限。
     优选地, 在所述步骤 S32 中, 所述网络设备以遍历的方式来对各原始用户, 也就 是所述网络设备根据拟合度, 遍历合并所述各个原始用户聚类子群, 以获得合并后的最 终的用户聚类子群。例如, 所述网络设备获得的原始用户聚类子群为 : Class1、 Class2、 Class3、 ......ClassN, 合并时, 所述网络设备先将原始用户聚类子群 Class1 和原始用户 聚类子群 Class2 合并, 合并后的结果再与原始用户聚类子群 Class3 合并 ...... 如此依序 进行, 直到完成和原始用户聚类子群 ClassN 的合并为止。
     上述各用户聚类子群之间的合并依据拟合度进行, 例如, 在原始用户聚类子群 Class1 和原始用户聚类子群 Class2 合并时, 假设原始用户聚类子群 Class1 包括子群单元 class_1_1 = (A, C) 和子群单元 class_1_2 = (D, E), 原始用户聚类子群 Class2 包括子群 单元 class_2_1 = (A, B) 和子群单元 class_2_2 = (E), 如果 class_1_1 和 class_2_1 合 并, class_1_2 和 class_2_2 合并, 拟合度用需要删除的用户个数来计算, 则在这种合并方 式中, class_1_1 和 class_2_1 合并时需要删除一个用户 A, 而 class_1_2 和 class_2_2 合 并时需要删除一个用户 E, 故此种合并方式的拟合度为 2 ; 如果 class_1_1 和 class_2_2 合并, class_1_2 和 class_2_1 合并, 则没有需要被删除的用户, 故拟合度为 0, 所述网络设备 根据所述拟合度, 得到原始用户聚类子群 Class1 和原始用户聚类子群 Class2 合并结果为 : class_x_1 = (A, C, B), class_x_2 = (D, E)。根据上述方法再将所述合并后的结果与下一 个原始用户聚类子群合并, 如此逐步进行, 直到将最后一个原始用户聚类子群合并为止, 由 此完成遍历合并。此外, 拟合度也可根据其他参数来确定, 具体可参见前述参数的说明, 在 此不再赘述。
     优选地, 在步骤 S32 中, 合并可以分组的方式进行, 请参阅图 4, 步骤 S32 进一步包 括步骤 S321、 步骤 S322 及步骤 S323。
     在步骤 S321 中, 所述网络设备先将所述各个原始用户聚类子群划分成多组原始 用户聚类子群, 其中各组原始用户聚类子群包含至少两个原始用户聚类子群, 例如, 所述网 络设备将获得的原始用户聚类子群 Class1, Class2、 Class3、 ......ClassN 两两分组, 即原 始用户聚类子群 Class1 和 Class2 一组、 Class3 和 Class4 一组 ......, 而如果原始用户聚 类子群的数量为单数, 则最后剩余的一个原始用户聚类子群可以并入已有的组中, 也可以 将其视为一组。本领域技术人员应该理解, 分组方式并非以上述所述为限制, 事实上, 以3 个或 3 个以上的原始用户聚类子群作为一组, 或者每组所包含的原始用户聚类子群数量互 不相同, 都是可以的, 具体可以根据所述网络设备的处理能力、 或者所述网络设备包含的服 务器数量来确定。 接着, 在步骤 S322 中, 所述网络设备分别合并每组原始用户聚类子群中包含的原 始用户聚类子群, 以获得多个过渡用户聚类子群例如, 所述网络设备根据拟合度将第一组 原始用户聚类子群合并, 合并后获得过渡用户聚类子群 class_x1, 将第二组原始用户聚类 子群合并, 合并后获得过渡用户聚类子群 class_x2......, 如此, 直到所述网络设备将所有 组的原始用户聚类子群都合并。而如果采用两两分组, 则可能因为总的原始用户聚类子群 数量为单数而导致剩余一个原始用户聚类子群, 则也可以在各组合并后, 将其中一组的合 并结果与该剩余的原始用户聚类子群合并, 以便获得相应的过渡用户聚类子群。合并仍然 可以根据拟合度来进行, 具体可参见前述遍历合并中的说明, 在此不再赘述。
     最后, 在步骤 S323 中, 所述网络设备合并所述多个过渡用户聚类子群, 以获得所 述最终的用户聚类子群。而所述网络设备在对获得的过渡用户聚类子群合并时, 依然可以 采用多种合并的方式, 例如, 采用前述遍历的方式, 即先将第一个过渡用户聚类子群和第二 个过渡用户聚类子群合并, 合并后的结果再和后续的过渡用户聚类子群合并, 如此依序进 行, 直到完成对最后一个过渡用户聚类子群的合并为止。 此外, 所述网络设备还可以再次采 用分组的方式, 即先将获得的各过渡用户聚类子群再分组, 使各组包括至少两个过渡用户 聚类子群, 然后所述网络设备再对每一组进行合并, 在获得了合并结果后再将各结果合并, 如此持续进行, 以便获得最终的用户聚类子群。
     需要说明的是, 以上所述合并仅仅只是列示, 而非用于限制本发明, 事实上, 合并 可以仅以遍历的方式进行, 也可以仅以分组的方式进行, 只是, 如果采用两两分组时, 如果 用户聚类子群为单数, 则最后剩余的一用户聚类子群, 可以放入已有的某一组中, 也可以待 某一组的用户聚类子群合并后, 将该剩余的一用户聚类子群与之再合并, 本领域的技术人 员应该理解, 对剩余的该组原始用户聚类子群的处理方式并非以上述为限, 事实上, 其也可 等到要进行最终的合并时再来处理。 此外, 合并的方式还可以组合的方式进行, 即可以以遍
     历和方组相结合的方式进行, 例如, 先将各原始用户聚类子群分组, 然后对每一组合并后获 得各过渡用户聚类子群, 再以遍历方式将各过渡用户聚类子群合并, 以获得最终的用户聚 类子群, 也可以在获得各过渡用户聚类子群后, 再对各过渡用户聚类子群分组, 然后再对每 一过渡用户聚类子群组合并, 对合并后的结果再以遍历方式合并。 总之, 本领域技术人员应 该理解, 合并的方式是可以多种多样的, 并非以上述所述为限, 事实上, 可以在分组一次后 即采用遍历方式合并, 也可以在分组多次后再采用遍历方式合并等。
     作为本发明的另一个优选实施例, 在步骤 S32 中, 所述网络设备还可以结合拟合 度及第一预定规则, 将各个用户聚类子群进行合并, 以获得最终的用户聚类子群。其中, 所 述第一预定规则包括但不限于以下至少一项 :
     1) 当拟合度相同, 选择合并后用户分布最均匀的合并方案。 例如, 将第一组的原始 用户聚类子群中的子群单元 class_1_1 = (A, B) 和子群单元 class_1_2 = (D) 与第二组的 原始用户聚类子群中的子群单元 class_2_1 = (B, D) 和子群单元 class_2_2 = (C, E, F) 合 并, 如果 class_1_1 和 class_2_1 合并、 class_1_2 和 class_2_2 合并, 拟合度为 1, 合并后的 结果是 : class_x1_1 = (A, B, D)、 class_x1_2 = (A, D, E, F) ; 如果 class_1_1 和 class_2_2 合并、 class_1_2 和 class_2_1 合并, 拟合度也为 1, 合并后的结果为 : class_x2_1 = (A, B, C, E, F)、 class_x2_2 = (B, D), 显然, 前者合并后的结果用户分布比后者的用户分布均匀, 故所述网络设备根据拟合度和所述第一预定规则选择前一合并结果, 也就是 class_x1_1 = (A, B, D)、 class_x1_2 = (C, D, E, F)。 2) 当一个用户存在于多个最终的用户聚类子群所包含的子群单元中时, 将该用户 保留在用户数最少的子群单元中, 并在其他子群单元中删除该用户。 例如, 当所述网络设备 获得的最终用户聚类子群包括子群单元 (A, B, D) 和子群单元 (A, C, F, H, I), 可见用户 A 存 在于两个子群单元中, 而子群单元 (A, B, D) 的用户数少于子群单元 (A, C, F, H, I), 则所述 网络设备根据所述第一预定规则将子群单元 (A, C, F, H, I) 中的用户 A 删除。
     作为本发明的又一个优选实施例, 所述网络设备在合并完成, 获得了最终的用户 聚类子群后, 可以据此建立用户子群库。而如果随后所述网络设备又获取了大量待聚类的 用户的相关信息, 所述网络设备可以再次在计算机网络中对所有已聚类及未聚类的用户进 行重新聚类, 并根据再次聚类后的结果对所建立的用户子群库进行更新。
     图 5 示出了本发明一个方面的在计算机网络中进行用户聚类的网络设备的结构 示意图。本实施例中, 网络设备包括第一获取装置 1、 分发装置 2 及第一合并装置 3。
     第一获取装置 1 获取多个待聚类的用户的相关信息。其中, 所述用户的相关信息 包括但不限于 : 1) 用户的个人属性, 例如, 用户的年龄、 性别、 职业、 教育程度、 消费能力等 等; 2) 用户的历史行为, 例如, 点击广告的记录的行为、 浏览记录的行为等 ; 3) 表示用户兴 趣点的关键词等, 例如, 用户的历史查询词, 及根据所述历史查询词进行过滤、 分词、 拓展得 到的关键词。其中, 所述用户的个人属性可通过用户主动提供的信息或根据用户的访问查 询行为推测得到。
     其中, 第一获取装置 1 可通过多种方式来识别用户, 其识别方式包括但不限于 : 1) 通过用户的注册信息来识别用户 ; 2) 通过用户进行浏览操作时, 在用户 cookie 中记录的临 时 ID 来识别用户, 例如, 当用户浏览网页时, 在该用户的 cookie 中赋予该用户一个临时 ID, 并以该临时 ID 来识别用户。
     第一获取装置 1 将获取的用户的相关信息记录在用户相关信息库中, 所述用户相 关信息库存储在所述计算机网络的一个或多个设备中。第一获取装置 1 获取用户相关信息 的方式有多种, 例如, 当用户申请成为与所述网络设备具有关联的网站的注册会员时, 会填 写注册信息, 由此, 第一获取装置 1 可以从该用户递交的注册信息中获取用户相关信息。再 比如, 用户在与所述网络设备具有关联的网站购物时, 会留下购物信息, 第一获取装置 1 由 此可以获取购物信息并进行分析以建立或调整该用户的个人属性信息。再比如, 用户方位 提供网页的服务器时, 提供网页的服务器会在 cookie 中留下临时的用户相关信息, 因此, 第一获取装置 1 可从 cookie 中获取用户相关信息。再比如, 对于用户兴趣点的关键词, 第 一获取装置 1 可以通过分析用户在提供搜索服务的搜索栏中输入的问讯信息 (query) 来得 到, 比如, 用户输入 : 我要参观世博园, 由此, 可分析出用户兴趣点的关键词是 “世博园” 。总 之, 上述各列示仅是为了更好的说明本发明的方案, 而非用于限制本发明。
     分发装置 2 将所获取的多个待聚类的用户的相关信息分别复制成多份并分发至 所述计算机网络中的多个服务器中, 其中每个服务器获得至少两个待聚类的用户的相关信 息。
     例如, 第一获取装置 1 获得了待聚类的用户 A 至用户 E 的用户相关信息, 分发装置 2 将该些待聚类的用户的相关信息复制 N 份后分发至服务器 4 至服务器 6 中。其中, 复制的 份数 N 大于或等于 2, 具体可以根据服务器的处理能力来确定, 较佳的, 复制的份数 N 小于服 务器的数量。 分发装置 2 在分发过程中可采用随机分发的方式, 例如, 将所述用户的相关信息 随机分发至各个服务器中等, 也可采用指定分发的方式, 例如, 指定一部分用户的相关信息 分发至一部分服务器中, 另一部分用户的相关信息分发至另一部分服务器中等。
     此外, 复制的过程和分发的过程包括但不限于 :
     1) 分发装置 2 将所有待聚类的用户的相关信息复制 N 份后, 再分发至各服务器 ;
     以分发装置 2 将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至服务器 6 为例, 分发装置 2 将待聚类的用户 A 至用户 E 的相关信息都复制了 N 份后, 再分发至服务器 4 至服务器 6 中 ;
     其中, 作为一个优选方式, 每个用户的 N 份相关信息分发至不同的服务器中 ;
     2) 分发装置 2 复制了部分待聚类的用户的相关信息后对已复制的用户的相关信 息进行分发, 然后再复制, 再分发 ......, 如此反复 ;
     例如, 以分发装置 2 将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至服 务器 6 为例, 分发装置 2 复制了用户 A 和用户 B 的相关信息后, 先将用户 A 和用户 B 的相关 信息分发至服务器, 随后再复制用户 C 的相关信息, 将用户 C 的相关信息分发后, 再复制用 户 D 和用户 E 的相关信息, 再将用户 D 和用户 E 的相关信息分发至各服务器 ;
     3) 分发装置 2 每将一个用户的相关信息复制为 N 份, 即将该 N 份用户的相关信息 分发至不同的服务器中 ;
     例如, 以所述分发装置 2 将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至服务器 6 为例, 分发装置 2 将用户 A 的信息复制了 N 份后, 分发至不同的服务器中, 然后, 分发装置 2 将用户 A 的信息复制了 N 份后, 分发至不同的服务器中, 重复上述步骤直至所有 用户的相关信息均复制并分发完毕。
     其中, 无论采用何种分发方式, 所述网络设备在分发完成后, 要使收到待聚类用户 的相关信息的各服务器各自都获得至少两份或两份以上不同待聚类的用户的相关信息, 以 便各服务器各自进行用户聚类作业, 并且, 每个用户的相关信息 N 复制的份数可能不相同, 如, 对于用户 A, N = 2, 对于用户 B, N = 3 等。
     需要说明的是, 上述举例仅为更好地说明本发明复制及分发用户的相关信息的方 案, 而非对本发明所做的限制, 事实上, 待聚类的用户数量相当庞大, 上述举例列出五个用 户, 仅为说明方便起见, 服务器的数量也并非以 3 个为限, 事实上, 服务器的数量应大于两 个, 但上不封顶。
     第一合并装置 3 获取所述多个服务器分别对分发至该服务器的所述用户的相关 信息进行聚类得到的各个原始用户聚类子群, 并对所述各个原始用户聚类子群进行合并, 以获得合并后的最终的用户聚类子群。
     例如, 以分发装置 2 将待聚类的用户 A 至用户 E 的相关信息分发至服务器 4 至服 务器 6 为例, 服务器 4 获得了待聚类的用户 A、 用户 B 和用户 C 的相关信息, 经过聚类后获得 的原始用户聚类子群 Class1 为 (A, B) 和 (C) ; 服务器 5 获得了待聚类的用户 A、 用户 D 和用 户 E, 经过聚类后获得的原始用户聚类子群 Class2 为 (A, D) 和 (E) ; 服务器 6 获得了待聚 类的用户 B、 用户 C、 用户 D 和用户 E, 经过聚类后获得的原始用户聚类子群 Class3 为 (C, D) 和 (B, E)。各服务器进行聚类, 可以根据各待聚类的用户相关信息的相似度来进行, 例如, 如果待聚类的用户 A 和用户 B, 都是女性, 年龄都在 40 至 50 岁之间, 都对世博园感兴趣, 而 待聚类的用户 C 是男性, 年龄在 40 至 50 岁之间, 其对足球感兴趣, 如此, 服务器 4 可根据待 聚类的用户 A、 B、 和 C 的相关信息的相似程度, 将待聚类的用户 A 和用户 B 聚类, 从而获得 原始用户聚类子群 Class1 为 (A, B) 和 (C)。本领域的技术人员应该理解, 上述所述只是为 了更好的说明本发明的技术方案, 而非用于限制本发明。
     第一合并装置 3 获取服务器 4 至服务器 6 各自所得到的各个原始用户聚类子群 Class1、 Class2 及 Class3, 并对所述各个原始用户聚类子群进行合并, 以获得合并后的最 终的用户聚类子群。 其中, 所述合并方式包括但不限于 : 1) 遍历合并 ; 2) 分组合并等。 后续 将以举例的方式对各合并的方式进行具体说明。
     图 6 示出了本发明一个优选实施例的在计算机网络中进行用户聚类的网络设备 的结构示意图。在本实施例中, 所述网络设备包括第一获取装置 1、 分发装置 2 及第一合并 装置 3, 其中, 所述第一合并装置 3 进一步包括第二获取装置 31 及第二合并装置 32。
     本实施例中的第一合并装置 3 及分发装置 2 已在参照图 5 所述的实施例中予以详 述, 在此以引用的方式包含, 不再赘述。
     第二获取装置 31 获取各个服务器分别根据分发至该服务器的所述用户的相关信 息进行聚类得到的各个原始用户聚类子群 ;
     第二合并装置 32 根据所述各个原始用户聚类子群之间各种合并方式的拟合度将 所述各个原始用户聚类子群进行合并, 以获得所述最终的用户聚类子群。
     其中, 所述拟合度可以根据参数来得到, 所述参数至少包括以下一项 :
     1) 合并后需删除的用户个数, 例如, 第二合并装置 32 在将原始用户聚类子群 Class1 和 Class2 合并时, 如果 Class1 中的 (A, B) 和 Class2 中的 (A, D) 合并, 则合并为 (A, B, A, D), 显然, 需要删除一个待聚类用户 A, 据此可以得到拟合度为 1, 而如果 Class1 中的 (C) 和 Class2 中的 (A, D) 合并, 则合并为 (A, C, D), 显然没有需要删除用户, 故据此可以 得到拟合度为 0。
     2) 合并后被归为一类的用户的相似度, 例如, 第二合并装置 32 在将来自服务器 4、 服务器 5、 和服务器 6 的原始用户聚类子群合并时, 如果合并后结果可以是将待聚类的用户 A、 用户 B 和用户 C 归为一类, 将待聚类的用户 D 和用户 E 归为一类, 即归类为 (A, B, C) 和 (D, E) ; 也可以是将待聚类的用户 A、 用户 B 和用户 D 归为一类, 而将待聚类的用户 C 和用户 E 归为一类, 即归类为 (A, B, D) 和 (C, E), 如此, 第二合并装置 32 可以通过比较待聚类的用 户 A、 用户 B 和用户 C 三者的相关信息的相似程度、 与待聚类的用户 A、 用户 B 和用户 D 三者 的相关信息的相似程度, 来确定拟合度。 比如, 待聚类的用户 A、 用户 B 和用户 C 三者都是男 性, 都对足球感兴趣。而待聚类的用户 D 是女性, 显然, 待聚类的用户 A、 用户 B 和用户 C 三 者的相似度高于待聚类的用户 A、 用户 B 和用户 D 三者的相似度, 也就可以据此来确定待聚 类的用户 A、 用户 B 和用户 C 三者的拟合度和待聚类的用户 A、 用户 B 和用户 D 三者的拟合 度。 本领域技术人员应该理解, 上述列示只是用作对拟合度的解释性说明, 而非用于限制本 发明, 事实上, 各待聚类的用户的相关信息并非以上述为限。
     优选地, 所述第二合并装置 32 还包括第一子合并装置 321( 图未示 )。第一子合 并装置 321 以遍历的方式来对各原始用户, 也就是第一子合并装置 321 根据拟合度, 遍历合 并所述各个原始用户聚类子群, 以获得合并后的最终的用户聚类子群。 例如, 第二获取装置 31 获得的原始用户聚类子群为 : Class1、 Class2、 Class3、 ......Class4、 合并时, 第一子合 并装置 321 先将原始用户聚类子群 Class1 和原始用户聚类子群 Class2 合并, 合并后的结 果再与原始用户聚类子群 Class3 合并 ...... 如此依序进行, 直到完成和原始用户聚类子 群 ClassN 的合并为止。
     上述各用户聚类子群之间的合并依据拟合度进行, 例如, 在原始用户聚类子群 Class1 和原始用户聚类子群 Class2 合并时, 假设原始用户聚类子群 Class1 包括子群单元 class_1_1 = (A, C) 和子群单元 class_1_2 = (D, E), 原始用户聚类子群 Class2 包括子群 单元 class_2_1 = (A, B) 和子群单元 class_2_2 = (E), 如果 class_1_1 和 class_2_1 合 并, class_1_2 和 class_2_2 合并, 拟合度用需要删除的用户个数来计算, 则在这种合并方 式中, class_1_1 和 class_2_1 合并时需要删除一个用户 A, 而 class_1_2 和 class_2_2 合 并时需要删除一个用户 E, 故此种合并方式的拟合度为 2 ; 如果 class_1_1 和 class_2_2 合 并, class_1_2 和 class_2_1 合并, 则没有需要被删除的用户, 故拟合度为 0, 第一子合并装 置 321 根据所述拟合度, 得到原始用户聚类子群 Class1 和原始用户聚类子群 Class2 合并 结果为 : class_x_1 = (A, C, B), class_x_2 = (D, E)。根据上述方法再将所述合并后的结 果与下一个原始用户聚类子群合并, 如此逐步进行, 直到将最后一个原始用户聚类子群合 并为止, 由此完成遍历合并。此外, 拟合度也可根据其他参数来确定, 具体可参见前述参数 的说明, 在此不再赘述。
     优选地, 第二合并装置 32 可以分组的方式进行合并, 请参阅图 7, 第二合并装置 32 进一步包括分组装置 321、 第二子合并装置 322 及地三子合并装置 323。
     分组装置 321 先将所述各个原始用户聚类子群划分成多组原始用户聚类子群, 其 中各组原始用户聚类子群包含至少两个原始用户聚类子群, 例如, 分组装置 321 将获得的 原始用户聚类子群 Class1, Class2、 Class3、 ......ClassN 两两分组, 即原始用户聚类子群Class1 和 Class2 一组、 Class3 和 Class4 一组 ......, 而如果原始用户聚类子群的数量为 单数, 则最后剩余的一个原始用户聚类子群可以并入已有的组中, 也可以将其视为一组。 本 领域技术人员应该理解, 分组方式并非以上述所述为限制, 事实上, 以 3 个或 3 个以上的原 始用户聚类子群作为一组, 或者每组所包含的原始用户聚类子群数量互不相同, 都是可以 的, 具体可以根据所述网络设备的处理能力、 或者所述网络设备包含的服务器数量来确定。
     第二子合并装置 322 分别合并每组原始用户聚类子群中包含的原始用户聚类子 群, 以获得多个过渡用户聚类子群。例如, 第二子合并装置 322 根据拟合度将第一组原始用 户聚类子群合并, 合并后获得过渡用户聚类子群 class_x1, 将第二组原始用户聚类子群合 并, 合并后获得过渡用户聚类子群 class_x2......, 如此, 直到第二子合并装置 322 将所有 组的原始用户聚类子群都合并。而如果采用两两分组, 则可能因为总的原始用户聚类子群 数量为单数而导致剩余一个原始用户聚类子群, 则也可以在各组合并后, 将其中一组的合 并结果与该剩余的原始用户聚类子群合并, 以便获得相应的过渡用户聚类子群。合并仍然 可以根据拟合度来进行, 具体可参见前述遍历合并中的说明, 在此不再赘述。
     第三子合并装置 323 合并所述多个过渡用户聚类子群, 以获得所述最终的用户聚 类子群。而第三子合并装置 323 在对获得的过渡用户聚类子群合并时, 依然可以采用多种 合并的方式, 例如, 采用前述遍历的方式, 即先将第一个过渡用户聚类子群和第二个过渡用 户聚类子群合并, 合并后的结果再和后续的过渡用户聚类子群合并, 如此依序进行, 直到完 成对最后一个过渡用户聚类子群的合并为止。此外, 第三子合并装置 323 还可以再次采用 分组的方式, 即先将获得的各过渡用户聚类子群再分组, 使各组包括至少两个过渡用户聚 类子群, 然后所述网络设备再对每一组进行合并, 在获得了合并结果后再将各结果合并, 如 此持续进行, 以便获得最终的用户聚类子群。
     需要说明的是, 以上所述合并仅仅只是列示, 而非用于限制本发明, 事实上, 合并 可以仅以遍历的方式进行, 也可以仅以分组的方式进行, 只是, 如果采用两两分组时, 如果 用户聚类子群为单数, 则最后剩余的一用户聚类子群, 可以放入已有的某一组中, 也可以待 某一组的用户聚类子群合并后, 将该剩余的一用户聚类子群与之再合并, 本领域的技术人 员应该理解, 对剩余的该组原始用户聚类子群的处理方式并非以上述为限, 事实上, 其也可 等到要进行最终的合并时再来处理。 此外, 合并的方式还可以组合的方式进行, 即可以以遍 历和分组相结合的方式进行, 例如, 先将各原始用户聚类子群分组, 然后对每一组合并后获 得各过渡用户聚类子群, 再以遍历方式将各过渡用户聚类子群合并, 以获得最终的用户聚 类子群, 也可以在获得各过渡用户聚类子群后, 再对各过渡用户聚类子群分组, 然后再对每 一过渡用户聚类子群组合并, 对合并后的结果再以遍历方式合并。 总之, 本领域技术人员应 该理解, 合并的方式是可以多种多样的, 并非以上述所述为限, 事实上, 可以在分组一次后 即采用遍历方式合并, 也可以在分组多次后再采用遍历方式合并等。
     作为本发明的另一个优选实施例, 第二合并装置 32 还可以结合拟合度及第一预 定规则, 将各个用户聚类子群进行合并, 以获得最终的用户聚类子群。其中, 所述第一预定 规则包括但不限于以下至少一项 :
     1) 当拟合度相同, 第二合并装置 32 选择合并后用户分布最均匀的合并方案。例 如, 将第一组的原始用户聚类子群中的子群单元 class_1_1 = (A, B) 和子群单元 class_1_2 = (D) 与 第 二 组 的 原 始 用 户 聚 类 子 群 中 的 子 群 单 元 class_2_1 = (B, D) 和 子 群 单 元class_2_2 = (C, E, F) 合并, 如果 class_1_1 和 class_2_1 合并、 class_1_2 和 class_2_2 合并, 拟合度为 1, 合并后的结果是 : class_x1_1 = (A, B, D)、 class_x1_2 = (C, D, E, F) ; 如 果 class_1_1 和 class_2_2 合并, class_1_2 和 class_2_1 合并, 拟合度也为 1, 合并后的结 果为 : class_x2_1 = (A, B, C, E, F)、 class_x2_2 = (B, D), 显然, 前者合并后的结果用户分 布比后者的用户分布均匀, 故第二合并装置 32 根据拟合度和所述第一预定规则选择前一 合并结果, 也就是 class_x1_1 = (A, B, D)、 class_s1_2 = (C, D, E, F )。
     2) 当一个用户存在于多个最终的用户聚类子群所包含的子群单元中时, 第二合并 装置 32 将该用户保留在用户数最少的子群单元中, 并在其他子群单元中删除该用户。例 如, 当第二合并装置 32 获得的最终用户聚类子群包括子群单元 (A, B, D) 和子群单元 (A, C, F, H, I), 可见用户 A 存在于两个子群单元中, 而子群单元 (A, B, D) 的用户数少于子群单元 (A, C, F, H, I), 则所述网络设备根据所述第一预定规则将子群单元 (A, C, F, H, I) 中的用户 A 删除。
     作为本发明的又一个优选实施例, 所述网络设备还包括更新装置 ( 图未示 )。 所述 更新在合并完成, 获得了最终的用户聚类子群后, 可以据此建立用户子群库。 而如果随后所 述网络设备又获取了大量待聚类的用户的相关信息, 所述网络设备可以再次在计算机网络 中对所有已聚类及未聚类的用户进行重新聚类, 更新装置根据再次聚类后的结果对所建立 的用户子群库进行更新。 对于本领域技术人员而言, 显然本发明不限于上述示范性实施例的细节, 而且在 不背离本发明的精神或基本特征的情况下, 能够以共他的具体形式实现本发明。 因此, 无论 从哪一点来看, 均应将实施例看作是示范性的, 而且是非限制性的, 本发明的范围由所附权 利要求而不是上述说明限定, 因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此 外, 显然 “包括” 一词不排除其他单元或步骤, 单数不排除复数。系统权利要求中陈述的多 个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一, 第二等词语用来 表示名称, 而并不表示任何特定的顺序。
    

用于在计算机网络的网络设备中进行用户聚类的方法和设备.pdf_第1页
第1页 / 共23页
用于在计算机网络的网络设备中进行用户聚类的方法和设备.pdf_第2页
第2页 / 共23页
用于在计算机网络的网络设备中进行用户聚类的方法和设备.pdf_第3页
第3页 / 共23页
点击查看更多>>
资源描述

《用于在计算机网络的网络设备中进行用户聚类的方法和设备.pdf》由会员分享,可在线阅读,更多相关《用于在计算机网络的网络设备中进行用户聚类的方法和设备.pdf(23页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102063458A43申请公布日20110518CN102063458ACN102063458A21申请号201010512468022申请日20101012G06F17/3020060171申请人百度在线网络技术(北京)有限公司地址100085北京市海淀区上地十街10号百度大厦72发明人郑佳谦74专利代理机构北京汉昊知识产权代理事务所普通合伙11370代理人罗朋54发明名称用于在计算机网络的网络设备中进行用户聚类的方法和设备57摘要本发明涉及在计算机网络中用于进行用户聚类的方法和网络设备,本发明通过获取多个待聚类的用户的相关信息,将所述多个待聚类的用户的相关信息分别复制成。

2、多份并分发至所述计算机网络中的多个服务器中,及获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子群进行合并,获得合并后的最终的用户聚类子群。与现有技术相比,本发明具有以下优点本发明提供了分布式处理用户聚类的方案,使得海量的互联网用户聚类成为可能。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书12页附图7页CN102063468A1/3页21一种在计算机网络的网络设备中用于进行用户聚类的方法,其中,该方法包括以下步骤A获取多个待聚类的用户的相关信息;B将所述多个待聚类的用户的相关信息分别复制。

3、成多份并分发至所述计算机网络中的多个服务器中,其中每个服务器获得至少两个待聚类的用户的相关信息;C获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子群进行合并,以获得合并后的最终的用户聚类子群。2根据权利要求1所述的方法,其中,所述步骤C还包括以下步骤C1获取所述多个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群;C2根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并,以获得所述最终的用户聚类子群。3根据权利要求2所述的方法,其中,所述步骤C2还包括以下。

4、步骤根据所述拟合度,遍历合并所述各个原始用户聚类子群,以及得合并后的最终的用户聚类子群。4根据权利要求2所述的方法,其中,所述步骤C2还包括以下步骤将所述各个原始用户聚类子群划分成多组原始用户聚类子群、其中每组原始用户聚类子群包含至少两个原始用户聚类子群;分别合并每组原始用户聚类子群中包含的原始用户聚类子群,以获得多个过渡用户聚类子群;合并所述多个过渡用户聚类子群,以获得所述最终的用户聚类子群。5根据权利要求2至4中任一项所述的方法,其中,所述步骤C2还包括以下步骤结合所述拟合度及第一预定规则,将所述各个用户聚类子群进行合并,以获得所述最终的用户聚类子群。6根据权利要求5所述的方法,其中,所述。

5、第一预定规则包括以下至少一项当所述拟合度相同,选择合并后用户分布最均匀的合并方案;当一个用户存在于多个所述最终的用户聚类子群所包含的子群单元中时,将该用户保留在用户数最少的子群单元中,并在其他子群单元中删除该用户。7根据权利要求2至6中任一项所述的方法,其中,所述拟合度根据以下至少一项参数得到合并后需删除的用户个数;合并后被归为一类的用户的相似度。8根据权利要求1至7中任一项所述的方法,其中,该方法可包括以下步骤根据所述最终的用户聚类子群,建立或更新用户子群库。9根据权利要求1至8中任一项所述的方法,其中,所述用户的相关信息包括以下至少一项用户的个人属性;用户的历史行为;权利要求书CN1020。

6、63458ACN102063468A2/3页3表示用户兴趣点的关键词。10根据权利要求1至9中任一项所述的方法,其中,所述网络设备包括多个网络服务器集、分布式网络设备或基于云计算的计算机集合。11一种在计算机网络中用于进行用户聚类的网络设备,其中,该网络设备包括第一获取装置,用于获取多个待聚类的用户的相关信息;分发装置,用于将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中,其中每个服务器获得至少两个待聚类的用户的相关信息;第一合并装置,用于获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子。

7、群进行合并,获得合并后的最终的用户聚类子群。12根据权利要求11所述的网络设备,其中,所述第一合并装置还包括第二获取装置,用于获取所述多个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,第二合并装置,用于根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并,以获得所述最终的用户聚类子群。13根据权利要求12所述的网络设备,其中,所述第二合并装置还包括第一子合并装置,用于根据所述拟合度,遍历合并所述各个原始用户聚类子群,以获得合并后的最终的用户聚类子群。14根据权利要求12所述的网络设备,其中,所述第二合并装置还包括分组装置,。

8、用于将所述各个原始用户聚类子群划分成多组原始用户聚类子群,其中每组原始用户聚类子群包含至少两个原始用户聚类子群;第二子合并装置,用于分别合并每组原始用户聚类子群中包含的所述原始用户聚类子群,以获得多个过渡用户聚类子群;第三子合并装置,用于合并所述多个过渡用户聚类子群,以获得所述最终的用户聚类子群。15根据权利要求12至14任一项所述的网络设备,其中,所述第二合并装置还用于结合所述拟合度及第一预定规则,将所述各个用户聚类子群进行合并,以获得所述最终的用户聚类子群。16根据权利要求15所述的网络设备,其中,所述第一预定规则包括以下至少一项当所述拟合度相同,选择合并后用户分布最均匀的合并方案;当一个。

9、用户存在于多个所述最终的用户聚类子群所包含的子群单元中时,将该用户保留在用户数最少的子群单元中,并在其他子群单元中删除该用户。17根据权利要求12至16任一项所述的网络设备,其中,所述拟合度根据以下至少一项参数得到合并后需删除的用户个数;合并后被归为一类的用户的相似度。18根据权利要求11至17任一项所述的网络设备,其中,所述网络设备还包括更新装置,用于根据所述最终的用户聚类子群,建立或更新用户子群库。19根据权利要求11至18任一项所述的网络设备,其中,所述用户的相关信息包括以权利要求书CN102063458ACN102063468A3/3页4下至少一项用户的个人属性;用户的历史行为;表示用。

10、户兴趣点的关键词。20根据权利要求11至19任一项所述的设备,其中,所述网络设备包含于多个网络服务器集、分布式网络设备或基于云计算的计算机集合中。权利要求书CN102063458ACN102063468A1/12页5用于在计算机网络的网络设备中进行用户聚类的方法和设备技术领域0001本发明涉及计算机互联网领域,尤其涉及一种用于在计算机网络的网络设备中进行用户聚类的方法和设备。背景技术0002在目前的互联网广告服务中,作为服务端的广告投放系统由于无法收集到绝大部分用户有商业价值的浏览行为,所以,投放的广告常常不被用户所关注,效果不明显。然而,另一方面,企业却往往又为广告发布付出了高昂的成本。00。

11、03因此,现有技术通过对互联网用户进行聚类,以在同一用户群中,使用含有商业意图的相似用户行为补足于当前用户,来达到有针对性的对不同类型的用户提供差异化的广告服务的效果。然而,由于互联网用户数量巨大,单个服务器难以承受如此大量的运算。考虑到聚类运算又需要全局遍历,无法简单在分布式环境中进行。0004因此,面对海量的互联网用户,如何在分布式环境中对其进行聚类,已经成为本领域技术人员极为关注的问题。发明内容0005本发明的目的是提供一种用于在计算机网络的网络设备中进行用户聚类的方法和设备。0006根据本发明的一个方面,提供一种在计算机网络的网络设备中用于进行用户聚类的方法。其中,该方法包括以下步骤0。

12、007A获取多个待聚类的用户的相关信息;0008B将所述多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中,其中每个服务器获得至少两个待聚类的用户的相关信息;0009C获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子群进行合并,以获得合并后的最终的用户聚类子群。0010根据本发明的另一个方面,还提供了一种在计算机网络中用于进行用户聚类的网络设备,其中,该网络设备包括0011第一获取装置,用于获取多个待聚类的用户的相关信息;0012分发装置,用于将所述多个待聚类的用户的相关信息分别复制成多份并分发。

13、至所述计算机网络中的多个服务器中,其中每个服务器获得至少两个待聚类的用户的相关信息;0013第一合并装置,用于获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子群进行合并,获得合并后的最终的用户聚类子群。说明书CN102063458ACN102063468A2/12页60014与现有技术相比,本发明具有以下优点本发明提供了分布式处理用户聚类的方案,使得海量的互联网用户聚类成为可能。附图说明0015通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显0016图1为本发明的一种计算。

14、机网络的系统拓扑图;0017图2为本发明一个方面的在计算机网络的网络设备中进行用户聚类的方法的流程图;0018图3为本发明一个优选实施例的在计算机网络的网络设备中进行用户聚类的方法的流程图;0019图4为本发明一个优选实施例的合并各个原始用户聚类子群以获得最终的用户聚类子群方法的流程图;0020图5为本发明一个方面的在计算机网络中进行用户聚类的网络设备的结构示意图;0021图6为本发明一个优选实施例的在计算机网络中进行用户聚类的网络设备的结构示意图;0022图7为本发明一个优选实施例的第二合并装置的结构示意图;0023附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式0024下面结合。

15、附图对本发明作进一步详细描述。0025本发明中的计算机网络包括但不限于1多个网络服务器集;2分布式网络设备;3基于云计算CLOUDCOMPUTING的由大量计算机或网络服务器构成的云的计算机集合等。其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虑拟计算机。0026为了更为清楚的说明所述计算机网络,图1示出了本发明的一种计算机网络的系统拓扑图。所述计算机网络包括服务器4至服务器6、以及网络设备。其中,服务器4至服务器6、以及网络设备可以是任何一种具有数据处理能力的电子产品,包括但不限于计算机。单个网络服务器、网络主机等。而且服务器4至服务器6、以及网络设备可以通过通讯网络。

16、传送数据,所述通讯网络包括但不限于1无线网络;2有线网络;3局域网;4广域网等。在所述计算机网络中,可以设置一台或多台设备作为主控服务器,例如,将所述网络设备作为主控服务器,此外,也可以不设置主控服务器。总之,所述计算机网络中各服务器和网络设备可在主控服务器的统筹下进行数据处理,也可各自相互配合工作。0027需要说明的是,上述所示的计算机网络只是为了更好的说明本发明的方案,而非用于限制本发明,事实上,所述计算机网络包含的服务器的数量、以及各服务器和网络设备之间的通讯并非以上为限,还有,所述网络设备也可以仅是某一服务器中的一个处理单元,而非独立的设备,还可以是多个网络服务器集、分布式网络设备或者。

17、基于云计算的由大量计算机或网络服务器构成的云的计算机集合等等,甚至,所述网络设备包含在一个服务器说明书CN102063458ACN102063468A3/12页7中,则该服务器同时完成主控服务器及普通服务器的功能。0028图2示出了本发明一个方面的在计算机网络的网络设备中进行用户聚类的方法的流程图。0029在步骤S1中,所述网络设备获取多个待聚类的用户的相关信息。其中,所述用户的相关信息包括但不限于1用户的个人属性,例如,用户的年龄、性别、职业、教育程度、消费能力等等;2用户的历史行为,例如,点击广告的记录的行为、浏览记录的行为等;3表示用户兴趣点的关键词等,例如,用户的历史查询词,及根据所述。

18、历史查询词进行过滤、分词、拓展得到的关键词。其中,所述用户的个人属性可通过用户主动提供的信息或根据用户的访问查询行为推测得到。0030其中,网络设备可通过多种方式来识别用户,其识别方式包括但不限于1通过用户的注册信息来识别用户;2通过用户进行浏览操作时,在用户COOKIE中记录的临时ID来识别用户,例如,当用户浏览网页时,在该用户的COOKIE中赋予该用户一个临时ID,并以该临时ID来识别用户。0031所述网络设备将获取的用户的相关信息记录在用户相关信息库中,所述用户相关信息库存储在所述计算机网络的一个或多个设备中。所述网络设备获取用户相关信息的方式有多种,例如,当用户申请成为与所述网络设备具。

19、有关联的网站的注册会员时,会填写注册信息,由此,所述网络设备可以从该用户递交的注册信息中获取用户相关信息。再比如,用户在与所述网络设备具有关联的网站购物时,会留下购物信息,所述网络设备由此可以获取购物信息并进行分析以建立或调整该用户的个人属性信息。再比如,用户方位提供网页的服务器时,提供网页的服务器会在COOKIE中留下临时的用户相关信息。因此,所述网络设备可从COOKIE中获取用户相关信息。再比如,对于用户兴趣点的关键词,所述网络设备可以通过分析用户在提供搜索服务的搜索栏中输入的问讯信息QUERY来得到,比如,用户输入我要参观世博园,由此,可分析出用户兴趣点的关键词是“世博园”。总之,上述各。

20、列示仅是为了更好的说明本发明的方案,而非用于限制本发明。0032接着,在步骤S2中,所述网络设备将所获取的多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中,其中每个服务器获得至少两个待聚类的用户的相关信息。0033例如,所述网络设备获得了待聚类的用户A至用户E的用户相关信息,将该些待聚类的用户的相关信息复制N份后分发至服务器4至服务器6中。其中,复制的份数N大于或等于2,具体可以根据服务器的处理能力来确定,较佳的,复制的份数N小于服务器的数量。0034所述网络设备在分发过程中可采用随机分发的方式,例如,将所述用户的相关信息随机分发至各个服务器中等,也可采用指定分发。

21、的方式,例如,指定一部分用户的相关信息分发至一部分服务器中,另一部分用户的相关信息分发至另一部分服务器中等。0035此外,复制的过程和分发的过程包括但不限于00361网络设备将所有待聚类的用户的相关信息复制N份后,再分发至各服务器;0037以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例,所述网络设备将待聚类的用户A至用户E的相关信息都复制了N份后,再分发至服务器4至服务器6中;说明书CN102063458ACN102063468A4/12页80038其中,作为一个优选方式,每个用户的N份相关信息分发至不同的服务器中;00392所述网络设备复制了部分待聚类的用户的相。

22、关信息后对已复制的用户的相关信息进行分发,然后再复制,再分发,如此反复;0040例如,以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例,所述网络设备复制了用户A和用户B的相关信息后,先将用户A和用户B的相关信息分发至服务器,随后再复制用户C的相关信息,将用户C的相关信息分发后。再复制用户D和用户E的相关信息,再将用户D和用户E的相关信息分发至各服务器;00413所述网络设备每将一个用户的相关信息复制为N份,即将该N份用户的相关信息分发至不同的服务器中;0042例如,以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例,所述网络设备将用户A的信。

23、息复制了N份后,分发至不同的服务器中,然后,所述网络设备将用户A的信息复制了N份后,分发至不同的服务器中,重复上述步骤直至所有用户的相关信息均复制并分发完毕。0043其中,无论采用何种分发方式,所述网络设备在分发完成后,要使收到待聚类用户的相关信息的各服务器各自都获得至少两份或两份以上不同待聚类的用户的相关信息,以便各服务器各自进行用户聚类作业,并且,每个用户的相关信息N复制的份数可能不相同,如,对于用户A,N2,对于用户B,N3等。0044需要说明的是,上述举例仅为更好地说明本发明复制及分发用户的相关信息的方案,而非对本发明所做的限制,事实上,待聚类的用户数量相当庞大,上述举例列出五个用户,。

24、仅为说明方便起见,服务器的数量也并非以3个为限,事实上,服务器的数量应大于两个,但上不封顶。0045接着,在步骤S3中,网络设备获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子群进行合并,以获得合并后的最终的用户聚类子群。0046例如,以所述网络设备将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例,服务器4获得了待聚类的用户A、用户B和用户C的相关信息,经过聚类后获得的原始用户聚类子群CLASS1为A,B和C;服务器5获得了待聚类的用户A,用户D和用户E,经过聚类后获得的原始用户聚类子群CLASS2为A,D和。

25、E;服务器6获得了待聚类的用户B、用户C、用户D和用户E,经过聚类后获得的原始用户聚类子群CLASS3为C,D和B,E。各服务器进行聚类,可以根据各待聚类的用户相关信息的相似度来进行,例如,如果待聚类的用户A和用户B,都是女性,年龄都在40至50岁之间,都对世博园感兴趣,而待聚类的用户C是男性,年龄在40至50岁之间,其对足球感兴趣,如此,服务器4可根据待聚类的用户A、B、和C的相关信息的相似程度,将待聚类的用户A和用户B聚类,从而获得原始用户聚类子群CLASS1为A,B和C。本领域的技术人员应该理解,上述所述只是为了更好的说明本发明的技术方案,而非用于限制本发明。0047所述网络设备获取服务。

26、器4至服务器6各自所得到的各个原始用户聚类子群CLASS1、CLASS2及CLASS3,并对所述各个原始用户聚类子群进行合并,以获得合并后的最终的用户聚类子群。其中,所述合并方式包括但不限于1遍历合并;2分组合并等。后续将以举例的方式对各合并的方式进行具体说明。说明书CN102063458ACN102063468A5/12页90048图3为本发明一个优选实施例的在计算机网络的网络设备中进行用户聚类的方法的流程图。0049本实施例中的步骤S1及步骤S2已在参照图2所述的实施例中予以详述,在此以引用的方式包含,不再赘述。0050接着,在步骤S31中,所述网络设备获取各个服务器分别根据分发至该服务器。

27、的所述用户的相关信息进行聚类得到的各个原始用户聚类子群;0051随后,在步骤S32中,所述网络设备根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并,以获得所述最终的用户聚类子群。0052其中,所述拟合度可以根据参数来得到,所述参数至少包括以下一项00531合并后需删除的用户个数,例如,在将原始用户聚类子群CLASS1和CLASS2合并时,如果CLASS1中的A,B和CLASS2中的A,D合并,则合并为A,B,A,D,显然,需要删除一个待聚类用户A,据此可以得到拟合度为1,而如果CLASS1中的C和CLASS2中的A,D合并,则合并为A,C,D,显然没有需要。

28、删除用户,故据此可以得到拟合度为0。00542合并后被归为一类的用户的相似度,例如,所述网络设备在将来自服务器4、服务器5、和服务器6的原始用户聚类子群合并时,如果合并后结果可以是将待聚类的用户A、用户B和用户C归为一类,将待聚类的用户D和用户E归为一类,即归类为A,B,C和D,E;也可以是将待聚类的用户A、用户B和用户D归为一类,而将待聚类的用户C和用户E归为一类,即归类为A,B,D和C,E,如此,所述网络设备可以通过比较待聚类的用户A、用户B和用户C三者的相关信息的相似程度、与待聚类的用户A、用户B和用户D三者的相关信息的相似程度,来确定拟合度。比如,待聚类的用户A、用户B和用户C三者都是。

29、男性,都对足球感兴趣,而待聚类的用户D是女性,显然,待聚类的用户A、用户B和用户C三者的相似度高于待聚类的用户A、用户B和用户D三者的相似度,也就可以据此来确定待聚类的用户A、用户B和用户C三者的拟合度、和待聚类的用户A、用户B和用户D三者的拟合度。本领域技术人员应该理解,上述列示只是用作对拟合度的解释性说明,而非用于限制本发明,事实上,各待聚类的用户的相关信息并非以上述为限。0055优选地,在所述步骤S32中,所述网络设备以遍历的方式来对各原始用户,也就是所述网络设备根据拟合度,遍历合并所述各个原始用户聚类子群,以获得合并后的最终的用户聚类子群。例如,所述网络设备获得的原始用户聚类子群为CL。

30、ASS1、CLASS2、CLASS3、CLASSN,合并时,所述网络设备先将原始用户聚类子群CLASS1和原始用户聚类子群CLASS2合并,合并后的结果再与原始用户聚类子群CLASS3合并如此依序进行,直到完成和原始用户聚类子群CLASSN的合并为止。0056上述各用户聚类子群之间的合并依据拟合度进行,例如,在原始用户聚类子群CLASS1和原始用户聚类子群CLASS2合并时,假设原始用户聚类子群CLASS1包括子群单元CLASS_1_1A,C和子群单元CLASS_1_2D,E,原始用户聚类子群CLASS2包括子群单元CLASS_2_1A,B和子群单元CLASS_2_2E,如果CLASS_1_1。

31、和CLASS_2_1合并,CLASS_1_2和CLASS_2_2合并,拟合度用需要删除的用户个数来计算,则在这种合并方式中,CLASS_1_1和CLASS_2_1合并时需要删除一个用户A,而CLASS_1_2和CLASS_2_2合并时需要删除一个用户E,故此种合并方式的拟合度为2;如果CLASS_1_1和CLASS_2_2合说明书CN102063458ACN102063468A6/12页10并,CLASS_1_2和CLASS_2_1合并,则没有需要被删除的用户,故拟合度为0,所述网络设备根据所述拟合度,得到原始用户聚类子群CLASS1和原始用户聚类子群CLASS2合并结果为CLASS_X_1A。

32、,C,B,CLASS_X_2D,E。根据上述方法再将所述合并后的结果与下一个原始用户聚类子群合并,如此逐步进行,直到将最后一个原始用户聚类子群合并为止,由此完成遍历合并。此外,拟合度也可根据其他参数来确定,具体可参见前述参数的说明,在此不再赘述。0057优选地,在步骤S32中,合并可以分组的方式进行,请参阅图4,步骤S32进一步包括步骤S321、步骤S322及步骤S323。0058在步骤S321中,所述网络设备先将所述各个原始用户聚类子群划分成多组原始用户聚类子群,其中各组原始用户聚类子群包含至少两个原始用户聚类子群,例如,所述网络设备将获得的原始用户聚类子群CLASS1,CLASS2、CLA。

33、SS3、CLASSN两两分组,即原始用户聚类子群CLASS1和CLASS2一组、CLASS3和CLASS4一组,而如果原始用户聚类子群的数量为单数,则最后剩余的一个原始用户聚类子群可以并入已有的组中,也可以将其视为一组。本领域技术人员应该理解,分组方式并非以上述所述为限制,事实上,以3个或3个以上的原始用户聚类子群作为一组,或者每组所包含的原始用户聚类子群数量互不相同,都是可以的,具体可以根据所述网络设备的处理能力、或者所述网络设备包含的服务器数量来确定。0059接着,在步骤S322中,所述网络设备分别合并每组原始用户聚类子群中包含的原始用户聚类子群,以获得多个过渡用户聚类子群例如,所述网络设。

34、备根据拟合度将第一组原始用户聚类子群合并,合并后获得过渡用户聚类子群CLASS_X1,将第二组原始用户聚类子群合并,合并后获得过渡用户聚类子群CLASS_X2,如此,直到所述网络设备将所有组的原始用户聚类子群都合并。而如果采用两两分组,则可能因为总的原始用户聚类子群数量为单数而导致剩余一个原始用户聚类子群,则也可以在各组合并后,将其中一组的合并结果与该剩余的原始用户聚类子群合并,以便获得相应的过渡用户聚类子群。合并仍然可以根据拟合度来进行,具体可参见前述遍历合并中的说明,在此不再赘述。0060最后,在步骤S323中,所述网络设备合并所述多个过渡用户聚类子群,以获得所述最终的用户聚类子群。而所述。

35、网络设备在对获得的过渡用户聚类子群合并时,依然可以采用多种合并的方式,例如,采用前述遍历的方式,即先将第一个过渡用户聚类子群和第二个过渡用户聚类子群合并,合并后的结果再和后续的过渡用户聚类子群合并,如此依序进行,直到完成对最后一个过渡用户聚类子群的合并为止。此外,所述网络设备还可以再次采用分组的方式,即先将获得的各过渡用户聚类子群再分组,使各组包括至少两个过渡用户聚类子群,然后所述网络设备再对每一组进行合并,在获得了合并结果后再将各结果合并,如此持续进行,以便获得最终的用户聚类子群。0061需要说明的是,以上所述合并仅仅只是列示,而非用于限制本发明,事实上,合并可以仅以遍历的方式进行,也可以仅。

36、以分组的方式进行,只是,如果采用两两分组时,如果用户聚类子群为单数,则最后剩余的一用户聚类子群,可以放入已有的某一组中,也可以待某一组的用户聚类子群合并后,将该剩余的一用户聚类子群与之再合并,本领域的技术人员应该理解,对剩余的该组原始用户聚类子群的处理方式并非以上述为限,事实上,其也可等到要进行最终的合并时再来处理。此外,合并的方式还可以组合的方式进行,即可以以遍说明书CN102063458ACN102063468A7/12页11历和方组相结合的方式进行,例如,先将各原始用户聚类子群分组,然后对每一组合并后获得各过渡用户聚类子群,再以遍历方式将各过渡用户聚类子群合并,以获得最终的用户聚类子群,。

37、也可以在获得各过渡用户聚类子群后,再对各过渡用户聚类子群分组,然后再对每一过渡用户聚类子群组合并,对合并后的结果再以遍历方式合并。总之,本领域技术人员应该理解,合并的方式是可以多种多样的,并非以上述所述为限,事实上,可以在分组一次后即采用遍历方式合并,也可以在分组多次后再采用遍历方式合并等。0062作为本发明的另一个优选实施例,在步骤S32中,所述网络设备还可以结合拟合度及第一预定规则,将各个用户聚类子群进行合并,以获得最终的用户聚类子群。其中,所述第一预定规则包括但不限于以下至少一项00631当拟合度相同,选择合并后用户分布最均匀的合并方案。例如,将第一组的原始用户聚类子群中的子群单元CLA。

38、SS_1_1A,B和子群单元CLASS_1_2D与第二组的原始用户聚类子群中的子群单元CLASS_2_1B,D和子群单元CLASS_2_2C,E,F合并,如果CLASS_1_1和CLASS_2_1合并、CLASS_1_2和CLASS_2_2合并,拟合度为1,合并后的结果是CLASS_X1_1A,B,D、CLASS_X1_2A,D,E,F;如果CLASS_1_1和CLASS_2_2合并、CLASS_1_2和CLASS_2_1合并,拟合度也为1,合并后的结果为CLASS_X2_1A,B,C,E,F、CLASS_X2_2B,D,显然,前者合并后的结果用户分布比后者的用户分布均匀,故所述网络设备根据拟。

39、合度和所述第一预定规则选择前一合并结果,也就是CLASS_X1_1A,B,D、CLASS_X1_2C,D,E,F。00642当一个用户存在于多个最终的用户聚类子群所包含的子群单元中时,将该用户保留在用户数最少的子群单元中,并在其他子群单元中删除该用户。例如,当所述网络设备获得的最终用户聚类子群包括子群单元A,B,D和子群单元A,C,F,H,I,可见用户A存在于两个子群单元中,而子群单元A,B,D的用户数少于子群单元A,C,F,H,I,则所述网络设备根据所述第一预定规则将子群单元A,C,F,H,I中的用户A删除。0065作为本发明的又一个优选实施例,所述网络设备在合并完成,获得了最终的用户聚类子。

40、群后,可以据此建立用户子群库。而如果随后所述网络设备又获取了大量待聚类的用户的相关信息,所述网络设备可以再次在计算机网络中对所有已聚类及未聚类的用户进行重新聚类,并根据再次聚类后的结果对所建立的用户子群库进行更新。0066图5示出了本发明一个方面的在计算机网络中进行用户聚类的网络设备的结构示意图。本实施例中,网络设备包括第一获取装置1、分发装置2及第一合并装置3。0067第一获取装置1获取多个待聚类的用户的相关信息。其中,所述用户的相关信息包括但不限于1用户的个人属性,例如,用户的年龄、性别、职业、教育程度、消费能力等等;2用户的历史行为,例如,点击广告的记录的行为、浏览记录的行为等;3表示用。

41、户兴趣点的关键词等,例如,用户的历史查询词,及根据所述历史查询词进行过滤、分词、拓展得到的关键词。其中,所述用户的个人属性可通过用户主动提供的信息或根据用户的访问查询行为推测得到。0068其中,第一获取装置1可通过多种方式来识别用户,其识别方式包括但不限于1通过用户的注册信息来识别用户;2通过用户进行浏览操作时,在用户COOKIE中记录的临时ID来识别用户,例如,当用户浏览网页时,在该用户的COOKIE中赋予该用户一个临时ID,并以该临时ID来识别用户。说明书CN102063458ACN102063468A8/12页120069第一获取装置1将获取的用户的相关信息记录在用户相关信息库中,所述用。

42、户相关信息库存储在所述计算机网络的一个或多个设备中。第一获取装置1获取用户相关信息的方式有多种,例如,当用户申请成为与所述网络设备具有关联的网站的注册会员时,会填写注册信息,由此,第一获取装置1可以从该用户递交的注册信息中获取用户相关信息。再比如,用户在与所述网络设备具有关联的网站购物时,会留下购物信息,第一获取装置1由此可以获取购物信息并进行分析以建立或调整该用户的个人属性信息。再比如,用户方位提供网页的服务器时,提供网页的服务器会在COOKIE中留下临时的用户相关信息,因此,第一获取装置1可从COOKIE中获取用户相关信息。再比如,对于用户兴趣点的关键词,第一获取装置1可以通过分析用户在提。

43、供搜索服务的搜索栏中输入的问讯信息QUERY来得到,比如,用户输入我要参观世博园,由此,可分析出用户兴趣点的关键词是“世博园”。总之,上述各列示仅是为了更好的说明本发明的方案,而非用于限制本发明。0070分发装置2将所获取的多个待聚类的用户的相关信息分别复制成多份并分发至所述计算机网络中的多个服务器中,其中每个服务器获得至少两个待聚类的用户的相关信息。0071例如,第一获取装置1获得了待聚类的用户A至用户E的用户相关信息,分发装置2将该些待聚类的用户的相关信息复制N份后分发至服务器4至服务器6中。其中,复制的份数N大于或等于2,具体可以根据服务器的处理能力来确定,较佳的,复制的份数N小于服务器。

44、的数量。0072分发装置2在分发过程中可采用随机分发的方式,例如,将所述用户的相关信息随机分发至各个服务器中等,也可采用指定分发的方式,例如,指定一部分用户的相关信息分发至一部分服务器中,另一部分用户的相关信息分发至另一部分服务器中等。0073此外,复制的过程和分发的过程包括但不限于00741分发装置2将所有待聚类的用户的相关信息复制N份后,再分发至各服务器;0075以分发装置2将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例,分发装置2将待聚类的用户A至用户E的相关信息都复制了N份后,再分发至服务器4至服务器6中;0076其中,作为一个优选方式,每个用户的N份相关信息分发至不同。

45、的服务器中;00772分发装置2复制了部分待聚类的用户的相关信息后对已复制的用户的相关信息进行分发,然后再复制,再分发,如此反复;0078例如,以分发装置2将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例,分发装置2复制了用户A和用户B的相关信息后,先将用户A和用户B的相关信息分发至服务器,随后再复制用户C的相关信息,将用户C的相关信息分发后,再复制用户D和用户E的相关信息,再将用户D和用户E的相关信息分发至各服务器;00793分发装置2每将一个用户的相关信息复制为N份,即将该N份用户的相关信息分发至不同的服务器中;0080例如,以所述分发装置2将待聚类的用户A至用户E的相关信息。

46、分发至服务器4至服务器6为例,分发装置2将用户A的信息复制了N份后,分发至不同的服务器中,然后,分发装置2将用户A的信息复制了N份后,分发至不同的服务器中,重复上述步骤直至所有用户的相关信息均复制并分发完毕。说明书CN102063458ACN102063468A9/12页130081其中,无论采用何种分发方式,所述网络设备在分发完成后,要使收到待聚类用户的相关信息的各服务器各自都获得至少两份或两份以上不同待聚类的用户的相关信息,以便各服务器各自进行用户聚类作业,并且,每个用户的相关信息N复制的份数可能不相同,如,对于用户A,N2,对于用户B,N3等。0082需要说明的是,上述举例仅为更好地说明。

47、本发明复制及分发用户的相关信息的方案,而非对本发明所做的限制,事实上,待聚类的用户数量相当庞大,上述举例列出五个用户,仅为说明方便起见,服务器的数量也并非以3个为限,事实上,服务器的数量应大于两个,但上不封顶。0083第一合并装置3获取所述多个服务器分别对分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群,并对所述各个原始用户聚类子群进行合并,以获得合并后的最终的用户聚类子群。0084例如,以分发装置2将待聚类的用户A至用户E的相关信息分发至服务器4至服务器6为例,服务器4获得了待聚类的用户A、用户B和用户C的相关信息,经过聚类后获得的原始用户聚类子群CLASS1为A,B和C。

48、;服务器5获得了待聚类的用户A、用户D和用户E,经过聚类后获得的原始用户聚类子群CLASS2为A,D和E;服务器6获得了待聚类的用户B、用户C、用户D和用户E,经过聚类后获得的原始用户聚类子群CLASS3为C,D和B,E。各服务器进行聚类,可以根据各待聚类的用户相关信息的相似度来进行,例如,如果待聚类的用户A和用户B,都是女性,年龄都在40至50岁之间,都对世博园感兴趣,而待聚类的用户C是男性,年龄在40至50岁之间,其对足球感兴趣,如此,服务器4可根据待聚类的用户A、B、和C的相关信息的相似程度,将待聚类的用户A和用户B聚类,从而获得原始用户聚类子群CLASS1为A,B和C。本领域的技术人员。

49、应该理解,上述所述只是为了更好的说明本发明的技术方案,而非用于限制本发明。0085第一合并装置3获取服务器4至服务器6各自所得到的各个原始用户聚类子群CLASS1、CLASS2及CLASS3,并对所述各个原始用户聚类子群进行合并,以获得合并后的最终的用户聚类子群。其中,所述合并方式包括但不限于1遍历合并;2分组合并等。后续将以举例的方式对各合并的方式进行具体说明。0086图6示出了本发明一个优选实施例的在计算机网络中进行用户聚类的网络设备的结构示意图。在本实施例中,所述网络设备包括第一获取装置1、分发装置2及第一合并装置3,其中,所述第一合并装置3进一步包括第二获取装置31及第二合并装置32。0087本实施例中的第一合并装置3及分发装置2已在参照图5所述的实施例中予以详述,在此以引用的方式包含,不再赘述。0088第二获取装置31获取各个服务器分别根据分发至该服务器的所述用户的相关信息进行聚类得到的各个原始用户聚类子群;0089第二合并装置32根据所述各个原始用户聚类子群之间各种合并方式的拟合度将所述各个原始用户聚类子群进行合并,以获得所述最终的用户聚类子群。0090其中,所述拟合度可以根据参数来得到,所述参数至少包括以下一项00911合并后需删除的用户个数,例如,第二合并装置32在将原始用户聚类子群CLASS1和CLASS2合并时,如果CLA。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1