《一种样本属性的动态分布数据获取方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种样本属性的动态分布数据获取方法及系统.pdf(28页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104133824A43申请公布日20141105CN104133824A21申请号201310351587622申请日20130813G06F17/3020060171申请人腾讯科技(深圳)有限公司地址518000广东省深圳市福田区振兴路赛格科技园2栋东403室72发明人张尚良王旭新74专利代理机构深圳市深佳知识产权代理事务所普通合伙44285代理人唐华明54发明名称一种样本属性的动态分布数据获取方法及系统57摘要本发明实施例提供一种样本属性的动态分布数据获取方法及系统,其中方法可以包括获取大规模样本中的任一样本的样本属性;确定所获取的样本属性在预先维持的样本属性队列中的更。
2、新位置,在所述更新位置上更新入所获取的样本属性;保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。本发明实施例基于简单随机抽样原理,只需维持长度为N的样本属性队列即可得到样本属性的动态分布数据,减小了样本属性的动态分布数据获取的计算量。51INTCL权利要求书3页说明书16页附图8页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书16页附图8页10申请公布号CN104133824A。
3、CN104133824A1/3页21一种样本属性的动态分布数据获取方法,其特征在于,包括获取大规模样本中的任一样本的样本属性;确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。2根据权利要求1所述的方法,其特征在于,所述确定所获取的样本属性在预先维持的样本属性队列中的更新位置包括判断所获取的样本属性对应的。
4、样本与所述样本属性队列所对应的样本是否相匹配;若所获取的样本属性对应的样本与所述样本属性队列所对应的样本相匹配,则确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置;若所获取的样本属性对应的样本与所述样本属性队列所对应的样本不相匹配,则根据所获取的样本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置。3根据权利要求2所述的方法,其特征在于,在所获取的样本属性对应的样本与所述样本属性队列所对应的样本相匹配时,所述在所述更新位置上更新入所获取的样本属性包括将所述样本属性队列中与所获取的样本属性对应的样本的位置上的样本属性替换为所获取的样本属性;所述保持所述样本属性。
5、队列中的样本属性的有序排列包括根据所述更新位置上所更新的样本属性,调整所述样本属性队列中样本属性的排列顺序,以保持所述样本属性队列中的样本属性的有序排列。4根据权利要求2所述的方法,其特征在于,所述根据所获取的样本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置包括判断所述样本属性队列的长度是否达到设定数值N;若所述样本属性队列的长度达到设定数值N,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间,确定所述样本属性队列中样本属性小于所获取的样本属性的最大样本属性,及样本属性不小于所获取的样本属性的最小样本属性,等概率随机的将所述最大样本属性或最小样本属性。
6、对应的位置确定为所述更新位置;若所述样本属性队列的长度达到设定数值N,且所获取的样本属性小于所述样本属性队列中存储的样本属性的最小值,则等概率随机的将所述最小值的位置确定为所述更新位置或剔除所获取的样本属性;若所述样本属性队列的长度达到设定数值N,且所获取的样本属性大于所述样本属性队列中存储的样本属性的最大值,则等概率随机的将所述最大值的位置确定为所述更新位置或剔除所获取的样本属性;若所述样本属性队列的长度未达到设定数值N,则比对所获取的样本属性与样本属性队列中存储的样本属性的大小,通过所比对的所获取的样本属性与样本属性队列中存储的样本属性的大小,确定所获取的样本属性在所述样本属性队列中的更新。
7、位置。权利要求书CN104133824A2/3页35根据权利要求4所述的方法,其特征在于,在所述样本属性队列的长度达到设定数值N,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间时,所述将所述更新位置上的样本属性更新为所获取的样本属性包括等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性;所述保持所述样本属性队列中的样本属性的有序排列包括在随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态。6根据权利要求4所述的方法,其特征在于,在所述样本属性队列的。
8、长度未达到设定数值N时,所述将所述更新位置上的样本属性更新为所获取的样本属性包括在所述更新位置上写入所获取的样本属性,以增长样本属性队列的长度;所述保持所述样本属性队列中的样本属性的有序排列包括在所述更新位置上写入所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态。7一种样本属性的动态分布数据获取系统,其特征在于,包括获取模块,用于获取大规模样本中的任一样本的样本属性;更新位置确定模块,用于确定所获取的样本属性在预先维持的样本属性队列中的更新位置;更新模块,用于在所述更新位置确定模块所确定的更新位置上更新入所获取的样本属性;排列保持模块,用于在所述更新位置上更新入所获取的样本属。
9、性后,保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。8根据权利要求7所述的系统,其特征在于,所述更新位置确定模块包括第一判断单元,用于判断所获取的样本属性对应的样本与所述样本属性队列所对应的样本是否相匹配;第一确定单元,用于在所述第一判断单元的判断结果为是时,确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置;第二确定单元,用于在所述第一判断单元的判断结果为否时,根据所获取的样。
10、本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置。9根据权利要求8所述的系统,其特征在于,在所述第一确定单元确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置的状态下,所述更新模块包括第一更新单元,用于将所述样本属性队列中与所获取的样本属性对应的样本的位置上的样本属性替换为所获取的样本属性;所述排列保持模块包括第一排列保持单元,用于根据所述更新位置上所更新的样本属性,调整所述样本属性权利要求书CN104133824A3/3页4队列中样本属性的排列顺序,以保持所述样本属性队列中的样本属性的有序排列。10根据权利要求8所述的系统,其特征在于,所述第二确定单元包括。
11、队列长度判断子单元,用于判断所述样本属性队列的长度是否达到设定数值N;第一更新位置确定子单元,用于在所述队列长度判断子单元的判断结果为是,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间时,确定所述样本属性队列中样本属性小于所获取的样本属性的最大样本属性,及样本属性不小于所获取的样本属性的最小样本属性,等概率随机的将所述最大样本属性或最小样本属性对应的位置确定为所述更新位置;第二更新位置确定子单元,用于在所述队列长度判断子单元的判断结果为否时,比对所获取的样本属性与样本属性队列中存储的样本属性的大小,通过所比对的所获取的样本属性与样本属性队列中存储的样本属性的大小,确。
12、定所获取的样本属性在所述样本属性队列中的更新位置;在所述第一更新位置确定子单元确定更新位置的状态下,所述更新模块包括第二更新单元;所述排列保持模块包括第二排列保持单元;在所述第二更新位置确定子单元确定更新位置的状态下,所述更新模块包括第三更新单元;所述排列保持模块包括第三排列保持单元;其中,所述第二更新单元,用于在所述第一更新位置确定子单元确定更新位置后,等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性;所述第二排列保持单元,用于在等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性后,确定所述样本属性队列中的样本属性。
13、为有序排列状态;所述第三更新单元,用于在所述第二更新位置确定子单元确定更新位置后,在所述更新位置上写入所获取的样本属性,以增长样本属性队列的长度;所述第三排列保持单元,用于在所述更新位置上写入所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态。权利要求书CN104133824A1/16页5一种样本属性的动态分布数据获取方法及系统技术领域0001本发明涉及数据处理技术领域,更具体地说,涉及一种样本属性的动态分布数据获取方法及系统。背景技术0002样本属性是指样本中具有统计价值且处于动态变化的属性,样本属性可以如用户手机的流量,农林养殖中的样本(样本可如鸡、鸭、猪等家禽)体重,游戏。
14、中玩家的战斗力等;对应的样本则为用户手机,农林养殖中的样本,游戏中的玩家等。目前,当存在大规模的样本时,获取大规模样本的样本属性的动态分布数据成为一个困扰技术人员的问题,样本属性的动态分布数据是指大规模样本中各样本的样本属性的动态分布情况,比如某一区域(如某市,某基站)内的用户手机的流量使用情况,某一游戏中的玩家的战斗力分布情况等。通过获取样本属性的动态分布数据,可以直观的了解大规模样本中的样本状况,比如通过获取某一区域内的用户手机的使用流量,可以直观的了解该区域内各用户手机的流量使用情况,从而为该区域内的基站建设、信道优化提供指导意见等;又如通过获取农林养殖中的家禽的体重,可以直观的了解所养。
15、家禽的体重情况,从而进行养殖策略的调整等。0003目前,大规模样本中各样本的样本属性一般会定期更新后存储在数据库中,为获取样本属性的动态分布数据,服务器一般会定时遍历数据库,读取数据库中所有样本的样本属性,从而整理得到大规模样本的样本属性的动态分布数据。本发明的发明人在研究和实践过程中发现,现有技术至少存在以下的技术问题现有技术需要遍历数据库,读取数据库中所有样本的样本属性才能得到样本属性的动态分布数据,所需要的计算量较大,样本属性的动态分布数据的获取较为费时。发明内容0004有鉴于此,本发明实施例提供一种样本属性的动态分布数据获取方法及系统,以解决现有样本属性的动态分布数据的获取方式的计算量。
16、较大,较为费时的问题。0005为实现上述目的,本发明实施例提供如下技术方案0006一种样本属性的动态分布数据获取方法,包括0007获取大规模样本中的任一样本的样本属性;0008确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;0009保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;0010其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。0011其中,所述确定所获取的样本属性在预先维持的样本属性队列中。
17、的更新位置包说明书CN104133824A2/16页6括0012判断所获取的样本属性对应的样本与所述样本属性队列所对应的样本是否相匹配;0013若所获取的样本属性对应的样本与所述样本属性队列所对应的样本相匹配,则确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置;0014若所获取的样本属性对应的样本与所述样本属性队列所对应的样本不相匹配,则根据所获取的样本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置。0015其中,在所获取的样本属性对应的样本与所述样本属性队列所对应的样本相匹配时,所述在所述更新位置上更新入所获取的样本属性包括0016将所述样本属性队列中与。
18、所获取的样本属性对应的样本的位置上的样本属性替换为所获取的样本属性;0017所述保持所述样本属性队列中的样本属性的有序排列包括0018根据所述更新位置上所更新的样本属性,调整所述样本属性队列中样本属性的排列顺序,以保持所述样本属性队列中的样本属性的有序排列。0019其中,所述根据所获取的样本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置包括0020判断所述样本属性队列的长度是否达到设定数值N;0021若所述样本属性队列的长度达到设定数值N,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间,确定所述样本属性队列中样本属性小于所获取的样本属性的最大样本属性。
19、,及样本属性不小于所获取的样本属性的最小样本属性,等概率随机的将所述最大样本属性或最小样本属性对应的位置确定为所述更新位置;0022若所述样本属性队列的长度达到设定数值N,且所获取的样本属性小于所述样本属性队列中存储的样本属性的最小值,则等概率随机的将所述最小值的位置确定为所述更新位置或剔除所获取的样本属性;0023若所述样本属性队列的长度达到设定数值N,且所获取的样本属性大于所述样本属性队列中存储的样本属性的最大值,则等概率随机的将所述最大值的位置确定为所述更新位置或剔除所获取的样本属性;0024若所述样本属性队列的长度未达到设定数值N,则比对所获取的样本属性与样本属性队列中存储的样本属性的。
20、大小,通过所比对的所获取的样本属性与样本属性队列中存储的样本属性的大小,确定所获取的样本属性在所述样本属性队列中的更新位置。0025其中,在所述样本属性队列的长度达到设定数值N,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间时,所述将所述更新位置上的样本属性更新为所获取的样本属性包括0026等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性;0027所述保持所述样本属性队列中的样本属性的有序排列包括0028在随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性后,确定所述样本属性队列中的样本属性为有。
21、序排列状态。说明书CN104133824A3/16页70029其中,在所述样本属性队列的长度未达到设定数值N时,所述将所述更新位置上的样本属性更新为所获取的样本属性包括0030在所述更新位置上写入所获取的样本属性,以增长样本属性队列的长度;0031所述保持所述样本属性队列中的样本属性的有序排列包括0032在所述更新位置上写入所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态。0033本发明实施例还提供一种样本属性的动态分布数据获取系统,包括0034获取模块,用于获取大规模样本中的任一样本的样本属性;0035更新位置确定模块,用于确定所获取的样本属性在预先维持的样本属性队列中的更。
22、新位置;0036更新模块,用于在所述更新位置确定模块所确定的更新位置上更新入所获取的样本属性;0037排列保持模块,用于在所述更新位置上更新入所获取的样本属性后,保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;0038其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。0039其中,所述更新位置确定模块包括0040第一判断单元,用于判断所获取的样本属性对应的样本与所述样本属性队列所对应的样本是否相匹配;0041第一确定单元,用于在所述第一判断单元的判。
23、断结果为是时,确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置;0042第二确定单元,用于在所述第一判断单元的判断结果为否时,根据所获取的样本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置。0043其中,在所述第一确定单元确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置的状态下,所述更新模块包括0044第一更新单元,用于将所述样本属性队列中与所获取的样本属性对应的样本的位置上的样本属性替换为所获取的样本属性;0045所述排列保持模块包括0046第一排列保持单元,用于根据所述更新位置上所更新的样本属性,调整所述样本属性队列中样本属性的排。
24、列顺序,以保持所述样本属性队列中的样本属性的有序排列。0047其中,所述第二确定单元包括0048队列长度判断子单元,用于判断所述样本属性队列的长度是否达到设定数值N;0049第一更新位置确定子单元,用于在所述队列长度判断子单元的判断结果为是,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间时,确定所述样本属性队列中样本属性小于所获取的样本属性的最大样本属性,及样本属性不小于所获取的样本属性的最小样本属性,等概率随机的将所述最大样本属性或最小样本属性对应的位置确定为所述更新位置;0050第二更新位置确定子单元,用于在所述队列长度判断子单元的判断结果为否时,说明书CN10。
25、4133824A4/16页8比对所获取的样本属性与样本属性队列中存储的样本属性的大小,通过所比对的所获取的样本属性与样本属性队列中存储的样本属性的大小,确定所获取的样本属性在所述样本属性队列中的更新位置;0051在所述第一更新位置确定子单元确定更新位置的状态下,所述更新模块包括第二更新单元;所述排列保持模块包括第二排列保持单元;0052在所述第二更新位置确定子单元确定更新位置的状态下,所述更新模块包括第三更新单元;所述排列保持模块包括第三排列保持单元;0053其中,所述第二更新单元,用于在所述第一更新位置确定子单元确定更新位置后,等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属。
26、性替换为所获取的样本属性;0054所述第二排列保持单元,用于在等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态;0055所述第三更新单元,用于在所述第二更新位置确定子单元确定更新位置后,在所述更新位置上写入所获取的样本属性,以增长样本属性队列的长度;0056所述第三排列保持单元,用于在所述更新位置上写入所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态。0057基于上述技术方案,本发明实施例提供的样本属性的动态分布数据获取方法基于简单随机抽样原理,根据样本和总体(大规模样本)服从同一分布的。
27、原理,即从大规模样本中抽出N个样本组成的样本属性队列所反映的样本属性分布情况,与大规模样本整体的样本属性分布情况服从于同一分布,因此可通过样本属性队列的样本属性分布情况反映大规模样本整体的样本属性分布情况;在此基础上,本发明实施例维持一个长度为N的样本属性进行有序排列的样本属性队列,N小于大规模样本中的总样本数,从大规模样本中获取任一样本的样本属性,确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;保持所述样本属性队列中的样本属性的有序排列,从而得到反映大规模样本整体的样本属性分布情况的样本属性的动态分布数据。相比现有技术需要遍历数据库,读取数据。
28、库中所有样本的样本属性才能得到样本属性的动态分布数据的方式,本发明实施例基于简单随机抽样原理,只需维持长度为N的样本属性队列即可得到样本属性的动态分布数据,减小了样本属性的动态分布数据获取的计算量,可以及时的获取样本属性的动态分布数据。附图说明0058为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0059图1为本发明实施例提供的一种样本属性的动态分布数据获取方法的流程图;0060图2为本发明。
29、实施例提供的样本属性队列的结构图;0061图3为本发明实施例提供的一种样本属性的动态分布数据获取方法的另一流程说明书CN104133824A5/16页9图;0062图4为本发明实施例提供的样本属性的动态分布数据获取方法的又一流程图;0063图5为本发明实施例提供的样本属性的动态分布数据获取方法的再一流程图;0064图6为本发明实施例提供的某款游戏的玩家战斗力队列的数据图;0065图7为本发明实施例提供的某款游戏的玩家战斗力队列的另一数据图;0066图8为本发明实施例提供的样本属性的动态分布数据获取系统的结构框图;0067图9为本发明实施例提供的更新位置确定模块的结构框图;0068图10为本发明。
30、实施例提供的更新模块的结构框图;0069图11为本发明实施例提供的排列保持模块的结构框图;0070图12为本发明实施例提供的第二确定单元的结构框图;0071图13为本发明实施例提供的更新模块的另一结构框图;0072图14为本发明实施例提供的排列保持模块的另一结构框图;0073图15为本发明实施例提供的更新模块的又一结构框图;0074图16为本发明实施例提供的排列保持模块的又一结构框图;0075图17为本发明实施例提供的服务器的硬件结构图。具体实施方式0076为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描。
31、述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0077图1为本发明实施例提供的一种样本属性的动态分布数据获取方法的流程图,该方法应用于服务器,该服务器能够进行数据处理从而得到样本属性的动态分布数据,参照图1,该方法可以包括0078步骤S100、获取大规模样本中的任一样本的样本属性;0079可选的,本发明实施例可在大规模样本的任一样本的样本属性发生变更时,将变更后的样本属性发送给服务器,从而使得服务器获取到大规模样本中的任一样本的样本属性;0080可选的,也可在大规模样本中的若。
32、干样本参与某一所有样本均可参与的模式时,将参与该模式的若干样本的各样本的样本属性上传给服务器,从而使得服务器获取到大规模样本中的任一样本的样本属性。值得注意的是,此处所指的模式可视样本应用领域的不同而进行变更,如样本为手机,样本属性为手机流量时,该模式可指使用手机流量登陆即时通讯软件的模式,则处于即时通讯软件登陆状态下的各手机将把手机流量上传给服务器;又如,样本为游戏中玩家,样本属性为游戏中玩家的战斗力时,该模式则可指所有玩家均可使用战斗力参与的玩法,则处于所有玩家均可使用战斗力参与的玩法下的各玩家的战斗力将上传给服务器。0081可选的,随同样本属性上传至服务器的数据还可以有样本标识,样本标识。
33、与样本属性相对应,比如上传至服务器的样本属性为手机流量时,样本标识可以为手机标识,服务器所获取的手机标识与手机流量对应,以表示该手机流量为该手机标识对应的手机所使用说明书CN104133824A6/16页10的;又如上传至服务器的样本属性为玩家战斗力时,样本标识可以为玩家ID,服务器所获取的玩家战斗力与玩家ID对应,以表示该玩家战斗力为该玩家ID对应的玩家所拥有。0082步骤S110、确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;0083在本发明实施例中,服务器中预先维持有样本属性队列,样本属性队列中存储有大规模样本中的样本的样本属性,在该样。
34、本属性队列中样本属性按属性的大小由从大到小,或从小到大的顺序有序排列,样本属性队列的长度为设定的数值N,数值N小于大规模样本中的总样本数,即样本属性队列中存储的样本总数为N,且小于大规模样本中的总样本数。0084可选的,在本发明实施例中,样本属性队列中存储有样本属性及与样本属性对应的样本标识;样本标识可用于表示样本属性对应的样本,因此可采用样本标识对样本属性队列中的各样本属性所归属的样本进行区分。图2示出了样本属性队列的一种可选结构,参照图2,样本属性队列可以具有N个位置,各个位置上存储有1个样本属性及对应的样本标识,如位置1上可以存储样本属性1及对应的样本标识1,位置2上可以存储样本属性2及。
35、对应的样本标识2,以此类推。0085值得注意的是,本发明实施例在更新位置上更新入所获取的样本属性的同时,还需要在更新位置上更新入所获取的样本属性对应的样本标识。0086步骤S120、保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据。0087在本发明实施例中,更新位置是指所获取的样本属性写入样本属性队列中的位置;需要注意的是,更新位置仅是所获取的样本属性在样本属性队列中的写入位置,其不是所获取的样本属性在样本属性队列中的最终位置,由于样本属性队列中的样本属性需要保持有序的排列,因此在所获取的样本属性写入更新位置后,若样本属性队列中的样本属性并不是处于有序排列状态,则需要调整。
36、样本属性队列中的样本属性的位置,以保持样本属性队列中的样本属性的有序排列,才可得到最终的样本属性的动态分布数据;若在所获取的样本属性写入更新位置后,样本属性队列中的样本属性保持为有序排列状态,则不需要再对样本属性队列中的样本属性的位置进行调整,在更新位置写入所获取的样本属性后得到的样本属性队列,即可反映样本属性的动态分布数据。0088本发明实施例提供的样本属性的动态分布数据获取方法基于简单随机抽样原理,根据样本和总体(大规模样本)服从同一分布的原理,即从大规模样本中抽出N个样本组成的样本属性队列所反映的样本属性分布情况,与大规模样本整体的样本属性分布情况服从于同一分布,因此可通过样本属性队列的。
37、样本属性分布情况反映大规模样本整体的样本属性分布情况;在此基础上,本发明实施例维持一个长度为N的样本属性进行有序排列的样本属性队列,N小于大规模样本中的总样本数,从大规模样本中获取任一样本的样本属性,确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;保持所述样本属性队列中的样本属性的有序排列,从而得到反映大规模样本整体的样本属性分布情况的样本属性的动态分布数据。相比现有技术需要遍历数据库,读取数据库中所有样本的样本属性才能得到样本属性的动态分布数据的方式,本发明实施例基于简单随机抽样原理,只需维持长度为N的样本属性队列即可得到样本属性的说明书CN。
38、104133824A107/16页11动态分布数据,减小了样本属性的动态分布数据获取的计算量,可以及时的获取样本属性的动态分布数据。0089在本发明实施例中,所获取的样本属性与样本属性队列的关系主要有三种情况第一种为,所获取的样本属性对应的样本在样本属性队列中存储有旧的样本属性,可使用所获取的样本属性对样本属性队列中的该旧样本属性进行更新;第二种为,所获取的样本属性对应的样本未在样本属性队列中存储有旧的样本属性,且样本属性队列的长度还未达到设定值N,则可将所获取的样本属性插入到样本属性队列中,以增加样本属性队列的长度,同时保持样本属性队列中样本属性的有序排列,直至样本属性队列的长度达到设定值N。
39、;第三种为,所获取的样本属性对应的样本未在样本属性队列中存储有旧的样本属性,且样本属性队列的长度达到设定值N,此时,可从样本属性队列中选择与所获取的样本属性的大小相近的样本属性,等概率随机地将该所选择的样本属性对应的位置上的样本属性替换为所获取的样本属性。对应的,针对上述三种情况,图3示出了本发明实施例提供的一种样本属性的动态分布数据获取方法的另一流程,参照图3,该方法可以包括0090步骤S200、获取大规模样本中的任一样本的样本属性;0091可选的,随同样本属性一同获取的数据还可以有样本属性对应的样本标识。0092步骤S210、判断所获取的样本属性对应的样本是否与预先维持的样本属性队列所对应。
40、的样本相匹配,若是,执行步骤S220,若否,执行步骤S240;0093可选的,本发明实施例中样本属性队列存储有样本属性及样本属性对应的样本标识。步骤S210在具体实现上可以如下将所获取的样本属性对应的样本标识,与样本属性队列中存储的样本标识进行比对,若所获取的样本属性对应的样本标识与样本属性队列中存储的样本标识相匹配,则可确定所获取的样本属性对应的样本与预先维持的样本属性队列所对应的样本相匹配,即样本属性队列中存储有与所获取的样本属性对应的样本的旧样本属性;若所获取的样本属性对应的样本标识与样本属性队列中存储的样本标识不匹配,则可确定所获取的样本属性对应的样本不与预先维持的样本属性队列所对应的。
41、样本相匹配,即样本属性队列中未存储有所获取的样本属性对应的样本的旧样本属性。0094步骤S220、确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置,将所述更新位置上的旧样本属性替换为所获取的样本属性;0095由于样本属性队列中存储有与所获取的样本属性对应的样本的旧样本属性,因此步骤S220中所指的更新位置为旧样本属性对应的位置,即样本属性队列中与所获取的样本属性对应的样本的位置为,与所获取的样本属性对应的样本的旧样本属性所存储的位置,在该旧样本属性所存储的位置上将旧样本属性替换为所获取的样本属性。0096设所获取的样本属性为D;AN2、AN1、AN和AN1为样本属性队列中。
42、的样本属性,若D对应的样本与AN对应的样本一致,即随同D上传至服务器的样本标识,与样本属性队列中存储的AN对应的样本标识一致时,AN在样本属性队列中的位置即为D的更新位置,在AN所在样本属性队列中的位置上,将AN替换为D。0097值得注意的是,在更新位置上将旧样本属性替换为所获取的样本属性的同时,还需在更新位置上将旧样本属性对应的样本标识替换为所获取的样本属性对应的样本标识。0098步骤S230、根据所述更新位置上所更新的样本属性,调整所述样本属性队列中样本属性的排列顺序,以保持所述样本属性队列中的样本属性的有序排列;说明书CN104133824A118/16页120099由于步骤S220仅是。
43、在与所获取的样本属性对应的样本的旧样本属性所存储的位置上,将旧样本属性替换为所获取的样本属性,因此无法保证替换了所获取的样本属性的样本属性队列中的样本属性能够保持有序的排列,此时需要根据样本属性队列中样本属性的大小对各样本属性的排列顺序进行调整,以保持样本属性队列中的样本属性的有序排列。在具体实现上,可将更新位置上所更新的样本属性(即所获取的样本属性)与样本属性队列中的其他样本属性进行比较,从而通过比对的样本属性的大小安排样本属性队列中的样本属性的排列序位,从而保证样本属性队列中的样本属性的有序排列。0100步骤S240、判断所述样本属性队列的长度是否达到设定数值N,若是,执行步骤S250,若。
44、否,执行步骤S290;0101步骤S250、判断所获取的样本属性是否介于所述样本属性队列中存储的样本属性的最大值和最小值之间,若是,执行步骤S260,若否,执行步骤S280;0102步骤S260、确定所述样本属性队列中样本属性小于所获取的样本属性的最大样本属性,及样本属性不小于所获取的样本属性的最小样本属性,等概率随机的将所述最大样本属性或最小样本属性对应的位置确定为所述更新位置;0103由于样本属性队列的长度达到设定数值N,且所获取的样本属性不小于所述样本属性队列中存储的某一样本属性,则可确定所获取的样本属性可以替换样本属性队列中存储的某一样本属性。设所获取的样本属性为D,AN2、AN1、A。
45、N和AN1为样本属性队列中的样本属性,若通过比对所获取的样本属性D的大小与样本属性队列中的其他样本属性的大小,可得出AN1DAN,则AN1为样本属性队列中样本属性小于D的最大样本属性,AN为样本属性队列中样本属性不小于D的最小样本属性,则可等概率随机的从AN1和AN的位置中选择一个作为更新位置,以便等概率随机的用D替换掉AN1或AN。0104步骤S270、等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性,在等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性后,所述样本属性队列中的样本属性为有序排列状态;0105由于等。
46、概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性时,已经保证了替换了所获取的样本属性的样本属性队列的有序性,因此不必再重新的对样本属性队列中的样本属性的位置进行调整。0106需要说明的是,在更新位置上等概率随机的将所述最大样本属性或最小样本属性替换为所获取的样本属性的同时,还需在更新位置上将相应的最大样本属性或最小样本属性对应的样本标识替换为所获取的样本属性对应的样本标识。0107值得注意的是,本发明实施例不是一直用D替换掉小于D的最大样本属性AN1,若是一直用D替换掉小于D的最大样本属性AN1,则容易变成样本属性的最高排行榜;同理,本发明实施例也不是一直。
47、用D替换掉不小于D的最小样本属性AN,若是一直用D替换掉不小于D的最小样本属性AN,则容易变成样本属性的最低排行榜;本发明实施例是采用D等概率随机替换AN1或AN,遵从这一原则,可使得本发明实施例得到的样本属性队列更能准确的反映大规模样本整体的样本属性分布情况。0108可选的,可采用二分查找法进行所获取的样本属性的大小与样本属性队列中的样本属性的大小的比对,从而确定上述最大样本属性,和最小样本属性。说明书CN104133824A129/16页130109步骤S280、若所获取的样本属性小于所述样本属性队列中存储的样本属性的最小值,则随机等概率的将所述最小值的位置的样本属性替换为所获取的样本属性。
48、,或剔除所获取的样本属性;若所获取的样本属性大于所述样本属性队列中存储的样本属性的最大值,则随机等概率的将所述最大值的位置的样本属性替换为所获取的样本属性,或剔除所获取的样本属性;0110设A0为样本属性队列中存储的最小样本属性,D为所获取的样本属性,若D小于A0,则本发明实施例会随机等概率的选择剔除D或在A0的位置上使用D替换A0,此时得到的样本属性队列为有序的;设AN为样本属性队列中存储的最大样本属性,D为所获取的样本属性,若D大于AN,则本发明实施例会随机等概率的选择剔除D或在AN的位置上使用D替换AN,此时得到的样本属性队列为有序的。0111步骤S290、比对所获取的样本属性与样本属性。
49、队列中存储的样本属性的大小,通过所比对的所获取的样本属性与样本属性队列中存储的样本属性的大小,确定所获取的样本属性在所述样本属性队列中的更新位置;0112步骤S300、在所述更新位置上写入所获取的样本属性,以增长样本属性队列的长度,在所述更新位置上写入所获取的样本属性后,所述样本属性队列中的样本属性为有序排列状态。0113由于样本属性队列的长度未达到N,因此可将所获取的样本属性插入样本属性队列中的更新位置,以使得样本属性队列的长度可以增长,直至样本属性队列的长度达到设定数值N。设所获取的样本属性为D,AN2、AN1、AN和AN1为样本属性队列中的样本属性,若D的大小为样本属性队列中的中间值,如。
50、D的大小介于AN1、AN之间,则可将D插入AN1、AN之间,若D为样本属性队列中的最大值,则可将D插入到样本属性队列的头部(头部可以为样本属性队列中最大样本属性的存储位置),若D为样本属性队列中的最小值,则可将D插入到样本属性队列的尾部(尾部可以为样本属性队列中最小样本属性的存储位置);即本发明实施例可在样本属性队列中增加一个位置,在该位置上存储D,使得样本属性队列的长度可以增长,直至样本属性队列的长度达到设定数值N。0114本发明实施例可通过二分查找法进行所获取的样本属性的大小与样本属性队列中存储的样本属性的大小的比对。0115值得注意的是,在更新位置上写入所获取的样本属性,以增长样本属性队。