《一种排行榜数据过滤的方法和设备.pdf》由会员分享,可在线阅读,更多相关《一种排行榜数据过滤的方法和设备.pdf(20页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102880603 A (43)申请公布日 2013.01.16 C N 1 0 2 8 8 0 6 0 3 A *CN102880603A* (21)申请号 201110192515.2 (22)申请日 2011.07.11 G06F 17/30(2006.01) (71)申请人阿里巴巴集团控股有限公司 地址英属开曼群岛大开曼资本大厦一座四 层847号邮箱 (72)发明人陈欢 罗佳佳 (74)专利代理机构北京鑫媛睿博知识产权代理 有限公司 11297 代理人龚家骅 (54) 发明名称 一种排行榜数据过滤的方法和设备 (57) 摘要 本申请实施例公开了一种排行榜数据过。
2、滤的 方法。该方法包括:数据过滤设备从数据存储设 备获取排行日之前预设时间段内的原始数据;数 据过滤设备根据所述原始数据的缺损程度对所述 原始数据进行补值处理得到历史数据;数据过滤 设备根据所述历史数据和所述排行日数据进行计 算,确定排行日数据的进榜单概率;数据过滤设 备在排行日数据的进榜单概率小于或等于概率阈 值时,过滤所述排行日数据。通过应用本申请实施 例的技术方案,提供了一种以历史数据为依据计 算排行日数据能否进入排行榜的进榜单概率,根 据该进榜单概率确定是否过滤排行日数据,提高 了排行榜数据过滤的准确性。 (51)Int.Cl. 权利要求书5页 说明书12页 附图2页 (19)中华人民。
3、共和国国家知识产权局 (12)发明专利申请 权利要求书 5 页 说明书 12 页 附图 2 页 1/5页 2 1.一种排行榜数据过滤方法,其特征在于,包括: 数据过滤设备从数据存储设备获取排行日之前预设时间段内的原始数据; 数据过滤设备根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史 数据; 数据过滤设备根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜 单概率; 数据过滤设备在排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数 据。 2.如权利要求1所述的方法,其特征在于,所述根据所述历史数据和所述排行日数据 进行计算,确定排行日数据的进榜单概率包括: 根据。
4、所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据取 值小于排行日数据取值时进入排行榜的概率、以及历史数据取值小于排行日数据取值的概 率;根据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行 榜的概率、以及历史数据取值小于排行日数据取值的概率,计算排行日数据的进榜单概率。 3.如权利要求2所述的方法,其特征在于,所述历史数据取值小于排行日数据取值时 进入排行榜的概率通过下述方式得到: 所述历史数据进入排行榜的概率通过下述方式得到: 所述历史数据小于排行日数据的概率通过下述方式得到: 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为第i种统计。
5、对象的排行日数据,t ij 为第i种统计对象在第j个交易日的数 据,U为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为预设的时间 段。 4.如权利要求1所述的方法,其特征在于,所述根据所述历史数据和所述排行日数据 进行计算,确定排行日数据的进榜单概率包括: 根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值的概 率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率;根据所述历史数据进 入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差 值总概率,确定排行日数据的进榜单概率。 5.如权利要求4所述的方法,其特征在于,所述历史。
6、数据进入排行榜时有效数据差值 权 利 要 求 书CN 102880603 A 2/5页 3 的概率通过下述方式得到: 所述历史数据进入排行榜时的数据差值的概率通过下述方式得到: (t ij U,t ij (UV); 所述数据差值总概率通过下述方式得到: (t ij U,t ij (UV); 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为所述第i种统计对象在排行日当天的数据,t ij 为第i种统计对象在第j个 交易日的数据,r ij 为t ij 在第j列中部分统计对象的数据组成的数据样本中的排名,r i 为 x i1 在排行日当天部分统计对象的数据组成的数据样本中的排名,U为历。
7、史数据进入排行榜 的进榜数据集,V为历史数据的未进榜数据集;n为时间段。 6.如权利要求1所述的方法,其特征在于,所述根据所述原始数据的缺损程度对所述 原始数据进行补值处理得到历史数据包括: 根据时间段内的原始数据中的非缺损数据计算每一个数据非缺损的交易日的熵值;根 据所述交易日的熵值计算在所述交易日的差异系数;根据所述交易日的差异系数计算所述 交易日的权重系数; 根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。 7.如权利要求6所述的方法,其特征在于,所述计算缺损值包括: 计算第f个交易日的熵值I f -kp f ln(p f ); 其中,k1/ln(n),n为表示参与排序的时。
8、间长度的时间段; 其中,d f 用于表示第f个交易日数据与所缺损数据之间的距离; t if 为在第f个交易日第i统计对象的的数据,t ib 为在第b个交易日第i种统计对象的数 据; 权 利 要 求 书CN 102880603 A 3/5页 4 所述根据所述交易日的熵值计算在所述交易日的差异系数包括: r f 1-I f ,其中f1,2,.,n; 所述根据所述交易日的差异系数计算所述交易日的权重系数包括: 所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括: t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) 。
9、+.+w n t an 其中,t ab 为缺损值。 8.一种数据过滤设备,其特征在于,包括: 获取单元,用于从数据存储设备获取排行日之前预设时间段内的原始数据; 处理单元,用于根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史 数据; 计算单元,用于根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进 榜单概率; 过滤单元,用于当排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日 数据。 9.如权利要求8所述的设备,其特征在于,所述计算单元,具体用于: 根据所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据取 值小于排行日数据取值时进入排行榜的概率、以。
10、及历史数据取值小于排行日数据取值的概 率;根据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行 榜的概率、以及历史数据取值小于排行日数据取值的概率,计算排行日数据的进榜单概率。 10.如权利要求9所述的设备,其特征在于,所述历史数据取值小于排行日数据取值时 进入排行榜的概率通过下述方式得到: 所述历史数据进入排行榜的概率通过下述方式得到: 所述历史数据小于排行日数据的概率通过下述方式得到: 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为第i种统计对象的排行日数据,t ij 为第i种统计对象在第j个交易日的数 据,U为历史数据进入排行榜的进榜数据集,V为历。
11、史数据的未进榜数据集,n为预设的时间 段。 权 利 要 求 书CN 102880603 A 4/5页 5 11.如权利要求8所述的设备,其特征在于,所述计算单元,具体用于, 根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值的概 率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率;根据所述历史数据进 入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差 值总概率,确定排行日数据的进榜单概率。 12.如权利要求11所述的设备,其特征在于,所述历史数据进入排行榜时有效数据差 值的概率通过下述方式得到: 所述历史数据进入排行榜时的数据差值的概率通。
12、过下述方式得到: (t ij U,t ij (UV); 所述数据差值总概率通过下述方式得到: (t ij U,t ij (UV); 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为所述第i种统计对象在排行日当天的数据,t ij 为第i个统计对象在第j个 交易日的数据,r ij 为t ij 在第j列中部分统计对象的数据组成的数据样本中的排名,r i 为 x i1 在排行日当天部分统计对象的数据组成的数据样本中的排名,U为历史数据进入排行榜 的进榜数据集,V为历史数据的未进榜数据集,n为时间段。 13.如权利要求8所述的设备,其特征在于,所述处理单元,具体用于, 根据时间段内的原始。
13、数据中的非缺损数据,计算每一个数据非缺损的交易日的熵值; 根据所述交易日的熵值,计算在所述交易日的差异系数;根据所述交易日的差异系数,计算 所述交易日的权重系数; 根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。 14.如权利要求13所述的设备,其特征在于,所述计算缺损值包括: 计算第f个交易日的熵值I f -kp f ln(p f ); 权 利 要 求 书CN 102880603 A 5/5页 6 其中,k1/ln(n),n为表示参与排序的时间长度的时间段; 其中,d f 用于表示第f个交易日数据与所缺损数据之间的距离; t if 为值在第f个交易日第i种统计对象的数据,t i。
14、b 为在第b个交易日第i种统计对象的 数据; 所述根据所述交易日的熵值计算在所述交易日的差异系数包括: r f 1-I f ,其中f1,2,.,n; 所述根据所述交易日的差异系数计算所述交易日的权重系数包括: 所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括: t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) +.+w n t an 其中,t ab 为缺损值。 权 利 要 求 书CN 102880603 A 1/12页 7 一种排行榜数据过滤的方法和设备 技术领域 0001 本申请涉及计算机技术领域,特别。
15、涉及一种排行榜数据过滤的方法和设备。 背景技术 0002 排行榜作为现代社会很受关注的一项事物深入大家的生活。例如,电子购物网站 会提供各类产品的销量排行榜供给消费者(为描述方便,以下将消费者简称为买家)或商 家(为描述方便,以下将商家简称为卖家)参考。 0003 现有技术中,排行榜通常是通过对所有原始数据(例如商品销量排行榜,其原始 数据即为各种商品的销量)进行排序得到。但是,这种方式导致计算排行榜的效率很低,尤 其是在原始数据量很大的情况下,采用这种方式难以迅速得到排行榜。 0004 为了克服上述问题,现有技术中提供了一种排行榜数据过滤方法,该方法以下称 为阈值过滤方法。阈值过滤方法预先设。
16、定阈值,只对大于阈值的数据进行排序,过滤掉阈值 以下的数据。这种方式可以降低参与排序的数据量,但是,阈值的设定存在不合理的情况, 将本来不应该被过滤的数据过滤掉。例如,对于销量排行榜,假定阈值为5,则应该将销量 在5以下的数据过滤掉,但是,有些商品本身的总体销量就很低,这就使得即使销量在5以 下的商品仍可能进榜单。因此,现有的阈值过滤方法无法准确的对原始数据进行过滤。 发明内容 0005 本申请实施例提供一种排行榜数据过滤的方法和设备,解决在现有技术中存在的 通过简单设定销量阈值的排行榜数据过滤方法无法准确的对原始数据进行过滤的问题,准 确的对原始数据进行过滤。 0006 为达到上述目的,本申。
17、请实施例一方面提供了一种排行榜数据过滤方法,包括: 0007 数据过滤设备从数据存储设备获取排行日之前预设时间段内的原始数据; 0008 数据过滤设备根据所述原始数据的缺损程度对所述原始数据进行补值处理得到 历史数据; 0009 数据过滤设备根据所述历史数据和所述排行日数据进行计算,确定排行日数据的 进榜单概率; 0010 数据过滤设备在排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行 日数据。 0011 另一方面,本申请实施例还提供了一种数据过滤设备,包括: 0012 获取单元,用于从数据存储设备获取排行日之前预设时间段内的原始数据; 0013 处理单元,用于根据所述原始数据的缺损程。
18、度对所述原始数据进行处理得到历史 数据; 0014 计算单元,用于根据所述历史数据和所述排行日数据进行计算,确定排行日数据 的进榜单概率; 0015 过滤单元,用于当排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排 说 明 书CN 102880603 A 2/12页 8 行日数据。 0016 与现有技术相比,本申请实施例具有以下优点: 0017 根据历史数据进入排行榜的概率以及排行日数据与统计对象的历史数据之间的 比较,计算排行日数据的进榜单概率,如果进榜单概率大于概率阈值,则不过滤排行日数 据,如果进榜单概率小于概率阈值,则过滤排行日数据。通过本申请实施例提供的排行榜 数据过滤方法,提。
19、供了一种以历史数据为依据计算排行日数据能否进入排行榜的进榜单概 率,根据该进榜单概率是否大于某一设定的概率阈值来确定是否过滤排行日数据,提高了 排行榜数据过滤的准确性。 附图说明 0018 图1为本申请实施例提出的一种排行榜数据过滤方法的流程示意图; 0019 图2为本申请实施例提出的一种缺损数据补值方法的流程示意图; 0020 图3为本申请实施例提出的一种数据过滤设备的结构示意图。 具体实施方式 0021 如背景技术所述,现有技术中的排行榜数据过滤方法是通过设定阈值,并过滤数 值小于阈值的数据来进行排行榜原始数据的过滤,这种方法无法准确的对原始数据进行过 滤。 0022 为了解决现有技术的缺。
20、陷,本申请提出了一种排行榜数据过滤方法。对当前参与 排行的数据进行过滤时,采用之前一定时间段内的原始数据作为参考,来确定当前参与排 行的数据是否需要过滤。该时间段的取值需要预先配置,可以为经验值或者根据预设策略 得到。 0023 以下以销量排行榜为例说明本申请实施例提供的排行榜数据过滤方法,以商品作 为统计对象,需要说明,本申请提供的排行榜数据过滤方法还可以适用于其他类型的排行 榜,例如人气排行榜等,以及适用于其他类型的排行榜对应的统计对象,例如人气指数等。 0024 如图1所示,该方法包括以下步骤: 0025 步骤S101,数据过滤设备从数据存储设备获取预先设定的时间段内的原始数据。 002。
21、6 数据过滤设备直接从存储有需要过滤的数据的数据存储设备获取不同种类的商 品的销量数据,数据过滤设备将获取到的数据以适于进行过滤的方式进行记录,本实施例 中该方式可以但不限于矩阵方式,例如还可以为数组形式。在数据过滤设备发送给数据存 储设备的数据获取请求中,可以携带请求获取的数据的商品数和时间段。 0027 为了描述方便,以下以原始数据的形式为矩阵形式为例,如下所示: 说 明 书CN 102880603 A 3/12页 9 0028 0029 其中,T表示总的商品数据。T i 表示第i个商品的数据,i(1,.,m),m为原始 数据中的商品数,该商品数的取值为预先配置,可以为经验值或者根据预设策。
22、略得到。T i (t i1 ,t i2 ,t in ),n为时间段。P j (t 1j ,t 2j ,t nj )表示第j个交易日的数据, j(1,.,n)。t ij 表示第i个商品第j个交易日的数据,在本申请实施例中,t ij 是商品 在某个交易日的销售量。在实际应用中,例如人气排行榜中,t ij 可以是商品的评价度。 0030 本发明实施例以m种商品在n天内的销量数据为例进行说明,本发明实施例的过 滤方法也可应用于与其他形式的二维数据的过滤,以及可以变换为二维数据的其他数据。 0031 步骤S102,数据过滤设备判断原始数据的缺损程度,根据原始数据的缺损程度确 定原始数据是否需要进行数据过。
23、滤,如果不需要数据过滤,结束;如果需要进行数据过滤, 执行步骤S103; 0032 步骤S103,判断原始数据是否需要进行缺损数据补值,如果需要数据补值,执行步 骤S104,否则,直接将原始数据作为历史数据,执行步骤S105。 0033 除了本发明实施例列举的如步骤S102和S103所示的判断方式,也可以根据原始 数据的缺损程度先确定原始数据是否需要进行缺损数据补值,如果需要数据补值,执行步 骤S104,否则,继续判断是否需要数据过滤,如果不需要数据过滤,结束;如果需要进行数 据过滤,执行步骤S105。 0034 原始数据可能存在缺损。对于一种商品,当商品某些时间内不在架上时,该时间内 相应的。
24、数据会缺损,例如,当步骤S101中第a个商品在b个交易日不在架上时,则数据t ab 缺损。本申请实施例内设置一缺损阈值,衡量商品的数据缺损程度。当缺损的数据超过缺 损阈值的时候,不对原始数据进行缺损数据补值,也不进行数据过滤。当缺损的数据没有超 过缺损阈值的时候,需要判断是否对原始数据进行缺损数据补值。缺损阈值可以是缺损数 据百分比,也可以是具体的天数,例如当时间段为10天时,可以设定缺损阈值为5天,如果 数据不完整,且缺损的数据超过5天,则不进行缺损数据补值,也不进行数据过滤。 0035 判断原始数据是否需要进行缺损数据补值具体包括: 0036 如果在时间段内的数据是完整的,则不需要进行缺损。
25、数据补值;如果在时间段内 的数据不完整,且缺损的数据低于缺损阈值,则进行缺损数据补值。 0037 本申请实施例中针对每一种商品分别进行上述缺损补值处理。 0038 步骤S104,数据过滤设备利用熵值理论根据原始数据模拟缺损数据,将模拟得到 缺损值补充进原始数据,得到历史数据。 说 明 书CN 102880603 A 4/12页 10 0039 缺损的数据对后期的数据过滤产生严重的影响。考虑到商品不在架上并不代表销 量为0,因此以直接以0表示缺损的数据对排行结果的准确性影响较大,一种正确的思路应 该是模拟出该商品在架的当日交易量。在信息论中,信息熵是一个信源发出某一消息所含 信息量的度量,当某一。
26、信源发出的消息越确定,该信源的信息熵就越小。它是系统无序程度 或混乱程度的度量,表示了系统的平均不确定度。而熵值法是一种通过属性数值所提供信 息的大小来确定权重系数的一种方法。它具有客观性强,评价过程透明性和可再现性好的 特点。例如,对于确定的属性j,各数据第j个属性之间的差异越大,则说明该项指标的相对 作用就越大,即其信息量就越大,熵值越小。 0040 本申请实施例中根据熵值理论对缺损的原始数据进行模拟。 0041 如图2所示,假设原始数据中第a个商品第b个交易日的数据t ab 缺损,以模拟t ab 缺损值为例说明如下: 0042 步骤S1041,根据原始数据中第a个商品的非缺损数据,计算数。
27、据不缺损的每一个 交易日的熵值I。 0043 假定任一交易日为f,f的取值为数据不缺损的交易日,则第f个交易日的熵值通 过下式得到: 0044 I f -kp f ln(p f ) 0045 其中,k1/ln(n), 0046 其中,表示第f个交易日数据与所缺损的第b个交易 日数据的距离,体现了两者的相关性。t ab 缺损,故计算时i不等于a。 0047 步骤S1042,根据第f个交易日的熵值,计算第f个交易日的差异系数。 0048 第f个交易日的差异系数r f 1-I f ,f1,2,.,n, 0049 差异系数是反应数据作用大小的量,其值越大,第f个交易日的数据体的作用越 大,反之亦然。 。
28、0050 步骤S1043,根据第f个交易日的差异系数,计算第f个交易日的权重系数。 0051 0052 步骤S1044,根据计算得到的各个数据不缺损的交易日的权重系数,计算第b个交 易日的缺损值t ab 。 0053 t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) +.+w n t an 0054 从而达到填补缺损值t ab 的效果。 0055 上述以缺损一个数据为例说明了数据补值的过程,当原始数据缺损多个数据并且 需要进行数据补值的时侯,根据原始数据中非缺损的数据分别计算各个缺损数据。 0056 在本申请实施例提供的缺。
29、损值补值方法中,考虑了原始数据中横向与纵向的数据 相关性,具有很好的客观性,相对于其他的缺损值填补方法,具有较低的时间复杂度。 0057 步骤S105,根据历史数据和排行日数据,计算商品排行日数据的进榜单概率。 说 明 书CN 102880603 A 10 5/12页 11 0058 数据过滤设备在历史数据中补充排行日当天的数据,即排行日数据。 0059 在本申请实施例中,利用贝叶斯(Bayes)模型计算排行日数据的进榜单概率,其 核心就是根据商品排行日当天的销量判断该商品当前在该销量下能否进榜单,若不能则过 滤;反之,则不过滤。即,计算该商品当日在该销量下能否进榜单的概率,若概率小于某一给 。
30、定的值,则过滤;反之,则不过滤。另外,进榜单概率是一个归一化至0,1区间内的值,通 过本申请实施例提供的朴素贝叶斯模型得出的结果,不需要考虑不同的商品类别,即不采 用先分类再过滤的思想,因为本方法中能够通过对比该商品的历史数据与排行日数据,从 而知道当前排行日数据进榜单的概率,并且商品的分类思想其实已经被这种概率思想所涵 盖。 0060 具体的,步骤S105包括: 0061 步骤S1051,计算商品历史数据进入排行榜的概率,商品历史数据小于排行日数据 时进入排行榜的概率,商品历史数据小于排行日数据的概率。 0062 商品历史数据小于排行日数据时进入排行榜的概率为商品历史数据小于排行日 数据时进。
31、入排行榜的次数与商品数据进入排行榜的次数的比值,商品历史数据进入排行榜 的概率为商品数据进入排行榜的次数与时间段内总次数的比值,商品历史数据小于排行日 数据的概率为商品历史数据小于排行日数据时的次数与时间段内总次数的比值。在本实施 例中,一天排序一次,因此可以以天数表示次数来进行计算。 0063 步骤S1052,根据商品历史数据进入排行榜的概率,商品历史数据小于排行日数据 时进入排行榜的概率,以及时间段计算商品排行日数据的进榜单概率。 0064 下面以具体的示例对步骤S105中计算商品排行日数据的进榜单概率的过程进行 说明,可以根据历史数据和排行日数据得到完整数据为: 0065 0066 其中。
32、,x(x 11 ,x 21 ,.,x m1 ),为排行日当天的排行日数据,该数据可以是商品在 当天的交易量。以第i种商品为例,第i种商品在排行日当天的交易量为X i1 ,商品的历史 数据为(t i1 ,t i2 ,.,t in )。令集合U为进榜数据集,V为未进榜数据集。进榜数据集和未 进榜数据集可以由数据服务器进行记录,当数据过滤设备从数据服务器获取原始数据的时 候,可以同时获取进榜数据集和未进榜数据集。 0067 (1),商品历史数据小于排行日数据时进入排行榜的概率为P(B|A): 0068 0069 说 明 书CN 102880603 A 11 6/12页 12 0070 (2),商品历。
33、史数据进入排行榜的概率为P(A): 0071 0072 0073 (3),商品历史数据小于排行日数据的概率P(B): 0074 0075 0076 其中,(1)(2)(3)中的计算不分前后顺序。 0077 (4),商品排行日数据的进榜单概率为P(A|B): 0078 根据(1)(2)(3)的计算结果,可以得到商品在排行日的排行日数据的进榜单概 率: 0079 0080 0081 其中,(t ij U,t ij (UV)。 0082 对于步骤S105,在计算时,可以分别计算每一种商品排行日数据的进榜单概率,在 本实施例中,计算一种商品时,只需要该商品的历史数据即可,也可以利用矩阵中的数据同 时计。
34、算所有商品排行日数据的进榜单概率。 0083 步骤S106,对进榜单概率和概率阈值进行比较,根据比较结果判断是否过滤商品 的排行日数据。具体的,如果进榜单概率大于概率阈值,则不过滤商品的排行日数据,如果 进榜单概率小于概率阈值,则过滤商品的排行日数据。 0084 在步骤S106之前包括,设定概率阈值。 0085 其中,概率阈值是一个归一化至0,1区间内的值,概率阈值为可以通过实际的 数据分析结果得到的经验值。 0086 需要说明,步骤S104中的利用熵值理论进行缺损数据补值的方法为优选的补值 方式,也可以根据其他补值算法进行补值,例如基于广义马氏距离的缺损数据补值算法。 0087 在本申请实施。
35、例中,根据商品历史数据进入排行榜的概率以及排行日数据与商品 历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜单概率大于概率阈值, 则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。通 说 明 书CN 102880603 A 12 7/12页 13 过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数 据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定 是否过滤排行日数据,提高了排行榜数据过滤的准确性。 0088 在上述实施例提供的排行榜数据过滤方法中,考虑了同一种商品不同交易日数据 之间的关系,得出了。
36、较为准确的过滤结果。但是,在同一个交易日,不同商品的数据之间也 存在相互影响,本发明又一实施例提供了一种排行榜数据过滤方法,将同一个交易日不同 商品的数据之间也存在相互影响考虑在内,即,将上述完整数据中的纵向数据相关性信息 也考虑在内。 0089 在本实施例中,步骤S201步骤S204同步骤S101步骤S104。 0090 步骤S205,根据完整数据,计算商品的排行日数据的进榜单概率。 0091 在本实施例中,一天排行一次,因此以天数表示次数来进行计算。 0092 具体的,步骤S205包括: 0093 步骤S2051,计算商品进入排行榜时有效数据差值的概率,计算商品进入排行榜时 的数据差值的概。
37、率,计算商品数据差值总概率。 0094 其中,完整数据中最后一天的数据为排行日数据,排行日数据之前的其他数据为 历史数据。商品进入排行榜时有效数据差值的概率为商品进入排行榜时的天数内有效数据 差值的累加与商品进入排行榜时的天数内数据差值的累加的比值,商品进入排行榜时的数 据差值的概率为商品进入排行榜时的天数内数据差值的累加与商品在时间段内数据差值 的累加的比值,商品数据差值总概率为商品在时间段内有效数据差值的累加与商品在时间 段内数据差值的累加的比值。 0095 步骤S2052,根据商品进入排行榜时有效数据差值的概率,商品进入排行榜时的数 据差值的概率,以及商品数据差值总概率,计算商品的排行日。
38、数据的进榜单概率。 0096 下面以具体的示例对步骤S205中计算商品在交易日的进榜单概率的过程进行说 明,完整数据为: 0097 0098 其中,x(x 11 ,x 21 ,.,x m1 ),为排行日当天的数据。 0099 在本实施例提供的数据过滤方法中,引入了数据指数的概念,用于计算排行日数 据的进榜单概率。以r ij 表示第i个商品在第j个交易日的数据指数,在本实施例中,r ij 为 销量指数,取第j个交易日的部分商品的数据作为数据样本来计算r ij ,用r ij 表示第i个商 品在第j个交易日在该数据样本销售情况中的销量地位。 0100 对于某个数据t ij 对应的r ij ,r ij。
39、 rank(t ij ),(jS ij ),S ij 为数据样本,可以取t ij 邻近的N s 个数据作为数据样本S ij ,即r ij 表示t ij 在第j列邻近的N s 个数据的排名,同样, r i 为排行日数据x i1 在排行日当天的邻近的N s 个数据中的排名,r i rank(x),(jS i )。 0101 数据样本的大小N s 可以在计算之前根据经验值进行设定,例如,计算r ij 时,取数 说 明 书CN 102880603 A 13 8/12页 14 据样本大小为30,则取t ij 邻近的30个数据进行计算,另外,可以取第j个交易日以t ij 为 中心的N s 个数据作为数据样。
40、本,也可以取从t ij 开始的N s 个数据作为数据样本,即这30个 数据可以是(t (i-14)j ,t (i-13)j ,.,t (i+15)j ),这30个数据也可以是(t ij ,t (i+1)j ,.,t (i+29)j )。 0102 通过数据指数的设定,相当于给某个交易日数据对排行日数据的影响增加了一项 权重因子,在合理控制计算量的同时,将某个交易日当天的市场整体交易情况纳入了计算 的考虑的范围,更加准确的衡量了历史数据对排行日数据的影响,提高了估算排行日数据 进榜单概率的准确性。 0103 下面具体说明计算商品排行日数据的进榜单概率的过程: 0104 (1),历史数据进入排行榜。
41、时有效数据差值的概率为P(B|A): 0105 0106 0107 0108 (2),历史数据进入排行榜时的数据差值的概率为P(A): 0109 0110 0111 0112 (t ij U,t ij (UV) 0113 (3),数据差值总概率为P(B): 0114 0115 0116 0117 (t ij U,t ij (UV) 0118 其中,(1)(2)(3)中的计算不分前后顺序。 说 明 书CN 102880603 A 14 9/12页 15 0119 (4),商品的排行日数据的进榜单概率为P(A|B): 0120 根据(1)(2)(3)的计算结果,可以得到商品的排行日数据的进榜单概率。
42、: 0121 0122 0123 其中,(t ij U,t ij (UV) 0124 步骤S206同步骤S106。 0125 在本申请实施例中,根据商品历史数据进入排行榜的概率以及排行日数据与商品 历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜单概率大于概率阈值, 则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。通 过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数 据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定 是否过滤排行日数据,提高了排行榜数据过滤的准确性。 0126 为了实现本申请实。
43、施例的技术方案,基于与上述方法实施例相同的技术构思,本 申请实施例还提供了一种数据过滤设备,其结构示意图如图3所示,具体包括: 0127 获取单元11,用于从数据存储设备获取排行日之前预设时间段内的原始数据; 0128 处理单元12,用于根据所述获取单元11获取的原始数据的缺损程度对所述原始 数据进行处理得到历史数据; 0129 计算单元13,用于根据所述所述历史数据和排行日数据进行计算,确定排行日数 据的进榜单概率; 0130 过滤单元14,用于当所述计算单元13计算得到的排行日数据的进榜单概率小于 或等于概率阈值时,过滤所述排行日数据。 0131 其中,所述计算单元13,具体用于 0132。
44、 根据所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据 取值小于排行日数据取值时进入排行榜的概率,以及历史数据小于排行日数据的概率;根 据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概 率、以及历史数据小于排行日数据的概率,计算排行日数据的进榜单概率。 0133 其中,所述历史数据取值小于排行日数据取值时进入排行榜的概率 0134 0135 其中,x i1 为第i种商品的排行日数据,t ij 为第i个商品在第j个交易日的数据,U 为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为预设的时间段; 0136 所述历史数据进入排行榜的概。
45、率 说 明 书CN 102880603 A 15 10/12页 16 0137 0138 所述历史数据小于排行日数据的概率 0139 0140 所述排行日数据的进榜单概率 0141 其中,所述计算单元13,具体用于, 0142 根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值 的概率,历史数据进入排行榜时的数据差值的概率,以及数据差值总概率;根据所述历史数 据进入排行榜时有效数据差值的概率,历史数据进入排行榜时的数据差值的概率,以及数 据差值总概率,确定排行日数据的进榜单概率。 0143 其中,所述历史数据进入排行榜时有效数据差值的概率 0144 0145 其中,x i1 。
46、为所述第i种商品在排行日当天的数据,t ij 为第i个商品在第j个交易 日的数据,r ij 为t ij 在第j列中部分商品数据组成的数据样本中的排名,r i 为x i1 在排行日 当天部分商品数据组成的数据样本中的排名,U为历史数据进入排行榜的进榜数据集,n为 时间段; 0146 所述历史数据进入排行榜时的数据差值的概率 0147 0148 (t ij U,t ij (UV); 0149 其中,V为历史数据的未进榜数据集; 0150 所述数据差值总概率 0151 0152 (t ij U,t ij (UV); 0153 所述排行日数据的进榜单概率 说 明 书CN 102880603 A 16 。
47、11/12页 17 0154 其中,所述处理单元12,具体用于, 0155 根据时间段内的原始数据中的非缺损数据,计算每一个数据非缺损的交易日的熵 值;根据所述交易日的熵值,计算在所述交易日的差异系数;根据所述交易日的差异系数, 计算所述交易日的权重系数; 0156 根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。 0157 其中,所述计算缺损值包括: 0158 第f个交易日的熵值I f -kp f ln(p f ); 0159 其中,k1/ln(n),n为表示参与排序的时间长度的时间段; 0160 其中,d f 用于表示第f个交易日数据与所缺损数据之间的 距离;t if 为值在。
48、第f个交易日第i种商品的数据,t ib 为在第b个交易日第i种商品的数据; 0161 所述根据所述交易日的熵值计算在所述交易日的差异系数包括: 0162 r f 1-I f ,其中f1,2,.,n; 0163 所述根据所述交易日的差异系数计算所述交易日的权重系数包括: 0164 0165 所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括: 0166 t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) +.+w n t an 0167 其中,t ab 为缺损值。 0168 在本申请实施例中提供的数据过滤设备,根据商品历史数据进入排行榜的概率以 及排行日数据与商品历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜 单概率大于概率阈值,则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤 商品的排行日数据。通过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数 据为依据计算排行日数据能否进入排行榜的进榜。