一种排行榜数据过滤的方法和设备.pdf

上传人:111****11 文档编号:4260984 上传时间:2018-09-12 格式:PDF 页数:20 大小:847.22KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110192515.2

申请日:

2011.07.11

公开号:

CN102880603A

公开日:

2013.01.16

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20130116|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110711|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

阿里巴巴集团控股有限公司

发明人:

陈欢; 罗佳佳

地址:

英属开曼群岛大开曼资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京鑫媛睿博知识产权代理有限公司 11297

代理人:

龚家骅

PDF下载: PDF下载
内容摘要

本申请实施例公开了一种排行榜数据过滤的方法。该方法包括:数据过滤设备从数据存储设备获取排行日之前预设时间段内的原始数据;数据过滤设备根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史数据;数据过滤设备根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜单概率;数据过滤设备在排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数据。通过应用本申请实施例的技术方案,提供了一种以历史数据为依据计算排行日数据能否进入排行榜的进榜单概率,根据该进榜单概率确定是否过滤排行日数据,提高了排行榜数据过滤的准确性。

权利要求书

权利要求书一种排行榜数据过滤方法,其特征在于,包括:
数据过滤设备从数据存储设备获取排行日之前预设时间段内的原始数据;
数据过滤设备根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史数据;
数据过滤设备根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜单概率;
数据过滤设备在排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数据。
如权利要求1所述的方法,其特征在于,所述根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜单概率包括:
根据所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概率、以及历史数据取值小于排行日数据取值的概率;根据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概率、以及历史数据取值小于排行日数据取值的概率,计算排行日数据的进榜单概率。
如权利要求2所述的方法,其特征在于,所述历史数据取值小于排行日数据取值时进入排行榜的概率通过下述方式得到:
<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&lt;</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MROW><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW></MROW></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>)</MO></MROW></MROW>]]&gt;</MATH></MATHS><BR>所述历史数据进入排行榜的概率通过下述方式得到:<BR><MATHS id=cmaths0002 num="0002"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW></MROW><MI>n</MI></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>)</MO></MROW></MROW>]]&gt;</MATH></MATHS><BR>所述历史数据小于排行日数据的概率通过下述方式得到:<BR><MATHS id=cmaths0003 num="0003"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>&lt;</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MROW><MI>n</MI></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>,</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>&amp;Element;</MO><MROW><MO>(</MO><MI>U</MI><MO>∪</MO><MI>V</MI><MO>)</MO></MROW><MO>)</MO></MROW></MROW>]]&gt;</MATH></MATHS><BR>所述排行日数据的进榜单概率通过下述方式得到:<MATHS id=cmaths0004 num="0004"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>|</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>,</MO><MI>B</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>;</MO></MROW>]]&gt;</MATH></MATHS><BR>其中,xi1为第i种统计对象的排行日数据,tij为第i种统计对象在第j个交易日的数据,U为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为预设的时间段。<BR>如权利要求1所述的方法,其特征在于,所述根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜单概率包括:<BR>根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率;根据所述历史数据进入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率,确定排行日数据的进榜单概率。<BR>如权利要求4所述的方法,其特征在于,所述历史数据进入排行榜时有效数据差值的概率通过下述方式得到:<BR><MATHS id=cmaths0005 num="0005"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>≤</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC></MROW></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>)</MO></MROW><MO>;</MO></MROW>]]&gt;</MATH></MATHS><BR>所述历史数据进入排行榜时的数据差值的概率通过下述方式得到:<BR><MATHS id=cmaths0006 num="0006"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO></MO></MROW><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC></MROW></MFRAC><MO>,</MO></MROW>]]&gt;</MATH></MATHS><BR>(tij∈U,tij′∈(U∪V));<BR>所述数据差值总概率通过下述方式得到:<BR><MATHS id=cmaths0007 num="0007"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC></MROW></MFRAC><MO>,</MO></MROW>]]&gt;</MATH></MATHS><BR>(tij∈U,tij′∈(U∪V));<BR>所述排行日数据的进榜单概率通过下述方式得到:<MATHS id=cmaths0008 num="0008"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>|</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>,</MO><MI>B</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>;</MO></MROW>]]&gt;</MATH></MATHS><BR>其中,xi1为所述第i种统计对象在排行日当天的数据,tij为第i种统计对象在第j个交易日的数据,rij为tij在第j列中部分统计对象的数据组成的数据样本中的排名,ri为xi1在排行日当天部分统计对象的数据组成的数据样本中的排名,U为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集;n为时间段。<BR>如权利要求1所述的方法,其特征在于,所述根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史数据包括:<BR>根据时间段内的原始数据中的非缺损数据计算每一个数据非缺损的交易日的熵值;根据所述交易日的熵值计算在所述交易日的差异系数;根据所述交易日的差异系数计算所述交易日的权重系数;<BR>根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。<BR>如权利要求6所述的方法,其特征在于,所述计算缺损值包括:<BR>计算第f个交易日的熵值If=‑k·pf·ln(pf);<BR>其中,k=1/ln(n),n为表示参与排序的时间长度的时间段;<BR>其中,df用于表示第f个交易日数据与所缺损数据之间的距离;tif为在第f个交易日第i统计对象的的数据,tib为在第b个交易日第i种统计对象的数据;<BR>所述根据所述交易日的熵值计算在所述交易日的差异系数包括:<BR>rf=1‑If,,其中f=1,2,...,n;<BR>所述根据所述交易日的差异系数计算所述交易日的权重系数包括:<BR><MATHS id=cmaths0009 num="0009"><MATH><![CDATA[<mrow><MSUB><MI>w</MI><MI>f</MI></MSUB><MO>=</MO><MFRAC><MSUB><MI>r</MI><MI>f</MI></MSUB><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>i</MI><MO>=</MO><MN>1</MN></MROW><MI>m</MI></MUNDEROVER><MSUB><MI>r</MI><MI>i</MI></MSUB></MROW></MFRAC><MO>,</MO><MI>f</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>m</MI></MROW>]]&gt;</MATH></MATHS><BR>所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括:<BR>tab=w1ta1+w2ta2+...w(b‑1)ta(b‑1)+w(b+1)ta(b+1)+...+wntan<BR>其中,tab为缺损值。<BR>一种数据过滤设备,其特征在于,包括:<BR>获取单元,用于从数据存储设备获取排行日之前预设时间段内的原始数据;<BR>处理单元,用于根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史数据;<BR>计算单元,用于根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜单概率;<BR>过滤单元,用于当排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数据。<BR>如权利要求8所述的设备,其特征在于,所述计算单元,具体用于:<BR>根据所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概率、以及历史数据取值小于排行日数据取值的概率;根据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概率、以及历史数据取值小于排行日数据取值的概率,计算排行日数据的进榜单概率。<BR>如权利要求9所述的设备,其特征在于,所述历史数据取值小于排行日数据取值时进入排行榜的概率通过下述方式得到:<BR><MATHS id=cmaths0010 num="0010"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&lt;</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MROW><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW></MROW></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>)</MO></MROW></MROW>]]&gt;</MATH></MATHS><BR>所述历史数据进入排行榜的概率通过下述方式得到:<BR><MATHS id=cmaths0011 num="0011"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW></MROW><MI>n</MI></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>)</MO></MROW></MROW>]]&gt;</MATH></MATHS><BR>所述历史数据小于排行日数据的概率通过下述方式得到:<BR><MATHS id=cmaths0012 num="0012"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDER><MI>count</MI><MROW><MI>j</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>n</MI></MROW></MUNDER><MROW><MO>(</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>&lt;</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MROW><MI>n</MI></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>,</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>&amp;Element;</MO><MROW><MO>(</MO><MI>U</MI><MO>∪</MO><MI>V</MI><MO>)</MO></MROW><MO>)</MO></MROW></MROW>]]&gt;</MATH></MATHS><BR>所述排行日数据的进榜单概率通过下述方式得到:<MATHS id=cmaths0013 num="0013"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>|</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>,</MO><MI>B</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>;</MO></MROW>]]&gt;</MATH></MATHS><BR>其中,xi1为第i种统计对象的排行日数据,tij为第i种统计对象在第j个交易日的数据,U为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为预设的时间段。<BR>如权利要求8所述的设备,其特征在于,所述计算单元,具体用于,<BR>根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率;根据所述历史数据进入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率,确定排行日数据的进榜单概率。<BR>如权利要求11所述的设备,其特征在于,所述历史数据进入排行榜时有效数据差值的概率通过下述方式得到:<BR><MATHS id=cmaths0014 num="0014"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC></MROW></MFRAC><MO>,</MO><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>&amp;Element;</MO><MI>U</MI><MO>)</MO></MROW><MO>;</MO></MROW>]]&gt;</MATH></MATHS><BR>所述历史数据进入排行榜时的数据差值的概率通过下述方式得到:<BR><MATHS id=cmaths0015 num="0015"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO></MO></MROW><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC></MROW></MFRAC><MO>,</MO></MROW>]]&gt;</MATH></MATHS><BR>(tij∈U,tij′∈(U∪V));<BR>所述数据差值总概率通过下述方式得到:<BR><MATHS id=cmaths0016 num="0016"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>&amp;CenterDot;</MO><MFRAC><MSUB><MI>r</MI><MI>ij</MI></MSUB><MSUB><MI>r</MI><MI>i</MI></MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&gt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MROW><MO>(</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>-</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>)</MO></MROW><MO>+</MO><MUNDEROVER><MI>Σ</MI><MROW><MI>j</MI><MO>=</MO><MN>1</MN><MO>,</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>&lt;</MO><MSUB><MI>t</MI><MI>ij</MI></MSUB></MROW><MI>n</MI></MUNDEROVER><MFRAC><MN>1</MN><MROW><MO>(</MO><MSUP><MSUB><MI>t</MI><MI>ij</MI></MSUB><MO>′</MO></MSUP><MO>-</MO><MSUB><MI>x</MI><MROW><MI>i</MI><MN>1</MN></MROW></MSUB><MO>)</MO></MROW></MFRAC></MROW></MFRAC><MO>,</MO></MROW>]]&gt;</MATH></MATHS><BR>(tij∈U,tij′∈(U∪V));<BR>所述排行日数据的进榜单概率通过下述方式得到:<MATHS id=cmaths0017 num="0017"><MATH><![CDATA[<mrow><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>|</MO><MI>B</MI><MO>)</MO></MROW><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>,</MO><MI>B</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>=</MO><MFRAC><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>|</MO><MI>A</MI><MO>)</MO></MROW><MO>&amp;CenterDot;</MO><MI>P</MI><MROW><MO>(</MO><MI>A</MI><MO>)</MO></MROW></MROW><MROW><MI>P</MI><MROW><MO>(</MO><MI>B</MI><MO>)</MO></MROW></MROW></MFRAC><MO>;</MO></MROW>]]&gt;</MATH></MATHS><BR>其中,xi1为所述第i种统计对象在排行日当天的数据,tij为第i个统计对象在第j个交易日的数据,rij为tij在第j列中部分统计对象的数据组成的数据样本中的排名,ri为xi1在排行日当天部分统计对象的数据组成的数据样本中的排名,U为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为时间段。<BR>如权利要求8所述的设备,其特征在于,所述处理单元,具体用于,<BR>根据时间段内的原始数据中的非缺损数据,计算每一个数据非缺损的交易日的熵值;根据所述交易日的熵值,计算在所述交易日的差异系数;根据所述交易日的差异系数,计算所述交易日的权重系数;<BR>根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。<BR>如权利要求13所述的设备,其特征在于,所述计算缺损值包括:<BR>计算第f个交易日的熵值If=‑k·pf·ln(pf);<BR>其中,k=1/ln(n),n为表示参与排序的时间长度的时间段;<BR>其中,df用于表示第f个交易日数据与所缺损数据之间的距离;tif为值在第f个交易日第i种统计对象的数据,tib为在第b个交易日第i种统计对象的数据;<BR>所述根据所述交易日的熵值计算在所述交易日的差异系数包括:<BR>rf=1‑If,,其中f=1,2,...,n;<BR>所述根据所述交易日的差异系数计算所述交易日的权重系数包括:<BR><MATHS id=cmaths0018 num="0018"><MATH><![CDATA[<mrow><MSUB><MI>w</MI><MI>f</MI></MSUB><MO>=</MO><MFRAC><MSUB><MI>r</MI><MI>f</MI></MSUB><MUNDEROVER><MI>Σ</MI><MROW><MI>i</MI><MO>=</MO><MN>1</MN></MROW><MI>m</MI></MUNDEROVER></MFRAC><MO>,</MO><MI>f</MI><MO>=</MO><MN>1,2</MN><MO>,</MO><MO>.</MO><MO>.</MO><MO>.</MO><MO>,</MO><MI>m</MI></MROW>]]&gt;</MATH></MATHS><BR>所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括:<BR>tab=w1ta1+w2ta2+...w(b‑1)ta(b‑1)+w(b+1)ta(b+1)+...+wntan<BR>其中,tab为缺损值。</p></div> </div> </div> <div class="zlzy"> <div class="zltitle">说明书</div> <div class="gdyy"> <div class="gdyy_show"><p>说明书一种排行榜数据过滤的方法和设备 <BR>技术领域 <BR>本申请涉及计算机技术领域,特别涉及一种排行榜数据过滤的方法和设备。 <BR>背景技术 <BR>排行榜作为现代社会很受关注的一项事物深入大家的生活。例如,电子购物网站会提供各类产品的销量排行榜供给消费者(为描述方便,以下将消费者简称为买家)或商家(为描述方便,以下将商家简称为卖家)参考。 <BR>现有技术中,排行榜通常是通过对所有原始数据(例如商品销量排行榜,其原始数据即为各种商品的销量)进行排序得到。但是,这种方式导致计算排行榜的效率很低,尤其是在原始数据量很大的情况下,采用这种方式难以迅速得到排行榜。 <BR>为了克服上述问题,现有技术中提供了一种排行榜数据过滤方法,该方法以下称为阈值过滤方法。阈值过滤方法预先设定阈值,只对大于阈值的数据进行排序,过滤掉阈值以下的数据。这种方式可以降低参与排序的数据量,但是,阈值的设定存在不合理的情况,将本来不应该被过滤的数据过滤掉。例如,对于销量排行榜,假定阈值为5,则应该将销量在5以下的数据过滤掉,但是,有些商品本身的总体销量就很低,这就使得即使销量在5以下的商品仍可能进榜单。因此,现有的阈值过滤方法无法准确的对原始数据进行过滤。 <BR>发明内容 <BR>本申请实施例提供一种排行榜数据过滤的方法和设备,解决在现有技术中存在的通过简单设定销量阈值的排行榜数据过滤方法无法准确的对原始数据进行过滤的问题,准确的对原始数据进行过滤。 <BR>为达到上述目的,本申请实施例一方面提供了一种排行榜数据过滤方法,包括: <BR>数据过滤设备从数据存储设备获取排行日之前预设时间段内的原始数据; <BR>数据过滤设备根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史数据; <BR>数据过滤设备根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜单概率; <BR>数据过滤设备在排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数据。 <BR>另一方面,本申请实施例还提供了一种数据过滤设备,包括: <BR>获取单元,用于从数据存储设备获取排行日之前预设时间段内的原始数据; <BR>处理单元,用于根据所述原始数据的缺损程度对所述原始数据进行处理得到历史数据; <BR>计算单元,用于根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜单概率; <BR>过滤单元,用于当排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数据。 <BR>与现有技术相比,本申请实施例具有以下优点: <BR>根据历史数据进入排行榜的概率以及排行日数据与统计对象的历史数据之间的比较,计算排行日数据的进榜单概率,如果进榜单概率大于概率阈值,则不过滤排行日数据,如果进榜单概率小于概率阈值,则过滤排行日数据。通过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定是否过滤排行日数据,提高了排行榜数据过滤的准确性。 <BR>附图说明 <BR>图1为本申请实施例提出的一种排行榜数据过滤方法的流程示意图; <BR>图2为本申请实施例提出的一种缺损数据补值方法的流程示意图; <BR>图3为本申请实施例提出的一种数据过滤设备的结构示意图。 <BR>具体实施方式 <BR>如背景技术所述,现有技术中的排行榜数据过滤方法是通过设定阈值,并过滤数值小于阈值的数据来进行排行榜原始数据的过滤,这种方法无法准确的对原始数据进行过滤。 <BR>为了解决现有技术的缺陷,本申请提出了一种排行榜数据过滤方法。对当前参与排行的数据进行过滤时,采用之前一定时间段内的原始数据作为参考,来确定当前参与排行的数据是否需要过滤。该时间段的取值需要预先配置,可以为经验值或者根据预设策略得到。 <BR>以下以销量排行榜为例说明本申请实施例提供的排行榜数据过滤方法,以商品作为统计对象,需要说明,本申请提供的排行榜数据过滤方法还可以适用于其他类型的排行榜,例如人气排行榜等,以及适用于其他类型的排行榜对应的统计对象,例如人气指数等。 <BR>如图1所示,该方法包括以下步骤: <BR>步骤S101,数据过滤设备从数据存储设备获取预先设定的时间段内的原始数据。 <BR>数据过滤设备直接从存储有需要过滤的数据的数据存储设备获取不同种类的商品的销量数据,数据过滤设备将获取到的数据以适于进行过滤的方式进行记录,本实施例中该方式可以但不限于矩阵方式,例如还可以为数组形式。在数据过滤设备发送给数据存储设备的数据获取请求中,可以携带请求获取的数据的商品数和时间段。 <BR>为了描述方便,以下以原始数据的形式为矩阵形式为例,如下所示: <BR><MATHS num="0001"><MATH><![CDATA[ <mrow><MI>T</MI> <MO>=</MO> <MSUP><MROW><MO>(</MO> <MSUB><MI>T</MI> <MN>1</MN> </MSUB><MO>,</MO> <MSUB><MI>T</MI> <MN>2</MN> </MSUB><MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MSUB><MI>T</MI> <MI>m</MI> </MSUB><MO>)</MO> </MROW><MO>'</MO> </MSUP><MO>=</MO> <MFENCED close="]" open="["><MTABLE><MTR><MTD><MSUB><MI>t</MI> <MN>11</MN> </MSUB></MTD><MTD><MSUB><MI>t</MI> <MN>12</MN> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>1</MN> <MI>j</MI> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>1</MN> <MI>n</MI> </MROW></MSUB></MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MN>21</MN> </MSUB></MTD><MTD><MSUB><MI>t</MI> <MN>22</MN> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>2</MN> <MI>j</MI> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>2</MN> <MI>n</MI> </MROW></MSUB></MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB></MTD><MTD><MSUB><MI>t</MI> <MROW><MI>i</MI> <MN>2</MN> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>in</MI> </MSUB></MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MROW><MI>m</MI> <MN>1</MN> </MROW></MSUB></MTD><MTD><MSUB><MI>t</MI> <MROW><MI>m</MI> <MN>2</MN> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>mj</MI> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>mn</MI> </MSUB></MTD></MTR></MTABLE></MFENCED><MO>,</MO> </MROW>]]&gt;</MATH></MATHS> <BR>其中,T表示总的商品数据。Ti表示第i个商品的数据,i=(1,...,m),m为原始数据中的商品数,该商品数的取值为预先配置,可以为经验值或者根据预设策略得到。Ti=(ti1,ti2,......,tin),n为时间段。Pj=(t1j,t2j,......,tnj)表示第j个交易日的数据,j=(1,...,n)。tij表示第i个商品第j个交易日的数据,在本申请实施例中,tij是商品在某个交易日的销售量。在实际应用中,例如人气排行榜中,tij可以是商品的评价度。 <BR>本发明实施例以m种商品在n天内的销量数据为例进行说明,本发明实施例的过滤方法也可应用于与其他形式的二维数据的过滤,以及可以变换为二维数据的其他数据。 <BR>步骤S102,数据过滤设备判断原始数据的缺损程度,根据原始数据的缺损程度确定原始数据是否需要进行数据过滤,如果不需要数据过滤,结束;如果需要进行数据过滤,执行步骤S103; <BR>步骤S103,判断原始数据是否需要进行缺损数据补值,如果需要数据补值,执行步骤S104,否则,直接将原始数据作为历史数据,执行步骤S105。 <BR>除了本发明实施例列举的如步骤S102和S103所示的判断方式,也可以根据原始数据的缺损程度先确定原始数据是否需要进行缺损数据补值,如果需要数据补值,执行步骤S104,否则,继续判断是否需要数据过滤,如果不需要数据过滤,结束;如果需要进行数据过滤,执行步骤S105。 <BR>原始数据可能存在缺损。对于一种商品,当商品某些时间内不在架上时,该时间内相应的数据会缺损,例如,当步骤S101中第a个商品在b个交易日不在架上时,则数据tab缺损。本申请实施例内设置一缺损阈值,衡量商品的数据缺损程度。当缺损的数据超过缺损阈值的时候,不对原始数据进行缺损数据补值,也不进行数据过滤。当缺损的数据没有超过缺损阈值的时候,需要判断是否对原始数据进行缺损数据补值。缺损阈值可以是缺损数据百分比,也可以是具体的天数,例如当时间段为10天时,可以设定缺损阈值为5天,如果数据不完整,且缺损的数据超过5天,则不进行缺损数据补值,也不进行数据过滤。 <BR>判断原始数据是否需要进行缺损数据补值具体包括: <BR>如果在时间段内的数据是完整的,则不需要进行缺损数据补值;如果在时间段内的数据不完整,且缺损的数据低于缺损阈值,则进行缺损数据补值。 <BR>本申请实施例中针对每一种商品分别进行上述缺损补值处理。 <BR>步骤S104,数据过滤设备利用熵值理论根据原始数据模拟缺损数据,将模拟得到缺损值补充进原始数据,得到历史数据。 <BR>缺损的数据对后期的数据过滤产生严重的影响。考虑到商品不在架上并不代表销量为0,因此以直接以0表示缺损的数据对排行结果的准确性影响较大,一种正确的思路应该是模拟出该商品在架的当日交易量。在信息论中,信息熵是一个信源发出某一消息所含信息量的度量,当某一信源发出的消息越确定,该信源的信息熵就越小。它是系统无序程度或混乱程度的度量,表示了系统的平均不确定度。而熵值法是一种通过属性数值所提供信息的大小来确定权重系数的一种方法。它具有客观性强,评价过程透明性和可再现性好的特点。例如,对于确定的属性j,各数据第j个属性之间的差异越大,则说明该项指标的相对作用就越大,即其信息量就越大,熵值越小。 <BR>本申请实施例中根据熵值理论对缺损的原始数据进行模拟。 <BR>如图2所示,假设原始数据中第a个商品第b个交易日的数据tab缺损,以模拟tab缺损值为例说明如下: <BR>步骤S1041,根据原始数据中第a个商品的非缺损数据,计算数据不缺损的每一个交易日的熵值I。 <BR>假定任一交易日为f,f的取值为数据不缺损的交易日,则第f个交易日的熵值通过下式得到: <BR>If=‑k·pf·ln(pf) <BR>其中,k=1/ln(n),<MATHS num="0002"><MATH><![CDATA[ <mrow> <MSUB><MI>p</MI> <MI>f</MI> </MSUB><MO>=</MO> <MFRAC><MSUB><MI>d</MI> <MI>f</MI> </MSUB><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>i</MI> <MO>=</MO> <MN>1</MN> </MROW><MI>n</MI> </MUNDEROVER><MSUB><MI>d</MI> <MI>i</MI> </MSUB></MROW></MFRAC><MO>,</MO> </MROW>]]&gt;</MATH></MATHS> <BR>其中,表示第f个交易日数据与所缺损的第b个交易日数据的距离,体现了两者的相关性。tab缺损,故计算时i不等于a。 <BR>步骤S1042,根据第f个交易日的熵值,计算第f个交易日的差异系数。 <BR>第f个交易日的差异系数rf=1‑If,f=1,2,...,n, <BR>差异系数是反应数据作用大小的量,其值越大,第f个交易日的数据体的作用越大,反之亦然。 <BR>步骤S1043,根据第f个交易日的差异系数,计算第f个交易日的权重系数。 <BR><MATHS num="0003"><MATH><![CDATA[ <mrow><MSUB><MI>w</MI> <MI>f</MI> </MSUB><MO>=</MO> <MFRAC><MSUB><MI>r</MI> <MI>f</MI> </MSUB><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>i</MI> <MO>=</MO> <MN>1</MN> </MROW><MI>m</MI> </MUNDEROVER><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MROW></MFRAC><MO>,</MO> <MI>f</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW>]]&gt;</MATH></MATHS> <BR>步骤S1044,根据计算得到的各个数据不缺损的交易日的权重系数,计算第b个交易日的缺损值tab。 <BR>tab=w1ta1+w2ta2+...w(b‑1)ta(b‑1)+w(b+1)ta(b+1)+...+wntan <BR>从而达到填补缺损值tab的效果。 <BR>上述以缺损一个数据为例说明了数据补值的过程,当原始数据缺损多个数据并且需要进行数据补值的时侯,根据原始数据中非缺损的数据分别计算各个缺损数据。 <BR>在本申请实施例提供的缺损值补值方法中,考虑了原始数据中横向与纵向的数据相关性,具有很好的客观性,相对于其他的缺损值填补方法,具有较低的时间复杂度。 <BR>步骤S105,根据历史数据和排行日数据,计算商品排行日数据的进榜单概率。 <BR>数据过滤设备在历史数据中补充排行日当天的数据,即排行日数据。 <BR>在本申请实施例中,利用贝叶斯(Bayes)模型计算排行日数据的进榜单概率,其核心就是根据商品排行日当天的销量判断该商品当前在该销量下能否进榜单,若不能则过滤;反之,则不过滤。即,计算该商品当日在该销量下能否进榜单的概率,若概率小于某一给定的值,则过滤;反之,则不过滤。另外,进榜单概率是一个归一化至[0,1]区间内的值,通过本申请实施例提供的朴素贝叶斯模型得出的结果,不需要考虑不同的商品类别,即不采用先分类再过滤的思想,因为本方法中能够通过对比该商品的历史数据与排行日数据,从而知道当前排行日数据进榜单的概率,并且商品的分类思想其实已经被这种概率思想所涵盖。 <BR>具体的,步骤S105包括: <BR>步骤S1051,计算商品历史数据进入排行榜的概率,商品历史数据小于排行日数据时进入排行榜的概率,商品历史数据小于排行日数据的概率。 <BR>商品历史数据小于排行日数据时进入排行榜的概率为商品历史数据小于排行日数据时进入排行榜的次数与商品数据进入排行榜的次数的比值,商品历史数据进入排行榜的概率为商品数据进入排行榜的次数与时间段内总次数的比值,商品历史数据小于排行日数据的概率为商品历史数据小于排行日数据时的次数与时间段内总次数的比值。在本实施例中,一天排序一次,因此可以以天数表示次数来进行计算。 <BR>步骤S1052,根据商品历史数据进入排行榜的概率,商品历史数据小于排行日数据时进入排行榜的概率,以及时间段计算商品排行日数据的进榜单概率。 <BR>下面以具体的示例对步骤S105中计算商品排行日数据的进榜单概率的过程进行说明,可以根据历史数据和排行日数据得到完整数据为: <BR><MATHS num="0004"><MATH><![CDATA[ <mrow><MI>X</MI> <MO>=</MO> <MSUP><MROW><MO>(</MO> <MSUB><MI>X</MI> <MN>1</MN> </MSUB><MO>,</MO> <MSUB><MI>X</MI> <MN>2</MN> </MSUB><MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MSUB><MI>X</MI> <MI>m</MI> </MSUB><MO>)</MO> </MROW><MO>'</MO> </MSUP><MO>=</MO> <MFENCED close="]" open="["><MTABLE><MTR><MTD><MSUB><MI>t</MI> <MN>11</MN> </MSUB></MTD><MTD><MSUB><MI>t</MI> <MN>12</MN> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>1</MN> <MI>j</MI> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>1</MN> <MI>n</MI> </MROW></MSUB></MTD><MTD><MSUB><MI>x</MI> <MN>11</MN> </MSUB></MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MN>21</MN> </MSUB></MTD><MTD><MSUB><MI>t</MI> <MN>22</MN> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>2</MN> <MI>j</MI> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>2</MN> <MI>n</MI> </MROW></MSUB></MTD><MTD><MSUB><MI>x</MI> <MN>21</MN> </MSUB></MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB></MTD><MTD><MSUB><MI>t</MI> <MROW><MI>i</MI> <MN>2</MN> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>in</MI> </MSUB></MTD><MTD><MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB></MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MROW><MI>m</MI> <MN>1</MN> </MROW></MSUB></MTD><MTD><MSUB><MI>t</MI> <MROW><MI>m</MI> <MN>2</MN> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>mj</MI> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>mn</MI> </MSUB></MTD><MTD><MSUB><MI>x</MI> <MROW><MI>m</MI> <MN>1</MN> </MROW></MSUB></MTD></MTR></MTABLE></MFENCED></MROW>]]&gt;</MATH></MATHS> <BR>其中,x=(x11,x21,...,xm1)’,为排行日当天的排行日数据,该数据可以是商品在当天的交易量。以第i种商品为例,第i种商品在排行日当天的交易量为Xi1,商品的历史数据为(ti1,ti2,...,tin)。令集合U为进榜数据集,V为未进榜数据集。进榜数据集和未进榜数据集可以由数据服务器进行记录,当数据过滤设备从数据服务器获取原始数据的时候,可以同时获取进榜数据集和未进榜数据集。 <BR>(1),商品历史数据小于排行日数据时进入排行榜的概率为P(B|A): <BR> <BR><MATHS num="0005"><MATH><![CDATA[ <mrow><MO>=</MO> <MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&lt;</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MROW><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW></MROW></MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&amp;Element;</MO> <MI>U</MI> <MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>(2),商品历史数据进入排行榜的概率为P(A): <BR> <BR><MATHS num="0006"><MATH><![CDATA[ <mrow><MO>=</MO> <MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW></MROW><MI>n</MI> </MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&amp;Element;</MO> <MI>U</MI> <MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>(3),商品历史数据小于排行日数据的概率P(B): <BR> <BR><MATHS num="0007"><MATH><![CDATA[ <mrow><MO>=</MO> <MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>&lt;</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MROW><MI>n</MI> </MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>&amp;Element;</MO> <MROW><MO>(</MO> <MI>U</MI> <MO>∪</MO> <MI>V</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>其中,(1)(2)(3)中的计算不分前后顺序。 <BR>(4),商品排行日数据的进榜单概率为P(A|B): <BR>根据(1)(2)(3)的计算结果,可以得到商品在排行日的排行日数据的进榜单概率: <BR><MATHS num="0008"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>|</MO> <MI>B</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>,</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>|</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC></MROW>]]&gt;</MATH></MATHS> <BR><MATHS num="0009"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>|</MO> <MI>B</MI> <MO>=</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&lt;</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MROW><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW></MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW></MROW><MI>n</MI> </MFRAC></MROW><MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>&lt;</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MROW><MI>n</MI> </MFRAC></MFRAC></MROW>]]&gt;</MATH></MATHS> <BR>其中,(tij∈U,tij′∈(U∪V))。 <BR>对于步骤S105,在计算时,可以分别计算每一种商品排行日数据的进榜单概率,在本实施例中,计算一种商品时,只需要该商品的历史数据即可,也可以利用矩阵中的数据同时计算所有商品排行日数据的进榜单概率。 <BR>步骤S106,对进榜单概率和概率阈值进行比较,根据比较结果判断是否过滤商品的排行日数据。具体的,如果进榜单概率大于概率阈值,则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。 <BR>在步骤S106之前包括,设定概率阈值。 <BR>其中,概率阈值是一个归一化至[0,1]区间内的值,概率阈值为可以通过实际的数据分析结果得到的经验值。 <BR>需要说明,步骤S104中的利用熵值理论进行缺损数据补值的方法为优选的补值方式,也可以根据其他补值算法进行补值,例如基于广义马氏距离的缺损数据补值算法。 <BR>在本申请实施例中,根据商品历史数据进入排行榜的概率以及排行日数据与商品历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜单概率大于概率阈值,则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。通过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定是否过滤排行日数据,提高了排行榜数据过滤的准确性。 <BR>在上述实施例提供的排行榜数据过滤方法中,考虑了同一种商品不同交易日数据之间的关系,得出了较为准确的过滤结果。但是,在同一个交易日,不同商品的数据之间也存在相互影响,本发明又一实施例提供了一种排行榜数据过滤方法,将同一个交易日不同商品的数据之间也存在相互影响考虑在内,即,将上述完整数据中的纵向数据相关性信息也考虑在内。 <BR>在本实施例中,步骤S201~步骤S204同步骤S101~步骤S104。 <BR>步骤S205,根据完整数据,计算商品的排行日数据的进榜单概率。 <BR>在本实施例中,一天排行一次,因此以天数表示次数来进行计算。 <BR>具体的,步骤S205包括: <BR>步骤S2051,计算商品进入排行榜时有效数据差值的概率,计算商品进入排行榜时的数据差值的概率,计算商品数据差值总概率。 <BR>其中,完整数据中最后一天的数据为排行日数据,排行日数据之前的其他数据为历史数据。商品进入排行榜时有效数据差值的概率为商品进入排行榜时的天数内有效数据差值的累加与商品进入排行榜时的天数内数据差值的累加的比值,商品进入排行榜时的数据差值的概率为商品进入排行榜时的天数内数据差值的累加与商品在时间段内数据差值的累加的比值,商品数据差值总概率为商品在时间段内有效数据差值的累加与商品在时间段内数据差值的累加的比值。 <BR>步骤S2052,根据商品进入排行榜时有效数据差值的概率,商品进入排行榜时的数据差值的概率,以及商品数据差值总概率,计算商品的排行日数据的进榜单概率。 <BR>下面以具体的示例对步骤S205中计算商品在交易日的进榜单概率的过程进行说明,完整数据为: <BR><MATHS num="0010"><MATH><![CDATA[ <mrow><MI>X</MI> <MO>=</MO> <MSUP><MROW><MO>(</MO> <MSUB><MI>X</MI> <MN>1</MN> </MSUB><MO>,</MO> <MSUB><MI>X</MI> <MN>2</MN> </MSUB><MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MSUB><MI>X</MI> <MI>m</MI> </MSUB><MO>)</MO> </MROW><MO>'</MO> </MSUP><MO>=</MO> <MFENCED close="]" open="["><MTABLE><MTR><MTD><MSUB><MI>t</MI> <MN>11</MN> </MSUB></MTD><MTD><MSUB><MI>t</MI> <MN>12</MN> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>1</MN> <MI>j</MI> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>1</MN> <MI>n</MI> </MROW></MSUB></MTD><MTD><MSUB><MI>x</MI> <MN>11</MN> </MSUB></MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MN>21</MN> </MSUB></MTD><MTD><MSUB><MI>t</MI> <MN>22</MN> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>2</MN> <MI>j</MI> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MROW><MN>2</MN> <MI>n</MI> </MROW></MSUB></MTD><MTD><MSUB><MI>x</MI> <MN>21</MN> </MSUB></MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB></MTD><MTD><MSUB><MI>t</MI> <MROW><MI>i</MI> <MN>2</MN> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>in</MI> </MSUB></MTD><MTD><MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB></MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD></MTD><MTD><MO>.</MO> </MTD><MTD><MO>.</MO> </MTD></MTR><MTR><MTD><MSUB><MI>t</MI> <MROW><MI>m</MI> <MN>1</MN> </MROW></MSUB></MTD><MTD><MSUB><MI>t</MI> <MROW><MI>m</MI> <MN>2</MN> </MROW></MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>mj</MI> </MSUB></MTD><MTD><MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> </MTD><MTD><MSUB><MI>t</MI> <MI>mn</MI> </MSUB></MTD><MTD><MSUB><MI>x</MI> <MROW><MI>m</MI> <MN>1</MN> </MROW></MSUB></MTD></MTR></MTABLE></MFENCED></MROW>]]&gt;</MATH></MATHS> <BR>其中,x=(x11,x21,...,xm1)’,为排行日当天的数据。 <BR>在本实施例提供的数据过滤方法中,引入了数据指数的概念,用于计算排行日数据的进榜单概率。以rij表示第i个商品在第j个交易日的数据指数,在本实施例中,rij为销量指数,取第j个交易日的部分商品的数据作为数据样本来计算rij,用rij表示第i个商品在第j个交易日在该数据样本销售情况中的销量地位。 <BR>对于某个数据tij对应的rij,rij=rank(tij),(j∈Sij),Sij为数据样本,可以取tij邻近的Ns个数据作为数据样本Sij,即rij表示tij在第j列邻近的Ns个数据的排名,同样,ri为排行日数据xi1在排行日当天的邻近的Ns个数据中的排名,ri=rank(x),(j∈Si)。 <BR>数据样本的大小Ns可以在计算之前根据经验值进行设定,例如,计算rij时,取数据样本大小为30,则取tij邻近的30个数据进行计算,另外,可以取第j个交易日以tij为中心的Ns个数据作为数据样本,也可以取从tij开始的Ns个数据作为数据样本,即这30个数据可以是(t(i‑14)j,t(i‑13)j,...,t(i+15)j)’,这30个数据也可以是(tij,t(i+1)j,...,t(i+29)j)’。 <BR>通过数据指数的设定,相当于给某个交易日数据对排行日数据的影响增加了一项权重因子,在合理控制计算量的同时,将某个交易日当天的市场整体交易情况纳入了计算的考虑的范围,更加准确的衡量了历史数据对排行日数据的影响,提高了估算排行日数据进榜单概率的准确性。 <BR>下面具体说明计算商品排行日数据的进榜单概率的过程: <BR>(1),历史数据进入排行榜时有效数据差值的概率为P(B|A): <BR> <BR> <BR><MATHS num="0011"><MATH><![CDATA[ <mrow><MO>=</MO> <MFRAC><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC></MROW></MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&amp;Element;</MO> <MI>U</MI> <MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>(2),历史数据进入排行榜时的数据差值的概率为P(A): <BR> <BR> <BR><MATHS num="0012"><MATH><![CDATA[ <mrow><MO>=</MO> <MFRAC><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO></MO></MROW><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC></MROW></MFRAC><MO>,</MO> </MROW>]]&gt;</MATH></MATHS> <BR>(tij∈U,tij′∈(U∪V)) <BR>(3),数据差值总概率为P(B): <BR> <BR> <BR><MATHS num="0013"><MATH><![CDATA[ <mrow><MO>=</MO> <MFRAC><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC></MROW></MFRAC><MO>,</MO> </MROW>]]&gt;</MATH></MATHS> <BR>(tij∈U,tij′∈(U∪V)) <BR>其中,(1)(2)(3)中的计算不分前后顺序。 <BR>(4),商品的排行日数据的进榜单概率为P(A|B): <BR>根据(1)(2)(3)的计算结果,可以得到商品的排行日数据的进榜单概率: <BR><MATHS num="0014"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>|</MO> <MI>B</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>,</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>|</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC></MROW>]]&gt;</MATH></MATHS> <BR><MATHS num="0015"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>|</MO> <MI>B</MI> <MO>=</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC></MROW></MFRAC></MROW>]]&gt;</MATH></MATHS> <BR>其中,(tij∈U,tij′∈(U∪V)) <BR>步骤S206同步骤S106。 <BR>在本申请实施例中,根据商品历史数据进入排行榜的概率以及排行日数据与商品历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜单概率大于概率阈值,则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。通过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定是否过滤排行日数据,提高了排行榜数据过滤的准确性。 <BR>为了实现本申请实施例的技术方案,基于与上述方法实施例相同的技术构思,本申请实施例还提供了一种数据过滤设备,其结构示意图如图3所示,具体包括: <BR>获取单元11,用于从数据存储设备获取排行日之前预设时间段内的原始数据; <BR>处理单元12,用于根据所述获取单元11获取的原始数据的缺损程度对所述原始数据进行处理得到历史数据; <BR>计算单元13,用于根据所述所述历史数据和排行日数据进行计算,确定排行日数据的进榜单概率; <BR>过滤单元14,用于当所述计算单元13计算得到的排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数据。 <BR>其中,所述计算单元13,具体用于 <BR>根据所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概率,以及历史数据小于排行日数据的概率;根据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概率、以及历史数据小于排行日数据的概率,计算排行日数据的进榜单概率。 <BR>其中,所述历史数据取值小于排行日数据取值时进入排行榜的概率 <BR><MATHS num="0016"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>|</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&lt;</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MROW><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW></MROW></MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&amp;Element;</MO> <MI>U</MI> <MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>其中,xi1为第i种商品的排行日数据,tij为第i个商品在第j个交易日的数据,U为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为预设的时间段; <BR>所述历史数据进入排行榜的概率 <BR><MATHS num="0017"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW></MROW><MI>n</MI> </MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&amp;Element;</MO> <MI>U</MI> <MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>所述历史数据小于排行日数据的概率 <BR><MATHS num="0018"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MUNDER><MI>count</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>n</MI> </MROW></MUNDER><MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>&lt;</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MROW><MI>n</MI> </MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&amp;Element;</MO> <MI>U</MI> <MO>,</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>&amp;Element;</MO> <MROW><MO>(</MO> <MI>U</MI> <MO>∪</MO> <MI>V</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW></MROW>]]&gt;</MATH></MATHS> <BR>所述排行日数据的进榜单概率<MATHS num="0019"><MATH><![CDATA[ <mrow> <MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>|</MO> <MI>B</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>,</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>|</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC><MO>.</MO> </MROW>]]&gt;</MATH></MATHS> <BR>其中,所述计算单元13,具体用于, <BR>根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值的概率,历史数据进入排行榜时的数据差值的概率,以及数据差值总概率;根据所述历史数据进入排行榜时有效数据差值的概率,历史数据进入排行榜时的数据差值的概率,以及数据差值总概率,确定排行日数据的进榜单概率。 <BR>其中,所述历史数据进入排行榜时有效数据差值的概率 <BR><MATHS num="0020"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>|</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC></MROW></MFRAC><MO>,</MO> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>&amp;Element;</MO> <MI>U</MI> <MO>)</MO> </MROW><MO>;</MO> </MROW>]]&gt;</MATH></MATHS> <BR>其中,xi1为所述第i种商品在排行日当天的数据,tij为第i个商品在第j个交易日的数据,rij为tij在第j列中部分商品数据组成的数据样本中的排名,ri为xi1在排行日当天部分商品数据组成的数据样本中的排名,U为历史数据进入排行榜的进榜数据集,n为时间段; <BR>所述历史数据进入排行榜时的数据差值的概率 <BR><MATHS num="0021"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO></MO></MROW><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC></MROW></MFRAC><MO>,</MO> </MROW>]]&gt;</MATH></MATHS> <BR>(tij∈U,tij′∈(U∪V)); <BR>其中,V为历史数据的未进榜数据集; <BR>所述数据差值总概率 <BR><MATHS num="0022"><MATH><![CDATA[ <mrow><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>&amp;CenterDot;</MO> <MFRAC><MSUB><MI>r</MI> <MI>ij</MI> </MSUB><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MFRAC></MROW><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&gt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MROW><MO>(</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>-</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>)</MO> </MROW><MO>+</MO> <MUNDEROVER><MI>Σ</MI> <MROW><MI>j</MI> <MO>=</MO> <MN>1</MN> <MO>,</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>&lt;</MO> <MSUB><MI>t</MI> <MI>ij</MI> </MSUB></MROW><MI>n</MI> </MUNDEROVER><MFRAC><MN>1</MN> <MROW><MO>(</MO> <MSUP><MSUB><MI>t</MI> <MI>ij</MI> </MSUB><MO>′</MO> </MSUP><MO>-</MO> <MSUB><MI>x</MI> <MROW><MI>i</MI> <MN>1</MN> </MROW></MSUB><MO>)</MO> </MROW></MFRAC></MROW></MFRAC><MO>,</MO> </MROW>]]&gt;</MATH></MATHS> <BR>(tij∈U,tij′∈(U∪V)); <BR>所述排行日数据的进榜单概率<MATHS num="0023"><MATH><![CDATA[ <mrow> <MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>|</MO> <MI>B</MI> <MO>)</MO> </MROW><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>,</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC><MO>=</MO> <MFRAC><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>|</MO> <MI>A</MI> <MO>)</MO> </MROW><MO>&amp;CenterDot;</MO> <MI>P</MI> <MROW><MO>(</MO> <MI>A</MI> <MO>)</MO> </MROW></MROW><MROW><MI>P</MI> <MROW><MO>(</MO> <MI>B</MI> <MO>)</MO> </MROW></MROW></MFRAC><MO>.</MO> </MROW>]]&gt;</MATH></MATHS> <BR>其中,所述处理单元12,具体用于, <BR>根据时间段内的原始数据中的非缺损数据,计算每一个数据非缺损的交易日的熵值;根据所述交易日的熵值,计算在所述交易日的差异系数;根据所述交易日的差异系数,计算所述交易日的权重系数; <BR>根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。 <BR>其中,所述计算缺损值包括: <BR>第f个交易日的熵值If=‑k·pf·ln(pf); <BR>其中,k=1/ln(n),n为表示参与排序的时间长度的时间段; <BR>其中,df用于表示第f个交易日数据与所缺损数据之间的距离;tif为值在第f个交易日第i种商品的数据,tib为在第b个交易日第i种商品的数据; <BR>所述根据所述交易日的熵值计算在所述交易日的差异系数包括: <BR>rf=1‑If,,其中f=1,2,...,n; <BR>所述根据所述交易日的差异系数计算所述交易日的权重系数包括: <BR><MATHS num="0024"><MATH><![CDATA[ <mrow><MSUB><MI>w</MI> <MI>f</MI> </MSUB><MO>=</MO> <MFRAC><MSUB><MI>r</MI> <MI>f</MI> </MSUB><MROW><MUNDEROVER><MI>Σ</MI> <MROW><MI>i</MI> <MO>=</MO> <MN>1</MN> </MROW><MI>m</MI> </MUNDEROVER><MSUB><MI>r</MI> <MI>i</MI> </MSUB></MROW></MFRAC><MO>,</MO> <MI>f</MI> <MO>=</MO> <MN>1,2</MN> <MO>,</MO> <MO>.</MO> <MO>.</MO> <MO>.</MO> <MO>,</MO> <MI>m</MI> </MROW>]]&gt;</MATH></MATHS> <BR>所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括: <BR>tab=w1ta1+w2ta2+...w(b‑1)ta(b‑1)+w(b+1)ta(b+1)+...+wntan <BR>其中,tab为缺损值。 <BR>在本申请实施例中提供的数据过滤设备,根据商品历史数据进入排行榜的概率以及排行日数据与商品历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜单概率大于概率阈值,则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。通过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定是否过滤排行日数据,提高了排行榜数据过滤的准确性。 <BR>通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD‑ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本申请实施例各个实施场景所述的方法。 <BR>本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请实施例所必须的。 <BR>本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。 <BR>上述本申请实施例序号仅仅为了描述,不代表实施场景的优劣。 <BR>以上公开的仅为本申请实施例的几个具体实施场景,但是,本申请实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请实施例的业务限制范围。</p></div> </div> </div> </div> <div class="tempdiv cssnone" style="line-height:0px;height:0px; overflow:hidden;"> </div> <div id="page"> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot2/2018-9/11/9d7f4745-6818-4b11-8937-e8ce0ca9cb99/9d7f4745-6818-4b11-8937-e8ce0ca9cb991.gif' alt="一种排行榜数据过滤的方法和设备.pdf_第1页" width='100%'/></div><div class="pageSize">第1页 / 共20页</div> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot2/2018-9/11/9d7f4745-6818-4b11-8937-e8ce0ca9cb99/9d7f4745-6818-4b11-8937-e8ce0ca9cb992.gif' alt="一种排行榜数据过滤的方法和设备.pdf_第2页" width='100%'/></div><div class="pageSize">第2页 / 共20页</div> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot2/2018-9/11/9d7f4745-6818-4b11-8937-e8ce0ca9cb99/9d7f4745-6818-4b11-8937-e8ce0ca9cb993.gif' alt="一种排行榜数据过滤的方法和设备.pdf_第3页" width='100%'/></div><div class="pageSize">第3页 / 共20页</div> </div> <div id="pageMore" class="btnmore" onclick="ShowSvg();">点击查看更多>></div> <div style="margin-top:20px; line-height:0px; height:0px; overflow:hidden;"> <div style=" font-size: 16px; background-color:#e5f0f7; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px; margin-bottom:10px;">资源描述</div> <div class="detail-article prolistshowimg"> <p>《一种排行榜数据过滤的方法和设备.pdf》由会员分享,可在线阅读,更多相关《一种排行榜数据过滤的方法和设备.pdf(20页珍藏版)》请在专利查询网上搜索。</p> <p >1、(10)申请公布号 CN 102880603 A (43)申请公布日 2013.01.16 C N 1 0 2 8 8 0 6 0 3 A *CN102880603A* (21)申请号 201110192515.2 (22)申请日 2011.07.11 G06F 17/30(2006.01) (71)申请人阿里巴巴集团控股有限公司 地址英属开曼群岛大开曼资本大厦一座四 层847号邮箱 (72)发明人陈欢 罗佳佳 (74)专利代理机构北京鑫媛睿博知识产权代理 有限公司 11297 代理人龚家骅 (54) 发明名称 一种排行榜数据过滤的方法和设备 (57) 摘要 本申请实施例公开了一种排行榜数据过。</p> <p >2、滤的 方法。该方法包括:数据过滤设备从数据存储设 备获取排行日之前预设时间段内的原始数据;数 据过滤设备根据所述原始数据的缺损程度对所述 原始数据进行补值处理得到历史数据;数据过滤 设备根据所述历史数据和所述排行日数据进行计 算,确定排行日数据的进榜单概率;数据过滤设 备在排行日数据的进榜单概率小于或等于概率阈 值时,过滤所述排行日数据。通过应用本申请实施 例的技术方案,提供了一种以历史数据为依据计 算排行日数据能否进入排行榜的进榜单概率,根 据该进榜单概率确定是否过滤排行日数据,提高 了排行榜数据过滤的准确性。 (51)Int.Cl. 权利要求书5页 说明书12页 附图2页 (19)中华人民。</p> <p >3、共和国国家知识产权局 (12)发明专利申请 权利要求书 5 页 说明书 12 页 附图 2 页 1/5页 2 1.一种排行榜数据过滤方法,其特征在于,包括: 数据过滤设备从数据存储设备获取排行日之前预设时间段内的原始数据; 数据过滤设备根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史 数据; 数据过滤设备根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进榜 单概率; 数据过滤设备在排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日数 据。 2.如权利要求1所述的方法,其特征在于,所述根据所述历史数据和所述排行日数据 进行计算,确定排行日数据的进榜单概率包括: 根据。</p> <p >4、所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据取 值小于排行日数据取值时进入排行榜的概率、以及历史数据取值小于排行日数据取值的概 率;根据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行 榜的概率、以及历史数据取值小于排行日数据取值的概率,计算排行日数据的进榜单概率。 3.如权利要求2所述的方法,其特征在于,所述历史数据取值小于排行日数据取值时 进入排行榜的概率通过下述方式得到: 所述历史数据进入排行榜的概率通过下述方式得到: 所述历史数据小于排行日数据的概率通过下述方式得到: 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为第i种统计。</p> <p >5、对象的排行日数据,t ij 为第i种统计对象在第j个交易日的数 据,U为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为预设的时间 段。 4.如权利要求1所述的方法,其特征在于,所述根据所述历史数据和所述排行日数据 进行计算,确定排行日数据的进榜单概率包括: 根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值的概 率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率;根据所述历史数据进 入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差 值总概率,确定排行日数据的进榜单概率。 5.如权利要求4所述的方法,其特征在于,所述历史。</p> <p >6、数据进入排行榜时有效数据差值 权 利 要 求 书CN 102880603 A 2/5页 3 的概率通过下述方式得到: 所述历史数据进入排行榜时的数据差值的概率通过下述方式得到: (t ij U,t ij (UV); 所述数据差值总概率通过下述方式得到: (t ij U,t ij (UV); 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为所述第i种统计对象在排行日当天的数据,t ij 为第i种统计对象在第j个 交易日的数据,r ij 为t ij 在第j列中部分统计对象的数据组成的数据样本中的排名,r i 为 x i1 在排行日当天部分统计对象的数据组成的数据样本中的排名,U为历。</p> <p >7、史数据进入排行榜 的进榜数据集,V为历史数据的未进榜数据集;n为时间段。 6.如权利要求1所述的方法,其特征在于,所述根据所述原始数据的缺损程度对所述 原始数据进行补值处理得到历史数据包括: 根据时间段内的原始数据中的非缺损数据计算每一个数据非缺损的交易日的熵值;根 据所述交易日的熵值计算在所述交易日的差异系数;根据所述交易日的差异系数计算所述 交易日的权重系数; 根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。 7.如权利要求6所述的方法,其特征在于,所述计算缺损值包括: 计算第f个交易日的熵值I f -kp f ln(p f ); 其中,k1/ln(n),n为表示参与排序的时。</p> <p >8、间长度的时间段; 其中,d f 用于表示第f个交易日数据与所缺损数据之间的距离; t if 为在第f个交易日第i统计对象的的数据,t ib 为在第b个交易日第i种统计对象的数 据; 权 利 要 求 书CN 102880603 A 3/5页 4 所述根据所述交易日的熵值计算在所述交易日的差异系数包括: r f 1-I f ,其中f1,2,.,n; 所述根据所述交易日的差异系数计算所述交易日的权重系数包括: 所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括: t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) 。</p> <p >9、+.+w n t an 其中,t ab 为缺损值。 8.一种数据过滤设备,其特征在于,包括: 获取单元,用于从数据存储设备获取排行日之前预设时间段内的原始数据; 处理单元,用于根据所述原始数据的缺损程度对所述原始数据进行补值处理得到历史 数据; 计算单元,用于根据所述历史数据和所述排行日数据进行计算,确定排行日数据的进 榜单概率; 过滤单元,用于当排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行日 数据。 9.如权利要求8所述的设备,其特征在于,所述计算单元,具体用于: 根据所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据取 值小于排行日数据取值时进入排行榜的概率、以。</p> <p >10、及历史数据取值小于排行日数据取值的概 率;根据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行 榜的概率、以及历史数据取值小于排行日数据取值的概率,计算排行日数据的进榜单概率。 10.如权利要求9所述的设备,其特征在于,所述历史数据取值小于排行日数据取值时 进入排行榜的概率通过下述方式得到: 所述历史数据进入排行榜的概率通过下述方式得到: 所述历史数据小于排行日数据的概率通过下述方式得到: 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为第i种统计对象的排行日数据,t ij 为第i种统计对象在第j个交易日的数 据,U为历史数据进入排行榜的进榜数据集,V为历。</p> <p >11、史数据的未进榜数据集,n为预设的时间 段。 权 利 要 求 书CN 102880603 A 4/5页 5 11.如权利要求8所述的设备,其特征在于,所述计算单元,具体用于, 根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值的概 率、历史数据进入排行榜时的数据差值的概率、以及数据差值总概率;根据所述历史数据进 入排行榜时有效数据差值的概率、历史数据进入排行榜时的数据差值的概率、以及数据差 值总概率,确定排行日数据的进榜单概率。 12.如权利要求11所述的设备,其特征在于,所述历史数据进入排行榜时有效数据差 值的概率通过下述方式得到: 所述历史数据进入排行榜时的数据差值的概率通。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>12、过下述方式得到: (t ij U,t ij (UV); 所述数据差值总概率通过下述方式得到: (t ij U,t ij (UV); 所述排行日数据的进榜单概率通过下述方式得到: 其中,x i1 为所述第i种统计对象在排行日当天的数据,t ij 为第i个统计对象在第j个 交易日的数据,r ij 为t ij 在第j列中部分统计对象的数据组成的数据样本中的排名,r i 为 x i1 在排行日当天部分统计对象的数据组成的数据样本中的排名,U为历史数据进入排行榜 的进榜数据集,V为历史数据的未进榜数据集,n为时间段。 13.如权利要求8所述的设备,其特征在于,所述处理单元,具体用于, 根据时间段内的原始。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>13、数据中的非缺损数据,计算每一个数据非缺损的交易日的熵值; 根据所述交易日的熵值,计算在所述交易日的差异系数;根据所述交易日的差异系数,计算 所述交易日的权重系数; 根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。 14.如权利要求13所述的设备,其特征在于,所述计算缺损值包括: 计算第f个交易日的熵值I f -kp f ln(p f ); 权 利 要 求 书CN 102880603 A 5/5页 6 其中,k1/ln(n),n为表示参与排序的时间长度的时间段; 其中,d f 用于表示第f个交易日数据与所缺损数据之间的距离; t if 为值在第f个交易日第i种统计对象的数据,t i。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>14、b 为在第b个交易日第i种统计对象的 数据; 所述根据所述交易日的熵值计算在所述交易日的差异系数包括: r f 1-I f ,其中f1,2,.,n; 所述根据所述交易日的差异系数计算所述交易日的权重系数包括: 所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括: t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) +.+w n t an 其中,t ab 为缺损值。 权 利 要 求 书CN 102880603 A 1/12页 7 一种排行榜数据过滤的方法和设备 技术领域 0001 本申请涉及计算机技术领域,特别。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>15、涉及一种排行榜数据过滤的方法和设备。 背景技术 0002 排行榜作为现代社会很受关注的一项事物深入大家的生活。例如,电子购物网站 会提供各类产品的销量排行榜供给消费者(为描述方便,以下将消费者简称为买家)或商 家(为描述方便,以下将商家简称为卖家)参考。 0003 现有技术中,排行榜通常是通过对所有原始数据(例如商品销量排行榜,其原始 数据即为各种商品的销量)进行排序得到。但是,这种方式导致计算排行榜的效率很低,尤 其是在原始数据量很大的情况下,采用这种方式难以迅速得到排行榜。 0004 为了克服上述问题,现有技术中提供了一种排行榜数据过滤方法,该方法以下称 为阈值过滤方法。阈值过滤方法预先设。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>16、定阈值,只对大于阈值的数据进行排序,过滤掉阈值 以下的数据。这种方式可以降低参与排序的数据量,但是,阈值的设定存在不合理的情况, 将本来不应该被过滤的数据过滤掉。例如,对于销量排行榜,假定阈值为5,则应该将销量 在5以下的数据过滤掉,但是,有些商品本身的总体销量就很低,这就使得即使销量在5以 下的商品仍可能进榜单。因此,现有的阈值过滤方法无法准确的对原始数据进行过滤。 发明内容 0005 本申请实施例提供一种排行榜数据过滤的方法和设备,解决在现有技术中存在的 通过简单设定销量阈值的排行榜数据过滤方法无法准确的对原始数据进行过滤的问题,准 确的对原始数据进行过滤。 0006 为达到上述目的,本申。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>17、请实施例一方面提供了一种排行榜数据过滤方法,包括: 0007 数据过滤设备从数据存储设备获取排行日之前预设时间段内的原始数据; 0008 数据过滤设备根据所述原始数据的缺损程度对所述原始数据进行补值处理得到 历史数据; 0009 数据过滤设备根据所述历史数据和所述排行日数据进行计算,确定排行日数据的 进榜单概率; 0010 数据过滤设备在排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排行 日数据。 0011 另一方面,本申请实施例还提供了一种数据过滤设备,包括: 0012 获取单元,用于从数据存储设备获取排行日之前预设时间段内的原始数据; 0013 处理单元,用于根据所述原始数据的缺损程。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>18、度对所述原始数据进行处理得到历史 数据; 0014 计算单元,用于根据所述历史数据和所述排行日数据进行计算,确定排行日数据 的进榜单概率; 0015 过滤单元,用于当排行日数据的进榜单概率小于或等于概率阈值时,过滤所述排 说 明 书CN 102880603 A 2/12页 8 行日数据。 0016 与现有技术相比,本申请实施例具有以下优点: 0017 根据历史数据进入排行榜的概率以及排行日数据与统计对象的历史数据之间的 比较,计算排行日数据的进榜单概率,如果进榜单概率大于概率阈值,则不过滤排行日数 据,如果进榜单概率小于概率阈值,则过滤排行日数据。通过本申请实施例提供的排行榜 数据过滤方法,提。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>19、供了一种以历史数据为依据计算排行日数据能否进入排行榜的进榜单概 率,根据该进榜单概率是否大于某一设定的概率阈值来确定是否过滤排行日数据,提高了 排行榜数据过滤的准确性。 附图说明 0018 图1为本申请实施例提出的一种排行榜数据过滤方法的流程示意图; 0019 图2为本申请实施例提出的一种缺损数据补值方法的流程示意图; 0020 图3为本申请实施例提出的一种数据过滤设备的结构示意图。 具体实施方式 0021 如背景技术所述,现有技术中的排行榜数据过滤方法是通过设定阈值,并过滤数 值小于阈值的数据来进行排行榜原始数据的过滤,这种方法无法准确的对原始数据进行过 滤。 0022 为了解决现有技术的缺。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>20、陷,本申请提出了一种排行榜数据过滤方法。对当前参与 排行的数据进行过滤时,采用之前一定时间段内的原始数据作为参考,来确定当前参与排 行的数据是否需要过滤。该时间段的取值需要预先配置,可以为经验值或者根据预设策略 得到。 0023 以下以销量排行榜为例说明本申请实施例提供的排行榜数据过滤方法,以商品作 为统计对象,需要说明,本申请提供的排行榜数据过滤方法还可以适用于其他类型的排行 榜,例如人气排行榜等,以及适用于其他类型的排行榜对应的统计对象,例如人气指数等。 0024 如图1所示,该方法包括以下步骤: 0025 步骤S101,数据过滤设备从数据存储设备获取预先设定的时间段内的原始数据。 002。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>21、6 数据过滤设备直接从存储有需要过滤的数据的数据存储设备获取不同种类的商 品的销量数据,数据过滤设备将获取到的数据以适于进行过滤的方式进行记录,本实施例 中该方式可以但不限于矩阵方式,例如还可以为数组形式。在数据过滤设备发送给数据存 储设备的数据获取请求中,可以携带请求获取的数据的商品数和时间段。 0027 为了描述方便,以下以原始数据的形式为矩阵形式为例,如下所示: 说 明 书CN 102880603 A 3/12页 9 0028 0029 其中,T表示总的商品数据。T i 表示第i个商品的数据,i(1,.,m),m为原始 数据中的商品数,该商品数的取值为预先配置,可以为经验值或者根据预设策。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>22、略得到。T i (t i1 ,t i2 ,t in ),n为时间段。P j (t 1j ,t 2j ,t nj )表示第j个交易日的数据, j(1,.,n)。t ij 表示第i个商品第j个交易日的数据,在本申请实施例中,t ij 是商品 在某个交易日的销售量。在实际应用中,例如人气排行榜中,t ij 可以是商品的评价度。 0030 本发明实施例以m种商品在n天内的销量数据为例进行说明,本发明实施例的过 滤方法也可应用于与其他形式的二维数据的过滤,以及可以变换为二维数据的其他数据。 0031 步骤S102,数据过滤设备判断原始数据的缺损程度,根据原始数据的缺损程度确 定原始数据是否需要进行数据过。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>23、滤,如果不需要数据过滤,结束;如果需要进行数据过滤, 执行步骤S103; 0032 步骤S103,判断原始数据是否需要进行缺损数据补值,如果需要数据补值,执行步 骤S104,否则,直接将原始数据作为历史数据,执行步骤S105。 0033 除了本发明实施例列举的如步骤S102和S103所示的判断方式,也可以根据原始 数据的缺损程度先确定原始数据是否需要进行缺损数据补值,如果需要数据补值,执行步 骤S104,否则,继续判断是否需要数据过滤,如果不需要数据过滤,结束;如果需要进行数 据过滤,执行步骤S105。 0034 原始数据可能存在缺损。对于一种商品,当商品某些时间内不在架上时,该时间内 相应的。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>24、数据会缺损,例如,当步骤S101中第a个商品在b个交易日不在架上时,则数据t ab 缺损。本申请实施例内设置一缺损阈值,衡量商品的数据缺损程度。当缺损的数据超过缺 损阈值的时候,不对原始数据进行缺损数据补值,也不进行数据过滤。当缺损的数据没有超 过缺损阈值的时候,需要判断是否对原始数据进行缺损数据补值。缺损阈值可以是缺损数 据百分比,也可以是具体的天数,例如当时间段为10天时,可以设定缺损阈值为5天,如果 数据不完整,且缺损的数据超过5天,则不进行缺损数据补值,也不进行数据过滤。 0035 判断原始数据是否需要进行缺损数据补值具体包括: 0036 如果在时间段内的数据是完整的,则不需要进行缺损。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>25、数据补值;如果在时间段内 的数据不完整,且缺损的数据低于缺损阈值,则进行缺损数据补值。 0037 本申请实施例中针对每一种商品分别进行上述缺损补值处理。 0038 步骤S104,数据过滤设备利用熵值理论根据原始数据模拟缺损数据,将模拟得到 缺损值补充进原始数据,得到历史数据。 说 明 书CN 102880603 A 4/12页 10 0039 缺损的数据对后期的数据过滤产生严重的影响。考虑到商品不在架上并不代表销 量为0,因此以直接以0表示缺损的数据对排行结果的准确性影响较大,一种正确的思路应 该是模拟出该商品在架的当日交易量。在信息论中,信息熵是一个信源发出某一消息所含 信息量的度量,当某一。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>26、信源发出的消息越确定,该信源的信息熵就越小。它是系统无序程度 或混乱程度的度量,表示了系统的平均不确定度。而熵值法是一种通过属性数值所提供信 息的大小来确定权重系数的一种方法。它具有客观性强,评价过程透明性和可再现性好的 特点。例如,对于确定的属性j,各数据第j个属性之间的差异越大,则说明该项指标的相对 作用就越大,即其信息量就越大,熵值越小。 0040 本申请实施例中根据熵值理论对缺损的原始数据进行模拟。 0041 如图2所示,假设原始数据中第a个商品第b个交易日的数据t ab 缺损,以模拟t ab 缺损值为例说明如下: 0042 步骤S1041,根据原始数据中第a个商品的非缺损数据,计算数。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>27、据不缺损的每一个 交易日的熵值I。 0043 假定任一交易日为f,f的取值为数据不缺损的交易日,则第f个交易日的熵值通 过下式得到: 0044 I f -kp f ln(p f ) 0045 其中,k1/ln(n), 0046 其中,表示第f个交易日数据与所缺损的第b个交易 日数据的距离,体现了两者的相关性。t ab 缺损,故计算时i不等于a。 0047 步骤S1042,根据第f个交易日的熵值,计算第f个交易日的差异系数。 0048 第f个交易日的差异系数r f 1-I f ,f1,2,.,n, 0049 差异系数是反应数据作用大小的量,其值越大,第f个交易日的数据体的作用越 大,反之亦然。 。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>28、0050 步骤S1043,根据第f个交易日的差异系数,计算第f个交易日的权重系数。 0051 0052 步骤S1044,根据计算得到的各个数据不缺损的交易日的权重系数,计算第b个交 易日的缺损值t ab 。 0053 t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) +.+w n t an 0054 从而达到填补缺损值t ab 的效果。 0055 上述以缺损一个数据为例说明了数据补值的过程,当原始数据缺损多个数据并且 需要进行数据补值的时侯,根据原始数据中非缺损的数据分别计算各个缺损数据。 0056 在本申请实施例提供的缺。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>29、损值补值方法中,考虑了原始数据中横向与纵向的数据 相关性,具有很好的客观性,相对于其他的缺损值填补方法,具有较低的时间复杂度。 0057 步骤S105,根据历史数据和排行日数据,计算商品排行日数据的进榜单概率。 说 明 书CN 102880603 A 10 5/12页 11 0058 数据过滤设备在历史数据中补充排行日当天的数据,即排行日数据。 0059 在本申请实施例中,利用贝叶斯(Bayes)模型计算排行日数据的进榜单概率,其 核心就是根据商品排行日当天的销量判断该商品当前在该销量下能否进榜单,若不能则过 滤;反之,则不过滤。即,计算该商品当日在该销量下能否进榜单的概率,若概率小于某一给 。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>30、定的值,则过滤;反之,则不过滤。另外,进榜单概率是一个归一化至0,1区间内的值,通 过本申请实施例提供的朴素贝叶斯模型得出的结果,不需要考虑不同的商品类别,即不采 用先分类再过滤的思想,因为本方法中能够通过对比该商品的历史数据与排行日数据,从 而知道当前排行日数据进榜单的概率,并且商品的分类思想其实已经被这种概率思想所涵 盖。 0060 具体的,步骤S105包括: 0061 步骤S1051,计算商品历史数据进入排行榜的概率,商品历史数据小于排行日数据 时进入排行榜的概率,商品历史数据小于排行日数据的概率。 0062 商品历史数据小于排行日数据时进入排行榜的概率为商品历史数据小于排行日 数据时进。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>31、入排行榜的次数与商品数据进入排行榜的次数的比值,商品历史数据进入排行榜 的概率为商品数据进入排行榜的次数与时间段内总次数的比值,商品历史数据小于排行日 数据的概率为商品历史数据小于排行日数据时的次数与时间段内总次数的比值。在本实施 例中,一天排序一次,因此可以以天数表示次数来进行计算。 0063 步骤S1052,根据商品历史数据进入排行榜的概率,商品历史数据小于排行日数据 时进入排行榜的概率,以及时间段计算商品排行日数据的进榜单概率。 0064 下面以具体的示例对步骤S105中计算商品排行日数据的进榜单概率的过程进行 说明,可以根据历史数据和排行日数据得到完整数据为: 0065 0066 其中。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>32、,x(x 11 ,x 21 ,.,x m1 ),为排行日当天的排行日数据,该数据可以是商品在 当天的交易量。以第i种商品为例,第i种商品在排行日当天的交易量为X i1 ,商品的历史 数据为(t i1 ,t i2 ,.,t in )。令集合U为进榜数据集,V为未进榜数据集。进榜数据集和未 进榜数据集可以由数据服务器进行记录,当数据过滤设备从数据服务器获取原始数据的时 候,可以同时获取进榜数据集和未进榜数据集。 0067 (1),商品历史数据小于排行日数据时进入排行榜的概率为P(B|A): 0068 0069 说 明 书CN 102880603 A 11 6/12页 12 0070 (2),商品历。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>33、史数据进入排行榜的概率为P(A): 0071 0072 0073 (3),商品历史数据小于排行日数据的概率P(B): 0074 0075 0076 其中,(1)(2)(3)中的计算不分前后顺序。 0077 (4),商品排行日数据的进榜单概率为P(A|B): 0078 根据(1)(2)(3)的计算结果,可以得到商品在排行日的排行日数据的进榜单概 率: 0079 0080 0081 其中,(t ij U,t ij (UV)。 0082 对于步骤S105,在计算时,可以分别计算每一种商品排行日数据的进榜单概率,在 本实施例中,计算一种商品时,只需要该商品的历史数据即可,也可以利用矩阵中的数据同 时计。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>34、算所有商品排行日数据的进榜单概率。 0083 步骤S106,对进榜单概率和概率阈值进行比较,根据比较结果判断是否过滤商品 的排行日数据。具体的,如果进榜单概率大于概率阈值,则不过滤商品的排行日数据,如果 进榜单概率小于概率阈值,则过滤商品的排行日数据。 0084 在步骤S106之前包括,设定概率阈值。 0085 其中,概率阈值是一个归一化至0,1区间内的值,概率阈值为可以通过实际的 数据分析结果得到的经验值。 0086 需要说明,步骤S104中的利用熵值理论进行缺损数据补值的方法为优选的补值 方式,也可以根据其他补值算法进行补值,例如基于广义马氏距离的缺损数据补值算法。 0087 在本申请实施。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>35、例中,根据商品历史数据进入排行榜的概率以及排行日数据与商品 历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜单概率大于概率阈值, 则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。通 说 明 书CN 102880603 A 12 7/12页 13 过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数 据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定 是否过滤排行日数据,提高了排行榜数据过滤的准确性。 0088 在上述实施例提供的排行榜数据过滤方法中,考虑了同一种商品不同交易日数据 之间的关系,得出了。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>36、较为准确的过滤结果。但是,在同一个交易日,不同商品的数据之间也 存在相互影响,本发明又一实施例提供了一种排行榜数据过滤方法,将同一个交易日不同 商品的数据之间也存在相互影响考虑在内,即,将上述完整数据中的纵向数据相关性信息 也考虑在内。 0089 在本实施例中,步骤S201步骤S204同步骤S101步骤S104。 0090 步骤S205,根据完整数据,计算商品的排行日数据的进榜单概率。 0091 在本实施例中,一天排行一次,因此以天数表示次数来进行计算。 0092 具体的,步骤S205包括: 0093 步骤S2051,计算商品进入排行榜时有效数据差值的概率,计算商品进入排行榜时 的数据差值的概。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>37、率,计算商品数据差值总概率。 0094 其中,完整数据中最后一天的数据为排行日数据,排行日数据之前的其他数据为 历史数据。商品进入排行榜时有效数据差值的概率为商品进入排行榜时的天数内有效数据 差值的累加与商品进入排行榜时的天数内数据差值的累加的比值,商品进入排行榜时的数 据差值的概率为商品进入排行榜时的天数内数据差值的累加与商品在时间段内数据差值 的累加的比值,商品数据差值总概率为商品在时间段内有效数据差值的累加与商品在时间 段内数据差值的累加的比值。 0095 步骤S2052,根据商品进入排行榜时有效数据差值的概率,商品进入排行榜时的数 据差值的概率,以及商品数据差值总概率,计算商品的排行日。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>38、数据的进榜单概率。 0096 下面以具体的示例对步骤S205中计算商品在交易日的进榜单概率的过程进行说 明,完整数据为: 0097 0098 其中,x(x 11 ,x 21 ,.,x m1 ),为排行日当天的数据。 0099 在本实施例提供的数据过滤方法中,引入了数据指数的概念,用于计算排行日数 据的进榜单概率。以r ij 表示第i个商品在第j个交易日的数据指数,在本实施例中,r ij 为 销量指数,取第j个交易日的部分商品的数据作为数据样本来计算r ij ,用r ij 表示第i个商 品在第j个交易日在该数据样本销售情况中的销量地位。 0100 对于某个数据t ij 对应的r ij ,r ij。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>39、 rank(t ij ),(jS ij ),S ij 为数据样本,可以取t ij 邻近的N s 个数据作为数据样本S ij ,即r ij 表示t ij 在第j列邻近的N s 个数据的排名,同样, r i 为排行日数据x i1 在排行日当天的邻近的N s 个数据中的排名,r i rank(x),(jS i )。 0101 数据样本的大小N s 可以在计算之前根据经验值进行设定,例如,计算r ij 时,取数 说 明 书CN 102880603 A 13 8/12页 14 据样本大小为30,则取t ij 邻近的30个数据进行计算,另外,可以取第j个交易日以t ij 为 中心的N s 个数据作为数据样。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>40、本,也可以取从t ij 开始的N s 个数据作为数据样本,即这30个 数据可以是(t (i-14)j ,t (i-13)j ,.,t (i+15)j ),这30个数据也可以是(t ij ,t (i+1)j ,.,t (i+29)j )。 0102 通过数据指数的设定,相当于给某个交易日数据对排行日数据的影响增加了一项 权重因子,在合理控制计算量的同时,将某个交易日当天的市场整体交易情况纳入了计算 的考虑的范围,更加准确的衡量了历史数据对排行日数据的影响,提高了估算排行日数据 进榜单概率的准确性。 0103 下面具体说明计算商品排行日数据的进榜单概率的过程: 0104 (1),历史数据进入排行榜。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>41、时有效数据差值的概率为P(B|A): 0105 0106 0107 0108 (2),历史数据进入排行榜时的数据差值的概率为P(A): 0109 0110 0111 0112 (t ij U,t ij (UV) 0113 (3),数据差值总概率为P(B): 0114 0115 0116 0117 (t ij U,t ij (UV) 0118 其中,(1)(2)(3)中的计算不分前后顺序。 说 明 书CN 102880603 A 14 9/12页 15 0119 (4),商品的排行日数据的进榜单概率为P(A|B): 0120 根据(1)(2)(3)的计算结果,可以得到商品的排行日数据的进榜单概率。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>42、: 0121 0122 0123 其中,(t ij U,t ij (UV) 0124 步骤S206同步骤S106。 0125 在本申请实施例中,根据商品历史数据进入排行榜的概率以及排行日数据与商品 历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜单概率大于概率阈值, 则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤商品的排行日数据。通 过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数据为依据计算排行日数 据能否进入排行榜的进榜单概率,根据该进榜单概率是否大于某一设定的概率阈值来确定 是否过滤排行日数据,提高了排行榜数据过滤的准确性。 0126 为了实现本申请实。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>43、施例的技术方案,基于与上述方法实施例相同的技术构思,本 申请实施例还提供了一种数据过滤设备,其结构示意图如图3所示,具体包括: 0127 获取单元11,用于从数据存储设备获取排行日之前预设时间段内的原始数据; 0128 处理单元12,用于根据所述获取单元11获取的原始数据的缺损程度对所述原始 数据进行处理得到历史数据; 0129 计算单元13,用于根据所述所述历史数据和排行日数据进行计算,确定排行日数 据的进榜单概率; 0130 过滤单元14,用于当所述计算单元13计算得到的排行日数据的进榜单概率小于 或等于概率阈值时,过滤所述排行日数据。 0131 其中,所述计算单元13,具体用于 0132。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>44、 根据所述历史数据和排行日数据计算得到历史数据进入排行榜的概率、历史数据 取值小于排行日数据取值时进入排行榜的概率,以及历史数据小于排行日数据的概率;根 据所述历史数据进入排行榜的概率、历史数据取值小于排行日数据取值时进入排行榜的概 率、以及历史数据小于排行日数据的概率,计算排行日数据的进榜单概率。 0133 其中,所述历史数据取值小于排行日数据取值时进入排行榜的概率 0134 0135 其中,x i1 为第i种商品的排行日数据,t ij 为第i个商品在第j个交易日的数据,U 为历史数据进入排行榜的进榜数据集,V为历史数据的未进榜数据集,n为预设的时间段; 0136 所述历史数据进入排行榜的概。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>45、率 说 明 书CN 102880603 A 15 10/12页 16 0137 0138 所述历史数据小于排行日数据的概率 0139 0140 所述排行日数据的进榜单概率 0141 其中,所述计算单元13,具体用于, 0142 根据所述历史数据和排行日数据计算得到历史数据进入排行榜时有效数据差值 的概率,历史数据进入排行榜时的数据差值的概率,以及数据差值总概率;根据所述历史数 据进入排行榜时有效数据差值的概率,历史数据进入排行榜时的数据差值的概率,以及数 据差值总概率,确定排行日数据的进榜单概率。 0143 其中,所述历史数据进入排行榜时有效数据差值的概率 0144 0145 其中,x i1 。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>46、为所述第i种商品在排行日当天的数据,t ij 为第i个商品在第j个交易 日的数据,r ij 为t ij 在第j列中部分商品数据组成的数据样本中的排名,r i 为x i1 在排行日 当天部分商品数据组成的数据样本中的排名,U为历史数据进入排行榜的进榜数据集,n为 时间段; 0146 所述历史数据进入排行榜时的数据差值的概率 0147 0148 (t ij U,t ij (UV); 0149 其中,V为历史数据的未进榜数据集; 0150 所述数据差值总概率 0151 0152 (t ij U,t ij (UV); 0153 所述排行日数据的进榜单概率 说 明 书CN 102880603 A 16 。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>47、11/12页 17 0154 其中,所述处理单元12,具体用于, 0155 根据时间段内的原始数据中的非缺损数据,计算每一个数据非缺损的交易日的熵 值;根据所述交易日的熵值,计算在所述交易日的差异系数;根据所述交易日的差异系数, 计算所述交易日的权重系数; 0156 根据计算得到的每一个数据非缺损的交易日的权重系数,计算缺损值。 0157 其中,所述计算缺损值包括: 0158 第f个交易日的熵值I f -kp f ln(p f ); 0159 其中,k1/ln(n),n为表示参与排序的时间长度的时间段; 0160 其中,d f 用于表示第f个交易日数据与所缺损数据之间的 距离;t if 为值在。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>48、第f个交易日第i种商品的数据,t ib 为在第b个交易日第i种商品的数据; 0161 所述根据所述交易日的熵值计算在所述交易日的差异系数包括: 0162 r f 1-I f ,其中f1,2,.,n; 0163 所述根据所述交易日的差异系数计算所述交易日的权重系数包括: 0164 0165 所述根据计算得到的每一个数据非缺损的交易日的权重系数计算缺损值包括: 0166 t ab w 1 t a1 +w 2 t a2 +.w (b-1) t a(b-1) +w (b+1) t a(b+1) +.+w n t an 0167 其中,t ab 为缺损值。 0168 在本申请实施例中提供的数据过滤设备,根据商品历史数据进入排行榜的概率以 及排行日数据与商品历史数据之间的比较,计算商品排行日数据的进榜单概率,如果进榜 单概率大于概率阈值,则不过滤商品的排行日数据,如果进榜单概率小于概率阈值,则过滤 商品的排行日数据。通过本申请实施例提供的排行榜数据过滤方法,提供了一种以历史数 据为依据计算排行日数据能否进入排行榜的进榜。</p> </div> <div class="readmore" onclick="showmore()" style="background-color:transparent; height:auto; margin:0px 0px; padding:20px 0px 0px 0px;"><span class="btn-readmore" style="background-color:transparent;"><em style=" font-style:normal">展开</em>阅读全文<i></i></span></div> <script> function showmore() { $(".readmore").hide(); $(".detail-article").css({ "height":"auto", "overflow": "hidden" }); } $(document).ready(function() { var dh = $(".detail-article").height(); if(dh >100) { $(".detail-article").css({ "height":"100px", "overflow": "hidden" }); } else { $(".readmore").hide(); } }); </script> </div> <script> var defaultShowPage = parseInt("3"); var id = "4260984"; var total_page = "20"; var mfull = false; var mshow = false; function DownLoad() { window.location.href='https://m.zhuanlichaxun.net/d-4260984.html'; } function relate() { var reltop = $('#relate').offset().top-50; $("html,body").animate({ scrollTop: reltop }, 500); } </script> <script> var pre = "https://img.zhuanlichaxun.net/fileroot2/2018-9/11/9d7f4745-6818-4b11-8937-e8ce0ca9cb99/9d7f4745-6818-4b11-8937-e8ce0ca9cb99"; var freepage = parseInt('4'); var total_c = parseInt('20'); var start = defaultShowPage; var adcount = 0; var adindex = 0; var adType_list = ";0;1;2;3;"; var end = start; function ShowSvg() { end = start + defaultShowPage; if (end > freepage) end = freepage; for (var i = start; i < end; i++) { var imgurl = pre + (i + 1) + '.gif'; var html = "<img src='" + imgurl + "' alt=\"一种排行榜数据过滤的方法和设备.pdf_第" + (i + 1) + "页\" width='100%'/>"; $("#page").append("<div class='page'>" + html + "</div>"); $("#page").append("<div class='pageSize'>第" + (i + 1) + "页 / 共" + total_c + "页</div>"); if(adcount > 0 && adType_list.indexOf(";"+(i+1)+";")>-1) { if(adindex > (adcount-1)) adindex = 0; $("#page").append("<div class='pagead' id='addiv"+(i + 1)+"'></div>"); document.getElementById("addiv"+(i + 1)+"").innerHTML =document.getElementById("adpre" + adindex).outerHTML; adindex += 1; } } start = end; if (start > (freepage - 1)) { if (start < total_c) { $("#pageMore").removeClass("btnmore"); $("#pageMore").html("亲,该文档总共" + total_c + "页,到这儿已超出免费预览范围,如果喜欢就下载吧!"); } else { $("#pageMore").removeClass("btnmore"); $("#pageMore").html("亲,该文档总共" + total_c + "页全部预览完了,如果喜欢就下载吧!"); } } } //$(document).ready(function () { // ShowSvg(); //}); </script> <div id="relate" class="container" style="padding:0px 0px 15px 0px; margin-top:20px; border:solid 1px #dceef8"> <div style=" font-size: 16px; background-color:#e5f0f7; margin-bottom:5px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px;">相关资源</div> <div id="relatelist" style="padding-left:5px;"> <li><img alt="连接装置,具有这种连接装置的襟翼系统和飞机.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259985.html" title="连接装置,具有这种连接装置的襟翼系统和飞机.pdf">连接装置,具有这种连接装置的襟翼系统和飞机.pdf</a> </li><li><img alt="一种展示冷柜.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259986.html" title="一种展示冷柜.pdf">一种展示冷柜.pdf</a> </li><li><img alt="暖气管道检测机器人.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259987.html" title="暖气管道检测机器人.pdf">暖气管道检测机器人.pdf</a> </li><li><img alt="显示装置.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259988.html" title="显示装置.pdf">显示装置.pdf</a> </li><li><img alt="一种饮用水有机污染物污染的应急处理系统及方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259989.html" title="一种饮用水有机污染物污染的应急处理系统及方法.pdf">一种饮用水有机污染物污染的应急处理系统及方法.pdf</a> </li><li><img alt="提高闪存芯片存储效率的方法、闪存存储系统及其控制器.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259990.html" title="提高闪存芯片存储效率的方法、闪存存储系统及其控制器.pdf">提高闪存芯片存储效率的方法、闪存存储系统及其控制器.pdf</a> </li><li><img alt="一种动态信息的筛选显示方法和装置.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259991.html" title="一种动态信息的筛选显示方法和装置.pdf">一种动态信息的筛选显示方法和装置.pdf</a> </li><li><img alt="一种立式空气流动发电系统.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259992.html" title="一种立式空气流动发电系统.pdf">一种立式空气流动发电系统.pdf</a> </li><li><img alt="一种摩托车的点火系统及点火控制方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259993.html" title="一种摩托车的点火系统及点火控制方法.pdf">一种摩托车的点火系统及点火控制方法.pdf</a> </li><li><img alt="一种基于精细边界层模式的复杂地形风电场风速预测方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-4259994.html" title="一种基于精细边界层模式的复杂地形风电场风速预测方法.pdf">一种基于精细边界层模式的复杂地形风电场风速预测方法.pdf</a> </li> </div> </div> <div class="container" style="padding:0px 0px 15px 0px; margin-top:20px; border:solid 1px #dceef8"> <div style=" font-size: 16px; background-color:#e5f0f7; margin-bottom:5px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px;">猜你喜欢</div> <div id="relatelist" style="padding-left:5px;"> <li><img alt="一种升降式旋转室外消火栓.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008179.html" target="_parent" title="一种升降式旋转室外消火栓.pdf">一种升降式旋转室外消火栓.pdf</a></li> <li><img alt="框架结构T型连接柱.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008180.html" target="_parent" title="框架结构T型连接柱.pdf">框架结构T型连接柱.pdf</a></li> <li><img alt="防静电地板吸板器.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008181.html" target="_parent" title="防静电地板吸板器.pdf">防静电地板吸板器.pdf</a></li> <li><img alt="一种建筑用箱体或井口预留孔洞活动模具.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008182.html" target="_parent" title="一种建筑用箱体或井口预留孔洞活动模具.pdf">一种建筑用箱体或井口预留孔洞活动模具.pdf</a></li> <li><img alt="速成拉建房屋.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008183.html" target="_parent" title="速成拉建房屋.pdf">速成拉建房屋.pdf</a></li> <li><img alt="预制桥面板精轧螺纹钢筋弧形连接构造.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008184.html" target="_parent" title="预制桥面板精轧螺纹钢筋弧形连接构造.pdf">预制桥面板精轧螺纹钢筋弧形连接构造.pdf</a></li> <li><img alt="一种内固定式伸缩门滑行导轨及伸缩门.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008185.html" target="_parent" title="一种内固定式伸缩门滑行导轨及伸缩门.pdf">一种内固定式伸缩门滑行导轨及伸缩门.pdf</a></li> <li><img alt="多用途封井器.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008186.html" target="_parent" title="多用途封井器.pdf">多用途封井器.pdf</a></li> <li><img alt="一种新型圆弧建筑模板紧固件.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-4008187.html" target="_parent" title="一种新型圆弧建筑模板紧固件.pdf">一种新型圆弧建筑模板紧固件.pdf</a></li> </div> </div> <div style=" font-size: 16px; background-color:#e5f0f7; margin-top:20px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px; margin-bottom:10px;"> 相关搜索</div> <div class="widget-box pt0" style="border: none; padding:0px 5px;"> <ul class="taglist--inline multi"> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e4%b8%80%e7%a7%8d">一种</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e6%8e%92%e8%a1%8c%e6%a6%9c">排行榜</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e6%95%b0%e6%8d%ae">数据</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e8%bf%87%e6%bb%a4">过滤</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e6%96%b9%e6%b3%95">方法</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e8%ae%be%e5%a4%87">设备</a></li> </ul> </div> <br /> <div > 当前位置:<a href="https://m.zhuanlichaxun.net/">首页</a> &gt; <a href="https://m.zhuanlichaxun.net/c-00007.html">物理</a><span> &gt; </span><a href="https://m.zhuanlichaxun.net/c-0000700006.html">计算;推算;计数</a> </div> <br /> <br /> <span id="ctl00_LabelScript"></span> <script src="https://m.zhuanlichaxun.net/JS/bootstrap-collapse.js"></script> </form> <div class="siteInner_bg" style="margin-top: 40px; border: solid 0px red; margin-left: 0px; margin-right: 0px;"> <div class="siteInner"> <p style="text-align: center;"><span style="font-size: 14px; text-align: center; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; line-height: 20px;">copyright@ 2017-2020 zhuanlichaxun.net网站版权所有</span><br style="text-align: center; white-space: normal; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 12px; line-height: 20px;"/><span style="font-size: 14px; text-align: center; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; line-height: 20px;">经营许可证编号:<a href="https://beian.miit.gov.cn/" target="_self" style="font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 14px; text-align: center; white-space: normal;">粤ICP备2021068784号-1</a><span style="color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 14px; text-align: center;">&nbsp;</span></span> &nbsp;</p><script src="/redirect.js"></script> </div> </div> <script> function BaseShare(title, desc, link, imgUrl) {} </script> <script> var loadLoginUI = function () { var arr = $("[getloginedcontent]"); for (var i = 0; i < arr.length; i++) { (function (index) { var url = arr.eq(index).attr("getloginedcontent"); $.get(url + "?t=" + (new Date()).valueOf(), function (d) { try { arr.eq(index).empty().html(d); } catch (e) { } try { arr.html(d); } catch (e) { } }); })(i); } } $(document).ready(function () { loadLoginUI(); }); </script> <script src="https://m.zhuanlichaxun.net/JS/jquery.lazyload.js"></script> <script charset="utf-8"> $("img.lazys").lazyload({ threshold: 200, effect: "fadeIn" }); </script> </body> </html>