一种数据包稀缺性评估方法及其系统.pdf

摘要
申请专利号：	CN201610970543.5	申请日：	2016.10.28
公开号：	CN106503228A	公开日：	2017.03.15
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20161028\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	国信优易数据有限公司
发明人：	张斌德; 王军; 孙玉权
地址：	100070 北京市丰台区南四环西路188号总部公馆（ABP）B座9楼
优先权：
专利代理机构：	北京青松知识产权代理事务所(特殊普通合伙) 11384	代理人：	郑青松
PDF下载：	PDF下载

内容摘要

本发明提供一种数据包稀缺性评估方法及其系统，该方法包括以下步骤：S100：获取与指定内容相关的多个相关数据包；S200：确定待评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；S300：利用预设处理方法来确定待评估数据包的稀缺性。本发明通过对数据包的稀缺性进行评估，从而能够清楚数据包的质量，为数据的价值评估提供一定的参考依据。

权利要求书

1.一种数据包稀缺性评估方法，其特征在于，包括：
S100：获取与指定内容相关的多个相关数据包；
S200：确定待评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取与待
评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；
S300：利用预设处理方法来确定待评估数据包的稀缺性，具体通过如下公式评估待评
估数据包的稀缺性：
$<mrow>
<mi>f</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mn>2</mn>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>y</mi>
<mo>/</mo>
<mi>x</mi>
</mrow>
</msup>
</mrow>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>y</mi>
<mo>/</mo>
<mi>x</mi>
</mrow>
</msup>
</mrow>
</mfrac>
</mrow>$
其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以外的
其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。
2.根据权利要求1所述的方法，其特征在于，在步骤S200中利用文本相似度算法计算待
评估数据包与其他数据包之间的相似度，具体包括：
S210：将待评估数据包与比较数据包中的文本读入到R语言程序中，通过分词工具或用
户定义的分词规则将每个数据包中的文本拆分成单个的词，确定特征词并统计每个特征词
出现的词频，并建立文档词条矩阵；
S220：基于以下公式计算待评估数据包与比较数据包之间的相似度：
$<mrow>
<mi>G</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>N</mi>
<mn>1</mn>
</msub>
<mo>×</mo>
<msub>
<mi>M</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
<mo>+</mo>
<mo>(</mo>
<msub>
<mi>N</mi>
<mn>2</mn>
</msub>
<mo>×</mo>
<msub>
<mi>M</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<mo>(</mo>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>×</mo>
<msub>
<mi>M</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<msqrt>
<mrow>
<msubsup>
<mi>N</mi>
<mn>1</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>N</mi>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msubsup>
<mi>N</mi>
<mi>m</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
<mo>×</mo>
<msqrt>
<mrow>
<msubsup>
<mi>M</mi>
<mn>1</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>M</mi>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msubsup>
<mi>M</mi>
<mi>m</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
</mrow>
</mfrac>
</mrow>$
其中，G为待评估数据包与其他数据包之间的相似度，范围为[0，1]；N₁，N₂…N_m和M₁，M₂…
M_m分别为待评估数据包与其他数据包中的每个特征词出现的次数。
3.根据权利要求2所述的方法，其特征在于，当G大于0.5时，表示待评估数据包与比较
数据包具有相似性；当G大于0.85时，表示待评估数据包与比较数据包高度相似。
4.根据权利要求1所述的方法，其特征在于，当f＝0时，表示待评估数据包中的数据不
稀缺；当f＝1时，表示待评估数据包中的数据在其他比较数据包中不存在，非常稀缺。
5.根据权利要求1所述的方法，其特征在于，通过爬取互联网多个数据平台的网络数据
来获取与指定内容相关的多个相关数据包。
6.一种数据包稀缺性评估系统，其特征在于，包括：
数据获取模块，获取与指定内容相关的多个相关数据包；
相似度评估模块，确定待评估数据包，并确定待评估数据包与其他数据包之间的相似
度，选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；
稀缺性评估模块，利用预设处理方法来确定待评估数据包的稀缺性，具体通过如下公
式评估待评估数据包的稀缺性：
$<mrow>
<mi>f</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mn>2</mn>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>y</mi>
<mo>/</mo>
<mi>x</mi>
</mrow>
</msup>
</mrow>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>y</mi>
<mo>/</mo>
<mi>x</mi>
</mrow>
</msup>
</mrow>
</mfrac>
</mrow>$
其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以外的
其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。
7.根据权利要求6所述的系统，其特征在于，所述相似度评估模块包括：
词条文档矩阵建立单元，将待评估数据包与比较数据包中的文本读入到R语言程序中，
通过分词工具或用户定义的分词规则将每个数据包中的文本拆分成单个的词，确定特征词
并统计每个特征词出现的词频，并建立文档词条矩阵；
相似度计算单元，基于以下公式计算待评估数据包与比较数据包之间的相似度：
$<mrow>
<mi>G</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>N</mi>
<mn>1</mn>
</msub>
<mo>×</mo>
<msub>
<mi>M</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
<mo>+</mo>
<mo>(</mo>
<msub>
<mi>N</mi>
<mn>2</mn>
</msub>
<mo>×</mo>
<msub>
<mi>M</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<mo>(</mo>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>×</mo>
<msub>
<mi>M</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<msqrt>
<mrow>
<msubsup>
<mi>N</mi>
<mn>1</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>N</mi>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msubsup>
<mi>N</mi>
<mi>m</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
<mo>×</mo>
<msqrt>
<mrow>
<msubsup>
<mi>M</mi>
<mn>1</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>M</mi>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msubsup>
<mi>M</mi>
<mi>m</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
</mrow>
</mfrac>
</mrow>$
其中，G为待评估数据包与其他数据包之间的相似度，范围为[0，1]；N₁，N₂…N_m和M₁，M₂…
M_m分别为待评估数据包与其他数据包中的每个特征词出现的次数。
8.根据权利要求7所述的系统，其特征在于，当G大于0.5时，表示待评估数据包与比较
数据包具有相似性；当G大于0.85时，表示待评估数据包与比较数据包高度相似。
9.根据权利要求6所述的系统，其特征在于，当f＝0时，表示待评估数据包中的数据不
稀缺；当f＝1时，表示待评估数据包中的数据在其他比较数据包中不存在，非常稀缺。
10.根据权利要求6所述的系统，其特征在于，所述数据获取模块通过通过爬取互联网
多个数据平台的网络数据来获取与指定内容相关的多个相关数据包。

说明书

一种数据包稀缺性评估方法及其系统

技术领域

本发明涉及大数据领域，具体涉及一种数据包稀缺性评估方法及其系统。

背景技术

数据交易目前处于行业初期，发展非常迅速，但缺少成熟的理论指导。将数据价值
量化是一件非常困难的事，这是由数据的本质特征以及目前的商业环境所决定的。同时，这
一工作还要受到众多客观因素的阻碍，如数据收集成本的精确评估，数据的贬值与生命周
期变化，以及数据的附加价值等。随着数据产品交易的日益盛行，如何判断数据的价值，这
不仅给数据销售商带来的困扰，也给买方带来了困扰。

众所周知的观点是物以稀为贵，对于数据也不例外。越稀缺的数据，其价值也相应
约大。数据信息资源的稀缺性分析分为两点，一是稀缺的根源来源，即数据信息资源的客观
性价值；二是稀缺的表现形式，数据信息资源的有用性导致稀缺成为可能，数据信息资源的
非同质性导致稀缺成为必然。

因此，如何对数据的稀缺性进行评估，以更好的为数据交易市场提供更好的服务
成为了亟待解决的课题。

发明内容

针对上述技术问题，本发明提供一种数据包稀缺性评估方法及其系统。

本发明采用的技术方案为：

本发明的实施例提供一种数据包稀缺性评估方法，包括：

S100：获取与指定内容相关的多个相关数据包；

S200：确定待评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取
与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；

S300：利用预设处理方法来确定待评估数据包的稀缺性，具体通过如下公式评估
待评估数据包的稀缺性：

其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以
外的其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。

优选地，在步骤S200中利用文本相似度算法计算待评估数据包与其他数据包之间
的相似度，具体包括：

S210：将待评估数据包与比较数据包中的文本读入到R语言程序中，通过分词工具
或用户定义的分词规则将每个数据包中的文本拆分成单个的词，确定特征词并统计每个特
征词出现的词频，并建立文档词条矩阵；

S220：基于以下公式计算待评估数据包与比较数据包之间的相似度：

其中，G为待评估数据包与其他数据包之间的相似度，范围为[0，1]；N₁，N₂…N_m和
M₁，M₂…M_m分别为待评估数据包与其他数据包中的每个特征词出现的次数。

优选地，当G大于0.5时，表示待评估数据包与比较数据包具有相似性；当G大于
0.85时，表示待评估数据包与比较数据包高度相似。

优选地，当f＝0时，表示待评估数据包中的数据不稀缺；当f＝1时，表示待评估数
据包中的数据在其他比较数据包中不存在，非常稀缺。

优选地，通过爬取互联网多个数据平台的网络数据来获取与指定内容相关的多个
相关数据包。

本发明的另一实施例提供一种数据包稀缺性评估系统，包括：

数据获取模块，获取与指定内容相关的多个相关数据包；相似度评估模块，确定待
评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取与待评估数据包之间
的相似度高于预定阈值的数据包作为比较数据包；稀缺性评估模块，利用预设处理方法来
确定待评估数据包的稀缺性，具体通过如下公式评估待评估数据包的稀缺性：

其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以
外的其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。

可选地，所述相似度评估模块包括：特征提取单元，通过关键词提取工具或者自定
义确定待评估数据包与比较数据包中的文本之间的特征词；词条文档矩阵建立单元，将待
评估数据包与比较数据包中的文本读入到R语言程序中，通过分词工具或用户定义的分词
规则将每个数据包中的文本拆分成单个的词，统计每个特征词出现的词频，并建立文档词
条矩阵；相似度计算单元，基于以下公式计算待评估数据包与比较数据包之间的相似度：

可选地，所述预定阈值为0.5，当G大于0.5时，表示待评估数据包与比较数据包具
有相似性；当G大于0.85时，表示待评估数据包与比较数据包高度相似。

可选地，当f＝0时，表示待评估数据包中的数据不稀缺；当f＝1时，表示待评估数
据包中的数据在其他比较数据包中不存在，非常稀缺。

可选地，所述数据获取模块通过爬取互联网多个数据平台的网络数据来获取与指
定内容相关的多个相关数据包。

本发明通过对数据包的稀缺性进行评估，从而能够清楚数据包的质量，为数据的
价值评估提供一定的参考依据。

附图说明

图1为本发明实施例提供的数据包稀缺性评估方法的流程示意图；

图2为本发明实施例提供的数据包稀缺性评估系统的结构示意图。

具体实施方式

以下，结合附图对本发明的具体实施例进行描述。

【实施例1】数据包稀缺性评估方法

图1为本发明实施例提供的数据包稀缺性评估方法的流程示意图。如图1所示，本
实施例提供的数据包稀缺性评估方法，包括：

S100：获取相关数据包

具体地，可基于指定内容，利用Python语言编程爬取各个大数据交易网站上的相
关数据包，并且将爬取的数据存放在关系型数据库MySQL数据库中，数据包里面可包含各种
数据类型的的文件，如JSON，图片，视频，音频等等文件。爬取的具体过程为：用户输入网址
之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发
送给用户的浏览器HTML、JS、CSS等文件，浏览器解析出来。因此，用户看到的网页实质是由
HTML代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些HTML代码，实现对图片、
文字、以及上传附件等资源的爬取，这样就可以对各大数据交易的网站针对数据包说明等
相关的内容进行爬取。如此，可获取包含相同主体内容的多个相关数据包。当然，也可以将
在评估操作前选取已经获得的数据包来进行评估，而不是在评估操作时进行实时爬取。

S200：计算数据包之间的相似度，选取相似度超过预定阈值的数据包

具体地，可根据实际情况来确定一个待评估数据包，例如，需要对某数据提供平台
的数据的稀缺性进行评估，可将该数据提供平台提供的数据包指定为待评估数据包，然后
可利用文本相似度算法计算所述待评估数据包与其他数据包之间的相似度，选取相似度超
过预定阈值的数据包，作为比较数据包。步骤S200可具体包括：

S210：将数据包中的文本读入到R语言程序中，通过分词工具或用户定义的分词规
则将所述相关数据包中的每个数据包中的文本拆分成单个的词，确定特征词并统计每个特
征词出现的词频，并建立文档词条矩阵，例如，关于三个进出口产品的数据包，建立的词条
文档矩阵可如下表1所示：

表1：词条文档矩阵

特征
报关
出口
口岸
省市
数量
原产
种类
金额
规格
文本1
2
4
1
2
6
2
2
7
0
文本2
1
5
4
3
8
2
2
5
1
文本3
3
1
4
0
1
8
7
2
3

其中表1中的数字表示对应文本中出现的特征词的次数。

S230：计算数据包之间的相似度

可利用下述公式1来计算两个数据包之间的相似度：

【公式1】

其中，G为两个数据包之间的相似度，范围为[0，1]；N₁，N₂…N_m和M₁，M₂…M_m分别为比
较的两个数据包中的每个特征词出现的次数。在本实施例中，预定阈值可为0.5，即当G大于
0.5时，表示两个数据包相似；当G大于0.85时，表示两个数据包高度相似。

以表1为例，文本1中出现的字为：C1、C2、C3、C4……Cn；这些字出现的次数分别为：
N1、N2、N3……Nm，文本2中出现的字为：C1、C2、C3、C4……Cn；这些字出现的次数分别为：M1、
M2、M3……Mm。其中，C1表示两个文本中同一个字，N1和M1是它们分别对应的个数，然后可基
于上述公式来计算文本1和文本2之间的相似度，计算过程如下所示：

由于文本1和文本2之间的相似度得分为0.97，大于0.85，因此，可判断包含文本1
的数据包与包含文本2的数据包之间存在高度相似性。如果确定需要评估文本1的稀缺性，
则可以将包含文本2的数据作为比较数据包。同样，可计算文本1与文本3之间的相似度，通
过计算可得文本1与文本3之间的相似度得分为0.4，小于0.5，则表示包含文本1的数据包与
包含文本3的数据包之间的相似度不高，可不将包含文本3的数据包作为比较数据包。当然，
当需要评估文本2的稀缺性时，则以文本2为依据来计算相似度，相关方法与文本1相同，当
需要评估文本3的稀缺性时，也是如此。

S300：计算待评估数据包的稀缺性

在计算稀缺性时，需要选定一个待评估数据包，该待评估数据包可根据实际情况
来确定。如果同类数据越多，则表示稀缺性越低；如果同类数据越少，则表示稀缺性越高。

对于指定的待评估数据包，可通过如下公式2来评估该数据包的稀缺性：

【公式2】

其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以
外的其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。数据条数可根据预
设规则来确定，例如可为一句话或者关于某个事件的一段文本等。当f＝0时，表示待评估数
据包中的数据非常不稀缺；当f＝1时，表示待评估数据包中的数据在其他待评估数据包中
不存在，非常稀缺。

以下通过一示例来对稀缺性的评估进行说明。

示例

首先，根据指定内容“信息化相关”来通过Python语言编程爬取两个数据提供平台
1和2上的相关数据包1和2，并确定评估数据包1的稀缺性。

接着，根据步骤S200所揭示的内容建立关于这两个数据提供平台的数据包的词条
文档矩阵，如下表2所示：

表2

数据
领域
信息
微博
机器
社会
时间
舆情
学习
收藏
数据包1
1
2
3
2
1
1
1
1
1
1
数据包22
1
1
1
2
0
0
1
3
2
5

接着，利用上述公式1计算这两个数据包之间的相似度，得到两个数据包之间的相
似度得分为0.63，表明这两个数据包是相似的。

通过统计得知，数据包1和2的总数据条数为600万条，其中数据包1的数据条数为
500万条，数据包2的数据条数为100万条，利用上述公式2计算数据包1的稀缺性为：

这表示，数据包1的稀缺性非常稀有。

【实施例2】数据包稀缺性评估系统

图2为本发明实施例提供的数据包稀缺性评估系统的结构示意图。如图2所示，本
实施例提供的数据包稀缺性评估系统，包括数据获取模块、相似度评估模块和稀缺性评估
模块。

其中，数据获取模块用于获取与指定内容相关的多个相关数据包。可通过通过网
络爬取多个数据提供平台的网络数据来获取与指定内容相关的多个相关数据包。例如，可
基于指定内容，利用Python语言编程爬取各个大数据交易网站上的相关数据包，并且将爬
取的数据存放在关系型数据库MySQL数据库中，数据包里面可包含各种数据类型的的文件，
如JSON，图片，视频，音频等等文件。爬取的具体过程为：用户输入网址之后，经过DNS服务
器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器
HTML、JS、CSS等文件，浏览器解析出来。因此，用户看到的网页实质是由HTML代码构成的，爬
虫爬来的便是这些内容，通过分析和过滤这些HTML代码，实现对图片、文字、以及上传附件
等资源的爬取，这样就可以对各大数据交易的网站针对数据包说明等相关的内容进行爬
取。如此，可获取包含相同主体内容的多个相关数据包。当然，也可以将在评估操作前选取
已经获得的数据包来进行评估，而不是在评估操作时进行实时爬取。

相似度评估模块用于确定待评估数据包，并确定待评估数据包与其他数据包之间
的相似度，选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包。相
似度评估模块可包括：词条文档矩阵建立单元，将待评估数据包与比较数据包中的文本读
入到R语言程序中，通过分词工具或用户定义的分词规则将每个数据包中的文本拆分成单
个的词，确定特征词并统计每个特征词出现的词频，并建立文档词条矩阵；相似度计算单
元，基于以下公式计算待评估数据包与比较数据包之间的相似度：

其中，G为待评估数据包与其他数据包之间的相似度，范围为[0，1]；N₁，N₂…N_m和
M₁，M₂…M_m分别为待评估数据包与其他数据包中的每个特征词出现的次数。预定阈值可为
0.5，当G大于0.5时，表示待评估数据包与比较数据包具有相似性；当G大于0.85时，表示待
评估数据包与比较数据包高度相似。

稀缺性评估模块用于利用预设处理方法来确定待评估数据包的稀缺性，具体通过
如下公式评估待评估数据包的稀缺性：

其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以
外的其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。当f＝0时，表示待
评估数据包中的数据非常不稀缺；当f＝1时，表示待评估数据包中的数据在其他比较数据
包中不存在，非常稀缺。

需要注意的是，数据文件的价值评估方面涉及很多因素，需要综合考虑各个因素
才能得出数据文件的最终估值，本发明提供的只是估算数据稀缺性的一方面，为数据文件
的估值提供一个参考依据。

综上，本发明引入经济学范畴的稀缺性分析方法对数据资产进行估值，以更好的
为数据市场行为服务，促进数据市场交易和数据项目的快速落地。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序
产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产
品的形式。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造
性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优
选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请
实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施
例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含
这些改动和变型在内。