基于属性间依赖关系的网络表格的实体列的检测方法.pdf

摘要
申请专利号：	CN201710002389.7	申请日：	2017.01.03
公开号：	CN106844338A	公开日：	2017.06.13
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/27申请日:20170103\|\|\|公开
IPC分类号：	G06F17/27; G06F17/24	主分类号：	G06F17/27
申请人：	北京交通大学
发明人：	王宁; 张丽方
地址：	100044 北京市海淀区西直门外上园村3号
优先权：
专利代理机构：	北京市商泰律师事务所 11255	代理人：	黄晓军
PDF下载：	PDF下载

内容摘要

本发明提供了一种基于属性间依赖关系的网络表格的实体列的检测方法。针对一个网络表格，根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率，根据所述近似函数依赖概率获取候选函数依赖集；根据网络表格的特点，删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集；对近似函数依赖集进行3NF规范化，将3NF规范化后产生的主键集合作为网络表格的实体列。本发明提供的方法能更加准确地表达属性间内在的函数依赖关系；在计算近似函数依赖时基于一致性数据和不一致性数据对函数依赖的支持度，该算法具有明显的抗噪声能力，该方法不仅适用于单实体列的网络表格，还可用于多实体列的表格。

权利要求书

1.一种基于属性间依赖关系的网络表格的实体列检测方法，其特征在于，包括：
针对一个网络表格，根据列值间的函数依赖关系计算任意两列间的近似函数依赖概
率，根据所述近似函数依赖概率获取候选函数依赖集；
根据网络表格的特点，删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集；
对近似函数依赖集进行3NF规范化，将3NF规范化后产生的主键集合作为网络表格的实
体列。
2.根据权利要求1所述的方法，其特征在于，所述的针对一个网络表格，根据列值间的
函数依赖关系计算任意两列间的近似函数依赖概率，根据所述近似函数依赖概率获取候选
函数依赖集，包括：
设X是网络表格T中的某个属性，A是T中不同于X的属性，当T中存在部分元组的(X,A)属
性值对，使得X→A成立，则称X近似函数确定A或A近似函数依赖于X，记作
表示X→A在T上成立的近似函数依赖概率，(X,A)属性值对中使得X→A成立的
数据称为一致性数据，其余称为不一致性数据；
在网络表格T中，对于X属性值为v_x的元组，其A属性列中可能存在不同的值，假设该不同
值的集合为V_A；
如果集合V_A中个数最多的值唯一，则将该值作为一致性数据，如果个数最多的值不唯
一，则将这些个数最多的值分别作为类中心，计算其他值和类中心值相似度的和，选择和最
大时的类中心值v_a作为一致性数据。具体计算方法如公式(1)所示；

对于任意类中心值v_j；
X中值为v_x的所有元组，其中的一致性数据v_a对X→A成立的支持度S_c(X→A,V_X,V_A')由公
式(2)计算；

其中：
V_X＝{X.r|X.r＝v_x}
V_A'＝{A.r|X.r＝v_x&A.r＝v_a}
|V_X,V_A'|＝|{<X.r,A.r>|X.r＝v_x&A.r＝v_a}|
V_A'就是当X列取v_x时，所对应A列中一致性数据的集合，X.r为X列r行单元格的值，A.r为
A列r行单元格的值；
不一致性数据对X→A成立的支持度S_nc(X→A,V_X,V_A*)的计算公式由公式(3)计算；

集合V_X对X→A成立的支持度通过一致性数据和不一致性数据对X→A成立
的支持度的加权平均和表示，由公式(5)计算：

其中ω₁+ω₂＝1；
取X中所有不同元组的支持度，它们的平均值作为网络表格T中X→A成立的
概率，由公式(6)计算：

其中|D_X|表示X中有区别的V_X的个数；
表示网络表格T中的一种近似函数依赖成立的概率，候选函数依赖
集中包含网络表格T中所有可能的近似函数依赖。
3.根据权利要求2所述的方法，其特征在于，所述的根据网络表格的特点，删减候选函
数依赖集中的噪声函数依赖得到近似函数依赖集，包括：
如果候选函数依赖集中的近似函数依赖关系满足以下3条规则中的任一条，则将
从候选近似函数依赖集中删去：
规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型：
规则2:若在网络表格T中存在属性列Y，使得成立；
规则3:若在候选近似函数依赖集中，存在这样的属性列X和A，使得
且
4.根据权利要求3所述的方法，其特征在于，所述的对近似函数依赖集进行3NF规范化，
将3NF规范化后产生的主键集合作为网络表格的实体列，包括：
将近似函数依赖集中的近似函数依赖关系映射到关系矩阵FD[m][n]中，将决定属性间
的近似函数依赖关系映射到关系矩阵KK[m][m]中，其中m是位于近似函数依赖蕴含左边的
属性数目，即决定属性数，n为网络表格中所有属性列的数目：
(1)FD[m][n]的元素产生如下：
设α∈{决定属性集}，β∈{所有列属性集}
1)如果α＝β，则FD[α][β]:＝2；
2)如果则FD[α][β]:＝1；
3)其他情况，则FD[α][β]:＝0；
(2)KK[m][m]的元素产生如下：
设α,γ∈{决定属性集}
1)如果α＝γ或者则KK[α][γ]:＝1；
2)其他情况，则KK[α][γ]:＝-1；
定义在网络表格T中，如果则称Z对X近似传递函数依赖，记为
其中Y为近似传递函数依赖的中介键；
根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n]，
根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函数依赖中的决定属性和中
介键，将所述只存在直接近似函数依赖中的决定属性和所述中介键作为网络表格的实体列
输出。
5.根据权利要求4所述的方法，其特征在于，所述的根据所述关系矩阵FD[m][n]、关系
矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n]，包括：
步骤1、将FD[m][n]中的元素复制到DC[m][n]；i:＝0；i表示KK[m][m]中第i个近似函数
依赖；
步骤2、i:＝1；
步骤3：判断是否在KK[m][m]中存在，且在DC[m][n]中存在，如果是，则DC
[m][n]:＝β_i并且执行步骤4；否则，直接执行步骤4；
步骤4：判断KK[m][m]中是否存在第i+1个近似函数依赖，如果存在，则执行步骤5；否
则，直接执行步骤6；
步骤5：i:＝i+1，返回步骤3；
步骤6：判断DC[m][n]是否发生变化，如果发生变化，则返回步骤2；否则，输出DC[m]
[n]，流程结束。
6.根据权利要求5所述的方法，其特征在于，所述的根据所述近似函数依赖集闭包DC
[m][n]确定只存在直接近似函数依赖中的决定属性和中介键，包括：
步骤1：输入DC[m][n],FD[m][n]；
步骤2：i:＝0,j:＝0；i,j表示DC[m][n]的行号和列号；
步骤3：判断DC[i][j]！＝{0,1,2}&&FD[i][j]＝1&&FD[j][i]＝1是否成立，如果成立，
则DC[i][j]:＝1，并且执行步骤4；否则，执行步骤4；
步骤4：判断是否已全部遍历结束，如果已经全部遍历，则设置i:＝0,j:＝0，并且执行
步骤5；否则，取下一个DC[i][j]，并且执行步骤3；
步骤5：判断DC[i][j]！＝{0,1,2}是否成立，如果成立，则Entity{}:＝DC[i][j]，并且
执行步骤7；否则，执行步骤6；
步骤6：判断DC[i][j]＝1&&i！＝j是否成立，如果成立，将i行的决定属性赋值给Entity
集合，并且执行步骤7；否则，直接执行步骤7；
步骤7：判断是否已全部遍历结束，如果全部遍历结束，则输出Entity集合，流程结束；
否则，取下一个DC[i][j]，继续执行步骤5。

说明书

基于属性间依赖关系的网络表格的实体列的检测方法

技术领域

本发明涉及网络信息处理技术领域，尤其涉及一种基于属性间依赖关系的网络表
格的实体列的检测方法。

背景技术

随着信息技术的发展，互联网上的资源越来越丰富，除了非结构化数据外，还有大
量的网络表格存在，这些网络表格较文本而言，具有更好的结构化特性，因此受到人们的极
大关注。如何让机器更好地理解网络表格的语义成为提高表格搜索覆盖率和准确率的重大
挑战。实体列能够标识网络表格所描述的实体，其列标签描述了整张网络表格的主题，通过
它可以确定网络表格的语义信息。如果准确地探测网络表格的实体列，就可以大大提升机
器对网络表格语义的理解程度。

现有技术中的一种实体列发现算法是由Wang等人提出的基于证据的实体列发现
算法。该算法尝试将Probase作为知识库，依赖两个证据实现网络表格的实体列发现。他们
依据的证据是：首先，实体列中的所有实体描述的是同一个概念；其次，实体列表达的概念
与其他非实体列表达的概念之间存在概念属性关系。

在基于证据的实体列发现算法中，对于一张网络表格的每一个候选模式s，当选择
其中一列col为实体列时，其余列为该实体列的属性，计算所有候选实体列的评分，选择评
分最高的候选实体列作为该网络表格的实体列。目标函数如下：

其中，SC_A是属性集合A的所有可能的概念属性关系集合，c_i是属性集合A_i描
述的概念，sa_i表示属性集合A是概念c_i的属性的可信度；SC_E是实体集合E的所有可能的概念
实体关系集合，c_i是实体集E_i所属的概念，se_i表示实体集E属于概念c_i的可信度；A^col
表示候选模式s中，除了col列的所有属性集合；E^col表示col列中除了表头的所有列值集合。

上述现有技术中的实体列发现算法的缺点为：首先，该方法依赖于网络表格的表
头和知识库，需要很大的计算开销。知识库确实涵盖了许多实体、属性、概念以及它们之间
的关系，但是知识库很难覆盖网络上全部的实体、属性、概念以及它们之间的关系。同时，网
络表格常常缺乏表头信息，仅靠知识库很难准确恢复其表头，特别是数字、日期等列的标
签。因此，基于证据的实体列发现算法的召回率和准确率较低。其次，基于证据的实体列发
现方法只能对单实体列的网络表格进行实体列发现，而忽略了多实体列网络表格的存在。
网络上的许多表格不止一个实体列，该算法具有一定的局限性。

发明内容

本发明的实施例提供了一种基于属性间依赖关系的网络表格的实体列的检测方
法，以实现有效地发现网络表格的实体列。

为了实现上述目的，本发明采取了如下技术方案。

一种基于属性间依赖关系的网络表格的实体列检测方法，进一步地，包括：

针对一个网络表格，根据列值间的函数依赖关系计算任意两列间的近似函数依赖
概率，根据所述近似函数依赖概率获取候选函数依赖集；

根据网络表格的特点，删减候选函数依赖集中的噪声函数依赖得到近似函数依赖
集；

对近似函数依赖集进行3NF规范化，将3NF规范化后产生的主键集合作为网络表格
的实体列。

进一步地，所述的针对一个网络表格，根据列值间的函数依赖关系计算任意两列
间的近似函数依赖概率，根据所述近似函数依赖概率获取候选函数依赖集，包括：

设X是网络表格T中的某个属性，A是T中不同于X的属性，当T中存在部分元组的(X,
A)属性值对，使得X→A成立，则称X近似函数确定A或A近似函数依赖于X，记作
表示X→A在T上成立的近似函数依赖概率，(X,A)属性值对中使得X→A成立的
数据称为一致性数据，其余称为不一致性数据；

在网络表格T中，对于X属性值为v_x的元组，其A属性列中可能存在不同的值，假设
该不同值的集合为V_A。

如果集合V_A中个数最多的值唯一，则将该值作为一致性数据，如果个数最多的值
不唯一，则将这些个数最多的值分别作为类中心，计算其他值和类中心值相似度的和，选择
和最大时的类中心值v_a作为一致性数据。具体计算方法如公式(1)所示。

对于任意类中心值v_j。

X中值为v_x的所有元组，其中的一致性数据v_a对X→A成立的支持度S_c(X→A,V_X,V_A')
由公式(2)计算；

其中：

V_X＝{X.r|X.r＝v_x}

V_A'＝{A.r|X.r＝v_x&A.r＝v_a}

|V_X,V_A'|＝|{<X.r,A.r>|X.r＝v_x&A.r＝v_a}|

V_A'就是当X列取v_x时，所对应A列中一致性数据的集合，X.r为X列r行单元格的值，
A.r为A列r行单元格的值；

不一致性数据对X→A成立的支持度S_nc(X→A,V_X,V_A*)的计算公式由公式(3)计算；

集合V_X对X→A成立的支持度通过一致性数据和不一致性数据对X→A
成立的支持度的加权平均和表示，由公式(5)计算：

其中ω₁+ω₂＝1；

取X中所有不同元组的支持度，将它们的平均值作为网络表格T中X→A
成立的概率，由公式(6)计算：

其中|D_X|表示X中有区别的V_X的个数；

表示网络表格T中的一种近似函数依赖成立的概率，候选函数
依赖集中包含网络表格T中所有可能的近似函数依赖。

进一步地，所述的根据网络表格的特点，删减候选函数依赖集中的噪声函数依赖
得到近似函数依赖集，包括：

如果候选函数依赖集中的近似函数依赖关系满足以下3条规则中的任一条，
则将从候选近似函数依赖集中删去：

规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型：

规则2:若在网络表格T中存在属性列Y，使得成立；

规则3:若在候选近似函数依赖集中，存在这样的属性列X和A，使得
且

进一步地，所述的对近似函数依赖集进行3NF规范化，将3NF规范化后产生的主键
集合作为网络表格的实体列，包括：

将近似函数依赖集中的近似函数依赖关系映射到关系矩阵FD[m][n]中，将决定属
性间的近似函数依赖关系映射到关系矩阵KK[m][m]中，其中m是位于近似函数依赖蕴含左
边的属性数目，即决定属性数，n为网络表格中所有属性列的数目：

(1)FD[m][n]的元素产生如下：

设α∈{决定属性集}，β∈{所有列属性集}

4)如果α＝β，则FD[α][β]:＝2；

5)如果则FD[α][β]:＝1；

6)其他情况，则FD[α][β]:＝0；

(2)KK[m][m]的元素产生如下：

设α,γ∈{决定属性集}

3)如果α＝γ或者则KK[α][γ]:＝1；

4)其他情况，则KK[α][γ]:＝-1；

定义在网络表格T中，如果则称Z对X近似传递函数依赖，
记为其中Y为近似传递函数依赖的中介键；

根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m]
[n]，根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函数依赖中的决定属性
和中介键，将所述只存在直接近似函数依赖中的决定属性和所述中介键作为网络表格的实
体列输出。

进一步地，所述的根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数
依赖集闭包DC[m][n]，包括：

步骤1、将FD[m][n]中的元素复制到DC[m][n]；i：＝0；i表示KK[m][m]中第i个近似
函数依赖；

步骤2、i:＝1；

步骤3：判断是否在KK[m][m]中存在，且在DC[m][n]中存在，如果是，
则DC[m][n]:＝β_i并且执行步骤4；否则，直接执行步骤4；

步骤4：判断KK[m][m]中是否存在第i+1个近似函数依赖，如果存在，则执行步骤5；
否则，直接执行步骤6；

步骤5：i:＝i+1，返回步骤3；

步骤6：判断DC[m][n]是否发生变化，如果发生变化，则返回步骤2；否则，输出DC
[m][n]，流程结束。

进一步地，所述的根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函
数依赖中的决定属性和中介键，包括：

步骤1：输入DC[m][n],FD[m][n]；

步骤2：i:＝0,j:＝0；i,j表示DC[m][n]的行号和列号；

步骤3：判断DC[i][j]！＝{0,1,2}&&FD[i][j]＝1&&FD[j][i]＝1是否成立，如果成
立，则DC[i][j]:＝1，并且执行步骤4；否则，执行步骤4；

步骤4：判断是否已全部遍历结束，如果已经全部遍历，则设置i:＝0,j:＝0，并且
执行步骤5；否则，取下一个DC[i][j]，并且执行步骤3；

步骤5：判断DC[i][j]！＝{0,1,2}是否成立，如果成立，则Entity{}:＝DC[i][j]，
并且执行步骤7；否则，执行步骤6；

步骤6：判断DC[i][j]＝1&&i！＝j是否成立，如果成立，将i行的决定属性赋值给
Entity集合，并且执行步骤7；否则，直接执行步骤7；

步骤7：判断是否已全部遍历结束，如果全部遍历结束，则输出Entity集合，流程结
束；否则，取下一个DC[i][j]，继续执行步骤5。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提供的适应网络
表格特点的近似函数依赖检测方法能更加准确地表达属性间内在的函数依赖关系；在计算
近似函数依赖时基于一致性数据和不一致性数据对函数依赖的支持度，该算法具有明显的
抗噪声能力；可以在更多场景下发现实体列，该方法不仅适用于单实体列的网络表格，还可
用于多实体列的表格，不仅适用于有表头的网络表格，而且适用于没有表头或者利用语义
恢复技术也无法恢复出完整表头的网络表格。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变
得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用
的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本
领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他
的附图。

图1为本发明实施例提供的一种基于属性间依赖关系的网络表格的实体列的检测
方法的处理流程图；

图2为本发明实施例提供的一种获取候选依赖集的处理流程图；

图3为本发明实施例提供的一种根据近似函数依赖集寻找近似函数依赖集闭包的
过程示意图；

图4为本发明实施例提供的一种利用三范式获取实体列的流程图；

图5为本发明实施例提供的AFD_Model算法与PFD_Model算法、基于证据的方法
(ED_Model)针对单实体列表的实体列检测精度、覆盖率、F-值以及时间效率的对比示意图；

图6为本发明实施例提供的AFD_Model算法与PFD_Model算法在多实体列发现算法
的有效性对比示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始
至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参
考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一
个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加
一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元
件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在
中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞
“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术
语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意
义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步
的解释说明，且各个实施例并不构成对本发明实施例的限定。

为了解决上述现有的实体列检测算法的技术问题，本发明设计了一种计算开销
小、不依赖于表头和知识库，且适用于多实体列网络表格的实体列检测算法。本发明解决了
传统算法依赖网络表格的表头和知识库以及不能进行多实体列发现的问题，通过引进近似
函数依赖的概念，提高方法的抗噪声能力，同时获得高质量的实体列发现结果。

本发明实施例提供的一种基于属性间依赖关系的网络表格的实体列检测方法的
处理流程如图1所示，包括如下的处理步骤：

步骤1、根据网络表格的列值间的近似函数依赖概率，获取候选函数依赖集。

对于一张网络表格，如果其中的一列或者多列能标识网络表格所描述的实体，则
将这一列或者多列定义为实体列，实体列以外的其他列定义为属性列。

本发明对每一张表格，根据列值间的函数依赖关系计算任意两列间的近似函数依
赖概率。这里考虑到表格中存在噪声，我们引入一致性数据和不一致性数据的支持度。

定义1设X是网络表格T中的某个属性列，A是T中不同于X的属性列。当T中存在部分
元组的(X,A)属性值对，使得X→A成立，则称X近似函数确定A或A近似函数依赖于X，记作
表示X→A在T上成立的可能性，即近似函数依赖概率。(X,A)属性值对中使
得X→A成立的数据称为一致性数据，其余称为不一致性数据。

在网络表格T中，对于X属性值为v_x的元组，其A属性列中可能存在不同的值，假设
该不同值的集合为V_A。

对于任意类中心值v_j。

网络表格的列值存在误写的可能，综合一致性数据和不一致性数据对函数依赖成
立的支持度，计算任意两列间的近似函数依赖概率，获得候选函数依赖集。

图2为本发明实施例提供的一种获取候选依赖集的处理流程图，具体处理过程包
括：首先，一致性数据所占比例越大，说明X→A成立的可能性越大，即一致性数据对X→A成
立的支持度越高，同时一致性数据所占比例越大，说明该一致性数据为真正一致性数据的
可能性越大。X中值为v_x的所有元组，其中的一致性数据v_a对X→A成立的支持度和一致性数
据的可靠性均由公式(2)所计算。

其中：

V_X＝{X.r|X.r＝v_x}

V_A'＝{A.r|X.r＝v_x&A.r＝v_a}

|V_X,V_A'|＝|{<X.r,A.r>|X.r＝v_x&A.r＝v_a}|

V_A'就是当X列取v_x时，所对应A列中一致性数据的集合，X.r为X列r行单元格的值，
A.r为A列r行单元格的值。

其次，不一致性数据和一致性数据越相似，且一致性数据的可靠性越大，则不一致
性数据对X→A成立的支持度越大，计算公式如(3)所示。

其中V_A*＝{A.r|X.r＝v_x&A.r≠v_a}。

集合V_X对X→A成立的支持度可以通过一致性数据和不一致性数据对X→A成立的
支持度的加权平均和表示，记为如公式(5)所示。

其中ω₁+ω₂＝1。

最后，取X中所有不同元组的支持度，将它们的平均值作为网络表格T
中X→A成立的概率，由公式(6)计算：

其中|D_X|表示X中有区别的V_X的个数。

公式(6)表示表格T中X→A成立的概率，将T中所有可能的近似函数依赖包含在候
选函数依赖集中，这些近似函数依赖成立的概率是根据公式(6)计算的。

若则X称为这个近似函数依赖的决定属性。近似函数依赖集中的所有决定
属性组成决定属性集合，决定属性集合的元素个数就是决定属性数，即m。

步骤2、根据网络表格的特点，删减候选函数依赖集中的噪声函数依赖，得到近似
函数依赖集。

删除噪声函数依赖主要是为了获得更准确的函数依赖集，为下一步获取实体列打
下基础。具体删减规则如下：

如果满足以下3条规则中的任一条，就将从候选近似函数依赖集中
删去。

规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型。

规则2:若在T中存在属性列Y，使得成立；

规则3:若在候选近似函数依赖集中，存在这样的属性列X和A，使得
且

按照上述删减规则，删减候选函数依赖集中的噪声函数依赖后，得到近似函数依
赖集。

步骤3、依据规范化的思想，获取实体列。

网络表格中属性列近似函数依赖于它所描述的实体列，根据关系数据库理论的规
范化原理，对近似函数依赖集进行3NF规范化，3NF规范化后产生的主键集合就是所要的网
络表格的实体列。

上述对近似函数依赖集进行3NF规范化的过程包括：

将近似函数依赖集的依赖关系映射到关系矩阵FD[m][n]；将决定属性间的近似函
数依赖关系映射到关系矩阵KK[m][m]。其中m是位于近似函数依赖蕴含左边的属性数目，即
决定属性数,n为网络表格中所有属性列的数目。为了方便，用不同的数字来表示属性间的
不同关系，矩阵中元素产生如下：

(1)FD[m][n]的元素产生如下：

设α∈{决定属性集}，β∈{所有列属性集}

7)如果α＝β，则FD[α][β]:＝2；

8)如果则FD[α][β]:＝1；

9)其他情况，则FD[α][β]:＝0；

(2)KK[m][m]的元素产生如下：

设α,γ∈{决定属性集}

5)如果α＝γ或者则KK[α][γ]:＝1；

6)其他情况，则KK[α][γ]:＝-1；

为方便描述，定义3给出近似传递函数依赖的定义如下：

定义3在网络表格T中，如果则称Z对X近似传递函数依
赖，记为其中Y为近似传递函数依赖的中介键。

图3为根据近似函数依赖集寻找近似函数依赖集闭包DC[m][n]的过程示意图，根
据FD[m][n]和KK[m][m]确定DC[m][n].具体处理过程包括：

步骤1、将FD[m][n]中的元素复制到DC[m][n]；i:＝0；i表示KK[m][m]中第i个近似
函数依赖；

步骤2、i:＝1；

步骤3：判断是否在KK[m][m]中存在，

且在DC[m][n]中存在，如果是，则DC[m][n]:＝β_i，并且执行步骤4；否则，直
接执行步骤4；

步骤4：判断KK[m][m]中是否存在第i+1个近似函数依赖，如果存在，则执行步骤5；
否则，直接执行步骤6；

步骤5：i：＝i+1，返回步骤3。

步骤6：判断DC[m][n]是否发生变化，如果发生变化，则返回步骤2；否则，输出DC
[m][n]，流程结束。

图4为利用三范式获取实体列的流程图，根据上述近似函数依赖集闭包DC[m][n]
修正被误标记的近似传递依赖。最后，将中介键和只存在直接近似函数依赖中的决定属性
作为实体列输出，上述只存在直接近似函数依赖中的决定属性和中介键的寻找过程包括：

步骤1：输入DC[m][n],FD[m][n]；

步骤2：i:＝0,j:＝0；i,j表示DC[m][n]的行号和列号；

步骤3：判断DC[i][j]！＝{0,1,2}&&FD[i][j]＝1&&FD[j][i]＝1是否成立，如果成
立，则DC[i][j]:＝1，并且执行步骤4；否则，执行步骤4；

步骤4：判断是否已全部遍历结束，如果已经全部遍历，则设置i:＝0,j:＝0，并且
执行步骤5；否则，取下一个DC[i][j]，并且执行步骤3；

步骤5：判断DC[i][j]！＝{0,1,2}是否成立，如果成立，则Entity{}:＝DC[i][j]，
并且执行步骤7；否则，执行步骤6；

步骤6：判断DC[i][j]＝1&&i！＝j是否成立，如果成立，将i行的决定属性赋值给
Entity集合，并且执行步骤7；否则，直接执行步骤7；

步骤7：判断是否已全部遍历结束，如果全部遍历结束，则输出Entity集合，流程结
束；否则，取下一个DC[i][j]，继续执行步骤5。

综上所述，本发明实施例提供的适应网络表格特点的近似函数依赖检测方法能更
加准确地表达属性间内在的函数依赖关系；在计算近似函数依赖时基于一致性数据和不一
致性数据对函数依赖的支持度，该算法具有明显的抗噪声能力；

本发明实施例提供的基于近似函数依赖和规范化的实体列发现算法，可以在更多
场景下发现实体列。该方法不仅适用于单实体列的网络表格，还可用于多实体列的表格；不
仅适用于有表头的网络表格，而且适用于没有表头或者利用语义恢复技术也无法恢复出完
整表头的网络表格。

与现有的技术相比，本发明的方法具有实体列发现质量高和能够进行多实体列发
现的优点。为验证以上的优点，我们做了大量实验，实验数据来自两个数据源：一个为开源
的Wiki Table数据集，另一个为我们从网络上爬取的网络表格，我们称之为Web Table数据
集。我们将搜集来的网络表格按照行数的多少分为大表数据集(100行以上)，简称L数据集，
和小表数据集(100行以下)，简称S数据集。为方便进行单实体列和多实体列发现的实验验
证，我们将L数据集分成L单实体集(WiKi_LS和Web_LS)和L多实体集(WiKi_LM和Web_LM)；S
数据集分成S单实体集(WiKi_SS和Web_SS)和S多实体集(WiKi_SM和Web_SM)。

本发明基于列值间的函数依赖关系来发现实体列，不依赖表头和知识库信息，提
高了实体列发现的质量。为了验证本发明实施例的算法(AFD_Model)在降噪方面的有效性，
特地实现了PFD_Model算法，该算法除了没有考虑表格噪声外其余均与AFD_Model算法一
样。图3给出了AFD_Model、PFD_Model以及基于证据的方法(ED_Model)针对单实体列表的实
体列检测精度、覆盖率、F-值以及时间效率的对比。图5显示，本发明的算法AFD_Model整体
上优于ED_Model和PFD_Model。在准确率方面，ED_Model算法要求网络表格的表头在
Probase库中存在概念属性关系，表头的质量和知识库的覆盖程度都会影响ED_Model算法
的准确度，而AFD_Model算法不依赖任何表头信息和知识库，因此准确度较高。由于AFD_
Model算法考虑到了网络表格的特点，具有一定的噪声过滤能力，因此实体检测的精确度也
高于PFD_Model算法。在召回率方面，AFD_Model算法高于ED_Model算法和PFD_Model算法。
因为AFD_Model算法不要求网络表格必须存在表头，不要求表中的实体列与非实体列存在
属性关系，也不要求这种概念-属性关系在Probase库中存在，同时具有一定的噪声过滤能
力，因此算法的适应性更强。F-measure从整体上衡量算法的质量，本发明的算法具有明显
的优势。在运行时间方面，ED_Model算法的时间花费明显大于AFD_Model算法和PFD_Model
算法，因为ED_Model算法需要利用Probase库将表格的表头或者语义恢复出来的表头的概
念属性关系确定下来，进而确定实体列，而AFD_Model算法和PFD_Model算法的时间复杂度
仅与表格的大小有关。

本发明的方法适用于多实体列的表格，适用性显著增强。ED_Model算法不能进行
多实体列的发现，本发明的方法只与PFD_Model进行对比。图6为本发明实施例提供的AFD_
Model算法与PFD_Model算法在多实体列发现算法的有效性对比示意图。图6显示，无论精
度、召回率、还是F值，AFD_Model算法都比PFD_Model算法表现优秀，这是因为AFD_Model算
法在计算属性间的近似函数依赖时，考虑了噪声数据的影响。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或
流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可
借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质
上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品
可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备
(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些
部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部
分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或
系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法
实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为
分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或
者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根
据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术
人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，
都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围
为准。