一种数据标注方法及装置.pdf

摘要
申请专利号：	CN201510422815.3	申请日：	2015.07.17
公开号：	CN104965821A	公开日：	2015.10.07
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|专利申请权的转移IPC(主分类):G06F 17/27登记生效日:20171128变更事项:申请人变更前权利人:苏州大学张家港工业技术研究院变更后权利人:苏州大学变更事项:地址变更前权利人:215600 江苏省苏州市张家港市长泾路10号变更后权利人:215123 江苏省苏州市相城区济学路8号\|\|\|实质审查的生效IPC(主分类):G06F 17/27申请日:20150717\|\|\|公开
IPC分类号：	G06F17/27	主分类号：	G06F17/27
申请人：	苏州大学张家港工业技术研究院
发明人：	李正华; 张民; 陈文亮; 巢佳媛
地址：	215600江苏省苏州市张家港市长泾路10号
优先权：
专利代理机构：	北京集佳知识产权代理有限公司11227	代理人：	常亮
PDF下载：	PDF下载

内容摘要

本发明提供一种数据标注方法及装置，通过已有的标注数据训练第一句法分析器，其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系；基于所述第一句法分析器自动分析当前待分析句子中未标注的词，从未标注的词中选取出最有歧义的词，对所选取出的最有歧义的词的依存关系进行人工标注，得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法，其相对于现有完全标注方法来说降低工作量，并且发明人通过实验证明，对同等数量的待分析句子进行标注，本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80％的工作量，却取得与完全标注方法近似的准确度。

权利要求书

权利要求书
1.  一种数据标注方法，其特征在于，所述方法包括：
通过已有的标注数据训练第一句法分析器，其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系；
基于所述第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，其中所述最有歧义的词的依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度；
对所选取出的最有歧义的词的依存关系进行标注，得到部分标注的待分析句子，其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器，所述第二句法分析器替换所述第一句法分析器，用于分析下一个待分析句子中未标注的词。

2.  根据权利要求1所述的方法，其特征在于，所述基于第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，包括：
获取第一预设数量的所述待分析句子，并获取每条所述待分析句子中每个未标注的词的依存关系；
通过所述第一句法分析器计算每条所述待分析句子中所有依存关系的边缘概率；
基于所述边缘概率，计算每个未标注的词的边缘概率差值；
依据所述边缘概率差值，从所述未标注的词中选取第二预设数量的最有歧义的词；
其中所述第一预设数量的所述待分析句子从待分析集合中获取，且每次基于第一句法分析器自动分析当前待分析句子中未标注的词时所获取的所述待分析句子不同。

3.  根据权利要求1所述的方法，其特征在于，所述基于第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，包括：
基于预选取出的最有歧义的词的第一数量，为每次基于所述第一句法分析器进行自动分析的每条所述待分析句子设定选取比例，其中所述选取比例用于指示每条所述待分析句子所选取的最有歧义的词的第二数量，且每次基于所述第一句法分析器自动分析每条所述待分析句子得到的最有歧义的词的总数为第一数量；
基于每条所述待分析句子的选取比例，通过所述第一句法分析器选取每条所述待分析句子中最有歧义的词，以得到第一数量的最有歧义的词，其中在对同一条待分析句子进行选取时，每次基于边缘概率差值选取出一个最有歧义的词，并且同一条待分析句子相邻两次选取出的最有歧义的词的关系是：第i次选取出的最有歧义的词是从与第i-1次选取出的最有歧义的词的依存关系中获取，2≤i≤N，N为同一条待分析句子的选取次数。

4.  根据权利要求1所述的方法，其特征在于，所述基于第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的核心词，包括：
确定待分析集合中每条待分析句子中所有未标注的词的依存关系；
通过所述第一句法分析器分别计算每条所述待分析句子中所有依存关系的边缘概率；
基于每条待分析句子中各依存关系的边缘概率，从每条待分析句子中选取出边缘概率差值最小的词；
按照每个所选取出的词的边缘概率差值从小到大的排序，从排序的第一位开始向后选取预设个数的词作为最有歧义的词。

5.  一种数据标注装置，其特征在于，所述装置包括：
训练单元，用于通过已有的标注数据训练第一句法分析器，其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系；
分析单元，用于基于所述第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，其中所述最有歧义的词的依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度；
标注单元，用于对所选取出的最有歧义的词的依存关系进行标注，得到部分标注的待分析句子，其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器，所述第二句法分析器替换所述第一句法分析器，用于分析下一个待分析句子中未标注的词。

6.  根据权利要求5所述的装置，其特征在于，所述分析单元包括：
第一确定子单元，用于获取第一预设数量的所述待分析句子，并获取每条所述待分析句子中每个未标注的词的依存关系；
第一计算子单元，用于通过所述第一句法分析器计算每条所述待分析句子中所有依存关系的边缘概率；
第一选取子单元，用于基于所述边缘概率，计算每个未标注的词的边缘概率差值；
第二选取子单元，用于依据所述边缘概率差值，从所述未标注的词中选取第二预设数量的最有歧义的词；
其中所述第一预设数量的所述待分析句子从待分析集合中获取，且每次基于第一句法分析器自动分析当前待分析句子中未标注的词时所获取的所述待分析句子不同。

7.  根据权利要求5所述的装置，其特征在于，所述分析单元包括：
设定子单元，用于基于预选取出的最有歧义的词的第一数量，为每次基于所述第一句法分析器进行自动分析的每条所述待分析句子设定选取比例，其中所述选取比例用于指示每条所述待分析句子所选取的最有歧义的词的第二数量，且每次基于所述第一句法分析器自动分析每条所述待分析句子得到的最有歧义的词的总数为第一数量；
第三选取子单元，用于基于每条所述待分析句子的选取比例，通过所述第一句法分析器选取每条所述待分析句子中最有歧义的词，以得到第一数量的最有歧义的词，其中在对同一条待分析句子进行选取时，每次基于边缘概率差值选取出一个最有歧义的词，并且同一条待分析句子相邻两次选取出的最有歧义的词的关系是：第i次选取出的最有歧义的词是从与第i-1次选取出的最有歧义的词的依存关系中获取，2≤i≤N，N为同一条待分析句子的选取次数。

8.  根据权利要求5所述的装置，其特征在于，所述分析单元包括：
第二确定子单元，用于确定待分析集合中每条待分析句子中所有未标注的词的依存关系；
第二计算子单元，用于通过所述第一句法分析器分别计算每条所述待分析句子中所有依存关系的边缘概率；
第四选取子单元，用于基于每条待分析句子中各依存关系的边缘概率，从每条待分析句子中选取出边缘概率差值最小的词；
第五选取子单元，用于按照每个所选取出的词的边缘概率差值从小到大的排序，从排序的第一位开始向后选取预设个数的词作为最有歧义的词。

说明书

说明书一种数据标注方法及装置
技术领域
本发明属于句法分析技术领域，更具体的说，尤其涉及一种数据标注方法及装置。
背景技术
随着网络产品例如微博和微信等产品的增长，网络数据也在日益增长，这就为句法分析技术带来了巨大的挑战。其中句法分析主要的应用在于中文信息处理中，如机器翻译等，其是语块分析思想的一个直接实现，用于对句子中的词语语法功能进行分析来得到句子的句法树。
但是目前的句法分析采用完全标注方式，其需要标注者仔细检查整棵依存句法树，操作非常复杂，导致标注过程枯燥而困难。更关键的是整棵依存句法树的标注者之间的一致性非常低，当同一句子由两位标注者给出了不同的句法树，第三个参与的标注者则需要对比两者的不同并决定最后的标注结果，因此完全标注方法若想保证标注结果准确度较高则需要耗费大量工作。总而言之，上述对句子进行完全标注会增加标注工作量。
发明内容
有鉴于此，本发明的目的在于提供一种数据标注方法及装置，用于在保证标注结果准确度的情况下，降低标注工作量。
本发明提供一种数据标注方法，所述方法包括：
通过已有的标注数据训练第一句法分析器，其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系；
基于所述第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，其中所述最有歧义的词的依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度；
对所选取出的最有歧义的词的依存关系进行标注，得到部分标注的待分析句子，其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器，所述第二句法分析器替换所述第一句法分析器，用于分析下一个待分析句子中未标注的词。
优选地，所述基于第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，包括：
获取第一预设数量的所述待分析句子，并获取每条所述待分析句子中每个未标注的词的依存关系；
通过所述第一句法分析器计算每条所述待分析句子中所有依存关系的边缘概率；
基于所述边缘概率，计算每个未标注的词的边缘概率差值；
依据所述边缘概率差值，从所述未标注的词中选取第二预设数量的最有歧义的词；
其中所述第一预设数量的所述待分析句子从待分析集合中获取，且每次基于第一句法分析器自动分析当前待分析句子中未标注的词时所获取的所述待分析句子不同。
优选地，所述基于第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，包括：
基于预选取出的最有歧义的词的第一数量，为每次基于所述第一句法分析器进行自动分析的每条所述待分析句子设定选取比例，其中所述选取比例用于指示每条所述待分析句子所选取的最有歧义的词的第二数量，且每次基于所述第一句法分析器自动分析每条所述待分析句子得到的最有歧义的词的总数为第一数量；
基于每条所述待分析句子的选取比例，通过所述第一句法分析器选取每条所述待分析句子中最有歧义的词，以得到第一数量的最有歧义的词，其中在对同一条待分析句子进行选取时，每次基于边缘概率差值选取出一个最有歧义的词，并且同一条待分析句子相邻两次选取出的最有歧义的词的关系是：第i次选取出的最有歧义的词是从与第i-1次选取出的最有歧义的词的依存关系中获取，2≤i≤N，N为同一条待分析句子的选取次数。
优选地，所述基于第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的核心词，包括：
确定待分析集合中每条待分析句子中所有未标注的词的依存关系；
通过所述第一句法分析器分别计算每条所述待分析句子中所有依存关系的边缘概率；
基于每条待分析句子中各依存关系的边缘概率，从每条待分析句子中选取出边缘概率差值最小的词；
按照每个所选取出的词的边缘概率差值从小到大的排序，从排序的第一位开始向后选取预设个数的词作为最有歧义的词。
本发明还提供一种数据标注装置，所述装置包括：
训练单元，用于通过已有的标注数据训练第一句法分析器，其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系；
分析单元，用于基于所述第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，其中所述最有歧义的词的依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度；
标注单元，用于对所选取出的最有歧义的词的依存关系进行标注，得到部分标注的待分析句子，其中选取出的最有歧义的词添加至所述已有的标注数据中来训练第二句法分析器，所述第二句法分析器替换所述第一句法分析器，用于分析下一个待分析句子中未标注的词。
优选地，所述分析单元包括：
第一确定子单元，用于获取第一预设数量的所述待分析句子，并获取每条所述待分析句子中每个未标注的词的依存关系；
第一计算子单元，用于通过所述第一句法分析器计算每条所述待分析句子中所有依存关系的边缘概率；
第一选取子单元，用于基于所述边缘概率，计算每个未标注的词的边缘概率差值；
第二选取子单元，用于依据所述边缘概率差值，从所述未标注的词中选取第二预设数量的最有歧义的词；
其中所述第一预设数量的所述待分析句子从待分析集合中获取，且每次基于第一句法分析器自动分析当前待分析句子中未标注的词时所获取的所述待分析句子不同。
优选地，所述分析单元包括：
设定子单元，用于基于预选取出的最有歧义的词的第一数量，为每次基于所述第一句法分析器进行自动分析的每条所述待分析句子设定选取比例，其中所述选取比例用于指示每条所述待分析句子所选取的最有歧义的词的第二数量，且每次基于所述第一句法分析器自动分析每条所述待分析句子得到的最有歧义的词的总数为第一数量；
第三选取子单元，用于基于每条所述待分析句子的选取比例，通过所述第一句法分析器选取每条所述待分析句子中最有歧义的词，以得到第一数量的最有歧义的词，其中在对同一条待分析句子进行选取时，每次基于边缘概率差值选取出一个最有歧义的词，并且同一条待分析句子相邻两次选取出的最有歧义的词的关系是：第i次选取出的最有歧义的词是从与第i-1次选取出的最有歧义的词的依存关系中获取，2≤i≤N，N为同一条待分析句子的选取次数。
优选地，所述分析单元包括：
第二确定子单元，用于确定待分析集合中每条待分析句子中所有未标注的词的依存关系；
第二计算子单元，用于通过所述第一句法分析器分别计算每条所述待分析句子中所有依存关系的边缘概率；
第四选取子单元，用于基于每条待分析句子中各依存关系的边缘概率，从每条待分析句子中选取出边缘概率差值最小的词；
第五选取子单元，用于按照每个所选取出的词的边缘概率差值从小打到的排序，从排序的第一位开始向后选取预设个数的词作为最有歧义的词。
与现有技术相比，本发明提供的上述技术方案具有如下优点：
本发明提供的上述技术方案通过第一句法分析器可以对每条待分析句子进行分析，选取每条待分析句子中的最有歧义的词，并对所选取出的最有歧义的词的依存关系进行标注得到部分标注的待分析句子。即本发明实施例提供的上述技术方案是一种对待分析句子进行部分标注的方法，其相对于现有完全标注方法来说降低工作量。并且发明人通过实验证明，对同等数量的待分析句子进行标注，本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80％的工作量，却取得与完全标注方法近似的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据标注方法的流程图；
图2是本发明实施例提供的已部分标注的句子的一种示意图；
图3是本发明实施例提供的已部分标注的句子的另一种示意图；
图4是图1所示数据标注方法中选取最有歧义的词的一种流程图；
图5是图1所示数据标注方法中选取最有歧义的词的另一种流程图；
图6是图1所示数据标注方法中选取最有歧义的词的再一种流程图；
图7是本发明实施例提供的数据标注装置的结构示意图；
图8是图7所示数据标注装置中分析单元的第一种结构示意；
图9是图7所示数据标注装置中分析单元的第二种结构示意；
图10是图7所示数据标注装置中分析单元的第三种结构示意。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
请参阅图1，其示出了本发明实施例提供的数据标注方法的一种流程图，可以包括以下步骤：
101：通过已有的标注数据训练第一句法分析器，其中已有的标注数据为预先在句子中标注的核心词和所述核心词的依存关系。在本发明实施例中，预先选取的核心词可以是通过其他句法分析器得到，当然其也可以是人工选取的核心词。
并且第一句法分析器可以采用基于CRF(Conditional Random Field，条件随机域)的句法分析器，一方面，基于CRF的句法分析器可以利用边缘概率选取后续所需的核心词，另一方面，基于CRF的句法分析器能够从部分标注中获取到有效信息，如核心词，其中部分标注是对某个句子的部分词的依存关系进行标注，如图2所示的句子S0，对该句子中的saw和Sarah这两个词的依存关系采用箭头指示的依存弧来表示，每个依存弧上面的数据表示的是边缘概率，每个词下方给出的gap表示其最可能的两个核心词对应的边缘概率差值。
上述基于CRF的句法分析器将待分析句子从序列形式转化为依存句法树，一棵依存句法树由多个依存弧构成，每个依存弧表示了两词之间的句法关系，其可以形式化表示为d＝{(h,m,l):0≤h≤n,0<m≤n,l∈L}，其中一条有向弧(h,m,l)表示从核心词(head)wh到依存词(dependent)wm的依存弧，标签l表示依存弧的句法关系类型，L是标注规范中定义的依存句法关系类型集合，w0是人为标记的句子的根，即句子的开始结点。
基于CRF的句法分析器属于对数线性(log-linear)模型，其将一棵依存句法树的概率定义为：
p(d|x;θ)=exp{Score(x,d;θ)}Σd′&Element;y(x)exp{Score(x,d′;θ)}.]]>
其中Score(x,d；θ)是依存句法树d的分值，是权重向量θ和特征向量f(x,d)的点积，如Score(x,d；θ)＝θ·f(x,d)，θ可以通过随机梯度下降的方法来调整。y(x)是所有对变量x(训练第一句法分析器时使用的标注数据所在句子)而言合适的依存句法树，d′是依存弧。基于规范化，为了设计有效的动态解码程序，Score(x,d；θ)的分值通常分解成许多子树的和，如下公式所示：
其中p是由预设数量的依存弧构建的子树。
在训练上述基于CRF的句法分析器时可以采用基于完全标注数据的方法和基于部分标注数据的方法，其中基于完全标注数据的方法如下：假设训练数据集合为其中每个句子xi的句法结构为一颗完整的依存句法树di。那么训练数据集合D的似然函数为：是依存句法树di的概率。
训练目标为最大化如上似然函数，对其求偏导可以得到：
∂L(D;θ)∂θ=Σi=1N{f(xi,di)-Σd′&Element;y(xi)p(d′|xi;θ)f(xi,d′)}.]]>
其中，第一项为根据人工标注的依存句法树获得的特征的统计数，第二项为模型期望，可以采用经典的Inside-Outside动态规划算法，在多项式时间内计算出模型期值。
上述基于部分标注数据的方法可以借助模糊标注的方法，即允许一个句子有多个依存句法树作为其参考对象。首先，将一个部分依存句法树转化成句法森林，然后利用森林监督该句法分析器，如图3所示，其中图3中“saw”和“with”是通过标注得到核心词，剩下的不标注的词可以人为进行标注，在进行标注时不能改变该句子已有的依存关系。
设定一个句子的概率为x，标注后的句法森林为F，F定义为句法森林F包含的所有依存句法树D的概率之和：
当句法森林F的训练数据集合为其中每个句子xi的句法结构为一颗完整的依存句法树di。那么训练数据集合D的似然函数为：p(Fi|xi；θ)是句法森林Fi的概率。
训练目标为最大化如上似然函数，对其求偏导可以得到：
∂L(D;θ)∂θ=Σi=1N{Ed&Element;Fi[f(xi,d)]-Ed&Element;y(xi)[f(xi,d)]}.]]>
其中，第一项表示句法森林F空间中特征的期望值，其使用Inside-Outside算法求解。第二项Ed&Element;y(xi)[f(xi,d)]=Ed′&Element;y(xi)p(d′|xi;θ)f(xi,d′).]]>
注意的是，上述基于完全标注数据的方法可以理解成是句法森林F只包含一个依存句法树的部分标注训练时的特例，并且本发明实施例优选基于部分标注数据的方法。
102：基于第一句法分析器自动分析当前待分析句子中未标注的词，从未标注的词中选取出最有歧义的词。其中最有歧义的词的依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度，如图3所示句子为待分析句子时，saw的标注难度大于with的标注难度，因此saw是该句子中的最有歧义的词。
103：对所选取出的最有歧义的词的依存关系进行标注，得到部分标注的待分析句子。
在本发明实施例中，可以通过语义分析来得到词与词之间的依存关系，然后再使用预先设置形状的依存弧进行标注，这样对于每个待分析句子来说其标注的依存弧的形式同一，使得依存句法树的标注一致性得到提高。当然依存关系也可以由用户人为分析得出，但是这种方式会降低标注的一致性。
选取出的最有歧义的词可以添加至已有的标注数据中来训练第二句法分析器，第二句法分析器替换第一句法分析器，用于分析下一个待分析句子中未标注的数据，这样会使第一句法分析器不断更新以提高利用第一句法分析器得到的最有歧义的词的准确度。
在这里需要说明的一点是：通过已有的标注数据训练第一句法分析器可以首先将已有的标注数据按照每句为单位转换成句法森林，再利用上述基于部分标注方法来训练基于CRF的句法分析器作为第一句法分析器。
从上述技术方案可以看出，通过第一句法分析器可以对每条待分析句子进行分析，选取每条待分析句子中的最有歧义的词，并对所选取出的最有歧义的词的依存关系进行标注得到部分标注的待分析句子。即本发明实施例提供的上述技术方案是一种对待分析句子进行部分标注的方法，其相对于现有完全标注方法来说降低工作量。并且发明人通过实验证明，对同等数量的待分析句子进行标注，本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80％的工作量，却取得与完全标注方法近似的准确度。
上述技术方案中已经指出每次选取出的最有歧义的词会添加至已有的标注数据来训练第二句法分析器，第二句法分析器替换第一句法分析器，那么对于训练新的句法分析器来说的一个最关键的问题是确定出每次分析所选取的最有歧义的词的数量，为此本发明实施例提供了三种选取最有歧义的词的方式，具体如下：
第一种方式如图4所示，可以包括以下步骤：
1021：获取第一预设数量的待分析句子，并获取每条待分析句子中每个未标注的词的依存关系。其中未标注的词的依存关系可以通过语义分析获得，当然也可以通过人为分析获得，对此本发明实施例不加以限制。并且第一预设数量的待分析句子从待分析集合中获取，且每次基于第一句法分析器自动分析当前待分析句子中未标注的词时所获取的所述待分析句子不同。
比如：第一次基于句法分析器自动分析当前待分析句子中未标注的词时所选取的待分析句子为待分析集合中的第1条至第100条的待分析句子，而第二次基于句法分析器自动分析当前待分析句子中未标注的词时所选取的待分析句子则是待分析集合中的第101条至第200条的待分析句子。
1022：通过第一句法分析器计算每条待分析句子中所有依存关系的边缘概率。
其中依存关系可以采用依存弧(h,m)来表示，其边缘概率可以表示为：其中d是依存句法树，y(x)是所有对变量x(训练第一句法分析器时使用的标注数据所在句子)而言合适的依存句法树。
即一条依存弧的边缘概率等于包含这条依存弧的所有合法依存句法树的概率之和，其可以通过CRF句法分析器的Inside-Outside算法计算得到所有依存关系的边缘概率。如图2中()的边缘概率是0.5而()的边缘概率为0.4，两者的概率差值gap为0.1，并且当概率差值越小时，表明对相应词的依存关系分析越困难，因此图2所示句子中的“with”是对当前模型而言最困难的任务，gap值最小，类似的可以计算“saw”的依存弧之间的边缘概率差值gap，其gap为0.5，是次困难的任务。
在本发明实施例中，每条待分析句子在经过第一句法分析器的一次分析之后，可以得到所有依存关系的边缘概率，也就是说对于每条待分析句子来说，在输入到第一句法分析器后即可得到所有未标注的词的依存关系的边缘概率。
1023：基于边缘概率，计算每个未标注的词的边缘概率差值。基于边缘概率可以得到每个词的最有可能的候选核心的边缘概率差值，概率差值越小，该词的核心词的歧义越大，需要选出进行人工标注。
1024：基于边缘概率差值，从未标注的词中选取第二预设数量的最有歧义的词。一般情况下，边缘概率差值越小，未标注的词是最有歧义的词的概率越大，因此本发明实施例可以基于边缘概率差值由小到大的顺序，从未标注的词中选取第二预设数量的最有歧义的词。其中第二预设数量是预设的选取最有歧义的词的个数，其可以根据对句法分析器的要求来设定，具体取值本发明实施例并不加以限制。
当然除按照边缘概率差值由小到大的顺序选取之外，还可以采用其他方式，如为每条待分析句子设置一个预设比例，然后基于每条待分析句子中的边缘概率差值，从待分析句子中选取所述预设比例的最有歧义的词。
其中所述预设比例表明需要从每条待分析句子中选取几个数量的词，这样对于每条待分析句子的词则可以根据预设比例选取规定数量的最有歧义的词，并且在同一个待分析句子中选取时也要基于边缘概率差值由小到大的顺序进行选取。比如预设比例为0.3，图2所示的待分析句子包括6个词，则其所要选取的最有歧义的词的数量为6×0.3＝1.8≈2，且边缘概率差值最小的两个词是“with”和“saw”，则这两个词则是要选取的最有歧义的词。
通过上述方式可以从每条待分析句子中选取出预设个数的词，但是其存在一个问题：当一个词wm标注了相应的核心词wh，其在依存句法树空间y中的分布概率p(d|x；θ)将为改变。如果依存句法树空间y中没有的依存弧，那么依存句法树的概率会是零，而包含了这一依存弧的依存句法树空间y，其概率权重会被重新分配。换言之，如果当前依存句法树知道某一依存关系的存在，那么该依存关系歧义的困难度会降低。以图2为例，一旦依存关系()被标注，所有其他边缘概率的依存关系将会改变。为此提出了第二种选取最有歧义的词的方式，如图5所示，可以包括以下步骤：
1025：基于预选取出的最有歧义的词的第一数量，为每次基于第一句法分析器进行自动分析的每条待分析句子设定选取比例，其中选取比例用于指示每条待分析句子所选取的最有歧义的词的第二数量，且每次基于第一句法分析器自动分析每条待分析句子得到的最有歧义的词的总数为第一数量。
1026：基于每条待分析句子的选取比例，通过第一句法分析器选取每条待分析句子中最有歧义的词，以得到第一数量的最有歧义的词，其中在对同一条待分析句子进行选取时，每次基于边缘概率差值选取出一个最有歧义的词，并且同一条待分析句子相邻两次选取出的最有歧义的词的关系是：第i次选取出的最有歧义的词是从与第i-1次选取出的最有歧义的词的依存关系中获取，2≤i≤N，N为同一条待分析句子的选取次数。
也就是说，对于每条待分析句子来说，每经过第一句法分析器一次分析会基于边缘概率差值得到一个最有歧义的词，然后再次将待分析句子输入至第一句法分析器中进行分析，从与得到的最有歧义的词的依存关系中选取边缘概率差值最小的词为最有歧义的词，直至经过多次分析后从同一个待分析句子中选取出其选取比例指示的数量的词。这种选取方式可以从同一个待分析句子中选取出选取比例指示数量的最有歧义的词，考虑了最有歧义的词之间的依存关系的相互影响，使得基于具有一定依存关系的最有歧义的词训练出的句法分析器更加准确。
在这里需要说明的一点是：如果选取比例指示的数量为一个时，待分析句子则可以只被第一句法分析器进行一次分析，得到边缘概率差值最小的词为最有歧义的词。
上述两种选取核心词的方式都是基于某一个待分析句子选取出核心词，而忽略了其他句子对句法分析器的影响，因此本发明实施例提出了第三种选取最有歧义的词的方式，如图6所示，可以包括以下步骤：
1027：确定待分析集合中每条待分析句子中所有未标注的词的依存关系。在本发明实施例中，图6所示的选取方式每次都会通过第一句法分析器对待分析集合中的所有待分析句子进行分析，来选取出预设个数的最有歧义的词。
1028：通过第一句法分析器分别计算每条待分析句子中所有依存关系的边缘概率。也就是说对于每条待分析句子来说，在输入到第一句法分析器后即可得到所有未标注的词的依存关系的边缘概率。
1029：基于每条句子各依存关系的边缘概率，从每条句子中选取出边缘概率差值最小的词。
1030：按照每个所选取出的词的边缘概率差值从小到大的排序，从排序的第一位开始向后选取预设个数的词作为最有歧义的词。
在这里需要说明一点是：在上述三种方式中选取出最有歧义的词的待分析句子中可能还存在未标注的数据，在下一次选取最有歧义的词训练句法分析器时还可以从中选取，这样的话假如上一次选取的最有歧义的词对句法分析器的作用较小，则在剩余数据中找到对句法分析器作用较大的最有歧义的词的概率增大。
对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
与上述方法实施例相对应，本发明实施例还提供一种数据标注装置，其结构示意图如图7所示，可以包括：训练单元11、分析单元12和标注单元13。
训练单元11，用于通过已有的标注数据训练第一句法分析器，其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系。在本发明实施例中，预先选取的核心词可以是通过其他句法分析器得到的核心词，当然其也可以是人工选取的核心词。并且第一句法分析器可以采用基于CRF的句法分析器，对其训练时可以采用基于完全标注数据的方法和基于部分标注数据的方法，具体可以参阅上述方法实施例中的说明，本发明实施例优选基于部分标注数据的方法。
分析单元12，用于基于所述第一句法分析器自动分析当前待分析句子中未标注的词，从所述未标注的词中选取出最有歧义的词，其中所述最有歧义的词的依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度，如图3所示句子为待分析句子时，saw的标注难度大于with的标注难度，因此saw是该句子中的最有歧义的词。
标注单元13，用于对所选取出的最有歧义的词的依存关系进行标注，得到部分标注的待分析句子，其中选取出的最有歧义的词添加至已有的标注数据来训练第二句法分析器，所述第二句法分析器替换所述第一句法分析器，用于分析下一个待分析句子中未标注的词。在本发明实施例中，可以通过语义分析来得到核心词与其他词的依存关系，然后再使用预先设置形状的依存弧进行标注，这样对于每个待分析句子来说其标注的依存弧的形式同一，使得依存句法树的标注一致性得到提高。当然也可以人为标注核心词的依存关系，但是这种方式会降低标注的一致性。
在这里需要说明的一点是：通过已有的标注数据训练第一句法分析器可以首先将已有的标注数据按照每句为单位转换成句法森林，再利用上述基于部分标注方法来训练基于CRF的句法分析器作为第一句法分析器。
从上述技术方案可以看出，通过第一句法分析器可以对每条待分析句子进行分析，选取每条待分析句子中的最有歧义的词，并对所选取出的最有歧义的词的依存关系进行标注得到部分标注的待分析句子。即本发明实施例提供的上述技术方案是一种对待分析句子进行部分标注的方法，其相对于现有完全标注方法来说降低工作量。并且发明人通过实验证明，对同等数量的待分析句子进行标注，本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80％的工作量，却取得与完全标注方法近似的准确度。
此外本发明实施例提供了分析单元12的三种结构，分别为三种选取最有歧义的词的方式。分析单元的第一种结构示意图如图8所示，可以包括：第一确定子单元121、第一计算子单元122、第一选取子单元123和第二选取子单元124。
第一确定子单元121，用于获取第一预设数量的所述待分析句子，并获取每条所述待分析句子中每个未标注的词的依存关系。其中未标注的词的依存关系可以通过语义分析获得，当然也可以通过人为分析获得，对此本发明实施例不加以限制。并且第一预设数量的待分析句子从待分析集合中获取，且每次基于第一句法分析器自动分析当前待分析句子中未标注的词时所获取的所述待分析句子不同。
比如：第一次基于句法分析器自动分析当前待分析句子中未标注的词时所选取的待分析句子为待分析集合中的第1条至第100条的待分析句子，而第二次基于句法分析器自动分析当前待分析句子中未标注的词时所选取的待分析句子则是待分析集合中的第101条至第200条的待分析句子。
第一计算子单元122，用于通过第一句法分析器计算每条待分析句子中所有依存关系的边缘概率。也就是说对于每条待分析句子来说，在输入到第一句法分析器后即可得到所有未标注的词的依存关系的边缘概率。其中依存关系可以采用依存弧(h,m)来表示，其边缘概率可以表示为：其中d是依存句法树，y(x)是所有对变量x(训练第一句法分析器时使用的标注数据所在句子)而言合适的依存句法树。
即一条依存弧的边缘概率等于包含这条依存弧的所有合法依存句法树的概率之和，其可以通过CRF句法分析器的Inside-Outside算法计算得到所有依存关系的边缘概率。如图2中()的边缘概率是0.5而()的边缘概率为0.4，两者的概率差值gap为0.1，并且当概率差值越小时，表明对相应词的依存关系分析越困难，此时应该将其作为核心词，因此图2所示句子中的“with”是对当前模型而言最困难的任务，gap值最小，类似的可以计算“saw”的依存弧之间的边缘概率差值gap，其gap为0.5，是次困难的任务
第一选取子单元123，用于基于所述边缘概率，计算每个未标注的词的边缘概率差值。
第二选取子单元124，用于依据所述边缘概率差值，从所述未标注的词中选取第二预设数量的最有歧义的词。一般情况下，边缘概率差值越小，未标注的词是最有歧义的词的概率越大，因此本发明实施例可以基于边缘概率差值由小到大的顺序，从未标注的词中选取第二预设数量的最有歧义的词。其中第二预设数量是预设的选取最有歧义的词的个数，其可以根据对句法分析器的要求来设定，具体取值本发明实施例并不加以限制。
当然除按照边缘概率差值由小到大的顺序选取之外，还可以采用其他方式，如为每条待分析句子设置一个预设比例，然后基于每条待分析句子中的边缘概率差值，从待分析句子中选取所述预设比例的最有歧义的词。
其中所述预设比例表明需要从每条待分析句子中选取几个数量的词，这样对于每条待分析句子的词则可以根据预设比例选取规定数量的最有歧义的词，并且在同一个待分析句子中选取时也要基于边缘概率差值由小到大的顺序进行选取。比如预设比例为0.3，图2所示的待分析句子包括6个词，则其所要选取的最有歧义的词的数量为6×0.3＝1.8≈2，且边缘概率差值最小的两个词是“with”和“saw”，则这两个词则是要选取的最有歧义的词。
分析单元12的第二种结构示意图如图9所示，可以包括：设定子单元125和第三选取子单元126。
设定子单元125，用于基于预选取出的最有歧义的词的第一数量，为每次基于所述第一句法分析器进行自动分析的每条所述待分析句子设定选取比例，其中所述选取比例用于指示每条所述待分析句子所选取的最有歧义的词的第二数量，且每次基于所述第一句法分析器自动分析每条所述待分析句子得到的最有歧义的词的总数为第一数量。
第三选取子单元126，用于基于每条所述待分析句子的选取比例，通过所述第一句法分析器选取每条所述待分析句子中最有歧义的词，以得到第一数量的最有歧义的词，其中在对同一条待分析句子进行选取时，每次基于边缘概率差值选取出一个最有歧义的词，并且同一条待分析句子相邻两次选取出的最有歧义的词的关系是：第i次选取出的最有歧义的词是从与第i-1次选取出的最有歧义的词的依存关系中获取，2≤i≤N，N为同一条待分析句子的选取次数。这种选取方式可以从同一个待分析句子中选取出一定比例的最有歧义的词，考虑了最有歧义的词之间的依存关系的相互影响，使得基于具有一定依存关系的最有歧义的词训练出的句法分析器更加准确。
分析单元12的第三种结构示意图如图10所示，可以包括：第二确定子单元127、第三计算子单元128、第四选取子单元129和第五选取子单元130。
第二确定子单元127，用于确定待分析集合中每条待分析句子中所有未标注的词的依存关系。
第三计算子单元128，用于通过所述第一句法分析器分别计算每条所述待分析句子中所有依存关系的边缘概率。
第四选取子单元139，用于基于每条待分析句子中各依存关系的边缘概率，从每条待分析句子中选取出边缘概率差值最小的词。
第五选取子单元130，用于按照每个所选取出的词的边缘概率差值从小打到的排序，从排序的第一位开始向后选取预设个数的词作为最有歧义的词。
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。