一种确定图片文本标注的方法和系统.pdf

上传人:54 文档编号:1488660 上传时间:2018-06-17 格式:PDF 页数:14 大小:1.73MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210167803.7

申请日:

2012.05.25

公开号:

CN103425715A

公开日:

2013.12.04

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120525|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

百度在线网络技术(北京)有限公司

发明人:

阮星华; 欧鑫凤; 张敏; 高亮

地址:

100085 北京市海淀区上地十街10号百度大厦

优先权:

专利代理机构:

北京鸿德海业知识产权代理事务所(普通合伙) 11412

代理人:

袁媛

PDF下载: PDF下载
内容摘要

本发明提供了一种确定图片文本标注的方法和系统,在标注系统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;向所述标注组提供待标注图片;从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;利用所述标注组中各用户的标注关键词,确定所述待标注图片的标注结果。通过本发明能够避免标注系统在运行过程中长时间无法实现图片标注的情况,从而提高系统资源的利用率,同时降低协同作弊的可能性。

权利要求书

1.  一种确定图片文本标注的方法,其特征在于,该方法包括:
S1、在标注系统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;
S2、向所述标注组提供待标注图片;
S3、从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;
S4、利用所述标注组中各用户的标注关键词,确定所述待标注图片的标注结果。

2.
  根据权利要求1所述的方法,其特征在于,所述步骤S3中从所述待标注图片在源文件上的周边文本中提取关键词具体包括:
A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;
A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定步骤A1得到的各词语的权值;
A3、提取权值满足预设权值要求的词语作为关键词。

3.
  根据权利要求2所述的方法,其特征在于,所述步骤A2包括:
依据公式wij=[(αi1i2+…+αik)/Li]×idfj确定词语tj的权值wij,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。

4.
  根据权利要求1所述的方法,其特征在于,在所述步骤S3中还包括:
将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔ΔT逐一进行标注,所述ΔT=Tavr+β·Vtmax,其中Tavr为历史标注用户的标注时间间隔平均 值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,β为-1至1之间的随机值。

5.
  根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括:
将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。

6.
  根据权利要求1所述的方法,其特征在于,在所述步骤S4之后还包括:
S5、如果标注系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。

7.
  根据权利要求1所述的方法,其特征在于,该方法还包括:
当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;
其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。

8.
  一种确定图片文本标注的系统,其特征在于,该系统包括:
虚拟用户分配单元,用于如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;
图片提供单元,用于向所述标注组提供待标注图片;
虚拟用户模拟单元,用于从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;
标注结果确定单元,用于利用标注组中各用户的标注关键词,确定所述待标注图片的标注结果。

9.
  根据权利要求8所述的系统,其特征在于,所述虚拟用户模拟单元在从所述待标注图片在源文件上的周边文本中提取关键词时,具体执行以下操作:
A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;
A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定操作A1得到的各词语的权值;
A3、提取权值满足预设权值要求的词语作为关键词。

10.
  根据权利要求9所述的系统,其特征在于,所述虚拟用户模拟单元在执行操作A2时,依据公式wij=[(αi1i2+…+αik)/Li]×idfj确定词语tj的权值wij,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。

11.
  根据权利要求8所述的系统,其特征在于,所述虚拟用户模拟单元,还用于将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔ΔT逐一进行标注,所述ΔT=Tavr+β·Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,β为-1至1之间的随机值。

12.
  根据权利要求8所述的系统,其特征在于,所述标注结果确定单元具体将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。

13.
  根据权利要求8所述的系统,其特征在于,该系统还包括:
用户切换单元,用于如果当前系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。

14.
  根据权利要求8所述的系统,其特征在于,该系统还包括:
作弊检测单元,用于当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;
其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。

说明书

一种确定图片文本标注的方法和系统
技术领域
本发明涉及计算机应用技术领域,特别涉及一种确定图片文本标注的方法和系统。
背景技术
随着多媒体相关技术的发展,数字图片的规模迅速扩大,其应用也越来越广泛,因此,如何有效、快速地从大规模图片数据中搜索出所需的图片已成为一个研究热点。常用的方式为基于文本的图片搜索方式,即通过表征图片信息的关键词建立索引来实现图片搜索。其中通过“众包”的方式对图片进行信息标注,来提高搜索引擎的准确性和召回率是一个比较有效的方法,并且标注数据可以作为图片机器学习的样本数据,对于提高图片机器学习的准确率也有很大的效果。
现有对图片进行标注的方式要求标注用户具有一定程度的同步,即当可参与图片标注的在线用户数量达到预设的人数要求时,向可参与图片标注的在线用户展示待标注图片,获取在线用户对待标注图片标注的关键词,并利用各关键词的一致性程度来确定图片的标注结果。但这种标注方式会存在以下问题:
1)在标注系统运行的过程中有在线用户数量少的时候,可能长时间无法达到启动标注需要的人数要求,在此过程中,在线用户可能不愿意等待而下线,这就更造成长时间无法达到启动标注的人数要求。这就会造成标注系统在运行过程中可能长时间无法实现图片标注的情况,显然,浪费了系统资源。
2)在标注系统中是存在激励机制的,部分用户是为了奖励而参与标注,这就可能引起部分用户的协同作弊行为,即部分用户串通为图片标注相同关 键词从而获得奖励,而该关键词可能并不准确,从而影响图片标注的准确性。
发明内容
有鉴于此,本发明提供了一种确定图片文本标注的方法和系统,以便于避免标注系统在运行过程中长时间无法实现图片标注的情况,从而提高系统资源的利用率,同时降低协同作弊的可能性。
具体技术方案如下:
一种确定图片文本标注的方法,该方法包括:
S1、在标注系统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;
S2、向所述标注组提供待标注图片;
S3、从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;
S4、利用所述标注组中各用户的标注关键词,确定所述待标注图片的标注结果。
根据本发明一优选实施例,所述步骤S3中从所述待标注图片在源文件上的周边文本中提取关键词具体包括:
A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;
A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定步骤A1得到的各词语的权值;
A3、提取权值满足预设权值要求的词语作为关键词。
根据本发明一优选实施例,所述步骤A2包括:
依据公式wij=[(αi1i2+…+αik)/Li]×idfj确定词语tj的权值wij,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数, Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。
根据本发明一优选实施例,在所述步骤S3中还包括:
将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔ΔT逐一进行标注,所述ΔT=Tavr+β·Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,β为-1至1之间的随机值。
根据本发明一优选实施例,所述步骤S4具体包括:
将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。
根据本发明一优选实施例,在所述步骤S4之后还包括:
S5、如果标注系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。
根据本发明一优选实施例,该方法还包括:
当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;
其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。
一种确定图片文本标注的系统,该系统包括:
虚拟用户分配单元,用于如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;
图片提供单元,用于向所述标注组提供待标注图片;
虚拟用户模拟单元,用于从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;
标注结果确定单元,用于利用标注组中各用户的标注关键词,确定所述待标注图片的标注结果。
根据本发明一优选实施例,所述虚拟用户模拟单元在从所述待标注图片在源文件上的周边文本中提取关键词时,具体执行以下操作:
A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;
A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定操作A1得到的各词语的权值;
A3、提取权值满足预设权值要求的词语作为关键词。
根据本发明一优选实施例,所述虚拟用户模拟单元在执行操作A2时,依据公式wij=[(αi1i2+…+αik)/Li]×idfj确定词语tj的权值wij,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。
根据本发明一优选实施例,所述虚拟用户模拟单元,还用于将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔ΔT逐一进行标注,所述ΔT=Tavr+β·Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,β为-1至1之间的随机值。
根据本发明一优选实施例,所述标注结果确定单元具体将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。
根据本发明一优选实施例,该系统还包括:
用户切换单元,用于如果当前系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。
根据本发明一优选实施例,该系统还包括:
作弊检测单元,用于当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是 否超过预设次数阈值,如果是,则确定其他用户存在作弊;
其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。
由以上技术方案可以看出,本发明通过分配虚拟用户参与图片标注的方式避免了标注系统在运行过程中长时间无法实现图片标注的情况,从而提高系统资源的利用率;同时由于虚拟用户对图片标注的参与,其标注关键词不受同标注组其他用户的影响,而是从待标注图片的已有标注结果中选择关键词,或者,从待标注图片在源文件上的周边文本中提取关键词,因此在一定程度上减少了同标注组的用户协同作弊的影响,即降低了协同作弊的可能性。
附图说明
图1为本发明实施例一提供的确定图片文本标注的方法流程图;
图2为本发明实施例一提供的分配虚拟用户参与标注的示意图;
图3为本发明实施例一提供的待标注图片实例;
图4为本发明实施例一提供的用户切换示意图;
图5为本发明实施例二提供的确定图片文本标注的系统结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的确定图片文本标注的方法流程图,在该实施例中引入虚拟用户来参与图片标注,防止长时间可参与图片标注的用户数量达不到人数要求,具体如图1所示,该方法包括以下步骤:
步骤101:如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组。
如果超过预设时长WTmax可参与图片标注的用户数量没有达到预设的人数要求,则标注系统就会分配一个虚拟参与者,即虚拟用户和真实用户一起参与图片标注,如图2所示。假设参与一个图片标注的人数要求为4人,超过WTmax可参与图片标注的用户仍只有3人:U1、U2和U3(在线用户还存在U4、U5、U6和U7,但已经构成标注组1参与图片的标注,则他们就不是目前可参与图片标注的用户),此时标注系统会分配虚拟用户VU1和真实用户U1、U2和U3构成标注组2一起参与图片标注。
另外,为了防止一个标注组中全是虚拟用户,分配虚拟用户的条件可以进一步增加:至少存在一个可参与图片标注的用户。
步骤102:为该标注组提供待标注图片。
步骤103:从该待标注图片的已有标注结果中选择关键词,或者,从该待标注图片在源文件上的周边文本提取关键词,作为虚拟用户对该待标注图片的标注关键词。
虚拟用户的行为模仿真实用户,也需要对图片进行标注,其标注关键词可以通过两种方式获得:
第一种方式:从待标注图片的已有标注结果中获得。图片的已有标注结果为每次参与标注的用户中达成共识的关键词,即一致率满足预设要求的标注关键词,可以从中任选N个作为虚拟用户对该待标注图片的标注关键词,也可以从中选择N个标注次数最多的作为虚拟用户对该待标注图片的标注关键词,N为预设的正整数。当然也可以采用其他选择策略,在此不再一一穷举。
第二种方式:从待标注图片在源文件上的周边文本提取关键词。在本发明实施例中采用一种带权重的倒文档率关键词提取方法,针对关键词在周边文本中出现位置不同而赋予不同权重,即利用周边文本中各词语的位置以及各词语的倒文档率,确定各词语的权值,提取权值满足预设权值要求的词语作为关键词。
通常在网页中,图片周边文本和图片的相关性往往和图片与文本之间的物理距离有一定关系,距离图片越近的文本和图片的相关性一般来说会高一些,从中提取为关键词的概率比较大。另外,在周边文本中如果出现“如图”、“图中”、“图示”等词语的时候,其前后内容和图片的相关度往往会高一些。
首先对待标注图片在源文件上的周边文本进行分词处理,例如,对待标注图片在页面上的周边文本进行分词处理,并进行诸如停用词过滤等预处理。
然后按照公式(1)计算分词处理后得到的各词语的权值。
wij=[(αi1i2+…+αik)/Li]×idfj=[(αi1i2+…+αik)/Li]×log(N/nj)(1)
其中,wij为词语tj作为图片di关键词的权值,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重。k为词语tj在周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率,N为图片总数,nj为在源文件上的周边文本出现词语tj的图片数。
权重αi1、αi2......αik的设置可以为:和图片距离越近权重越大,越靠近“如图”、“图中”、“图示”等预设词语的权重越大。例如,可以预先根据词语和图片距离的行数设置不同权重,以及根据词语和预设词语距离的字数或词数设置不同权重。
最后从分词处理后得到的词语中提取权值满足预设权值要求的词语作为关键词。例如,提取权值排在前M个的词语,M为预设的正整数,或者,提取权值大于预设权值阈值的词语。
虚拟用户的上述两种标注关键词的获得方式可以择一使用,优选地,也可以同时使用。例如,通过上述提取关键词的过程,对于图3所示的待标注图片,虚拟用户可以从该图片所在的url页面上的周边文本中提取出关键词:“甲壳虫”、“新甲壳虫”、“大众”、同时从该图片之前的已有标注结果中能够获得“红色”、“汽车”等关键词。
除此之外,由于虚拟用户模仿的是真实用户的行为,真实用户在对待标 注图片进行标注时,会将标注关键词逐一标注在弹出的文本框、待标注图片附近的文本框等标注位置,因此虚拟用户也需要将提取的标注关键词逐一标注在对应的标注位置,为了保证标注时间也与真实用户相一致,优选地,可以通过如下公式(2)得到虚拟用户的标注时间间隔ΔT。
ΔT=Tavr+β·Vtmax    (2)
其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,即最大抖动时间,β为-1至1之间的随机值。
除了公式(2)之外,也可以直接将ΔT采用一个经验值。
步骤104:利用该标注组中各用户的标注关键词,确定该待标注图片的标注结果。
该标注组中的用户包括真实用户以及虚拟用户,在利用该标注组中真实用户和虚拟用户的标注关键词确定该待标注图片的标注结果时,与现有技术相似,确定标注关键词中一致率达到预设要求的标注关键词作为该待标注图片的标注结果。
其中一致率的预设要求可以根据标注系统需要的准确度来进行设置,如果要求较高准确度则可以设置一致率的要求为100%,当某一个关键词只有出现在标注组中所有用户的标注关键词中,才作为该待标注图片的标注结果。例如,对于图3所示的图片,如果标注组中用户U1的标注关键词为“甲壳虫”、“大众”、“轮胎”,用户U2的标注关键词为“甲壳虫”、“大众”、“new beetle”,用户U3的标注关键词为“大众”、“甲壳虫”、“轿车”,用户VU1的标注关键词为“大众”、“甲壳虫”、“红色”,则确定该图片的标注结果为“甲壳虫”和“大众”。
步骤105:如果标注系统中存在可参与标注的用户,则选择可参与标注的用户替换该标注组中的虚拟用户。
也就是说,当虚拟用户参与的标注组完成待标注图片的标注后,标注系 统中有新的用户登录,就可以将标注组中的虚拟用户切换为新登录的可参与标注的用户,虚拟用户就可以退出该标注组。这个切换过程对真实用户来说是透明的,如图4所示,假设此时存在可参与标注的用户U8和U9,则可以选择U8与VU1进行切换。需要说明的是步骤105为可选步骤。
在上述过程中,由于虚拟用户对图片标注的参与,且其标注关键词不受同标注组其他用户的影响,因此在一定程度上已经减少了同标注组的用户串通作弊的影响,即如果真实用户串通作弊,虚拟用户的参与降低了其他用户的标注关键词的一致率,使得其他用户很难通过串通的方式达成一致,串通作弊的成本提高,可能就会放弃作弊。
为了更进一步遏制作弊行为,当确定标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设的阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊。也就是说,如果其他用户多次与虚拟用户的标注关键词都有较大程度的不一致,则该其他用户很可能是作弊用户。
针对作弊用户所采用的策略本发明不加以限制,例如可以采用屏蔽作弊用户,针对作弊用户采用更进一步检测措施,惩罚作弊用户等策略。
其中如果其他用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,其他用户的积分增长速度超过预设增长阈值,则认为其他用户行为异常。
以上是对本发明所提供的方法进行的详细描述,下面通过实施例二对本发明所提供的系统进行详细描述。
实施例二、
图5为本发明实施例二提供的确定图片文本标注的系统结构图,如图5所示,该系统包括:虚拟用户分配单元500、图片提供单元501、虚拟用户模拟单元502和标注结果确定单元503。
虚拟用户分配单元500,用于如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组。
虚拟用户分配单元500分配虚拟用户实际上是对虚拟用户模拟单元502进行调用,参与当前标注组对图片的标注过程。
图片提供单元501,用于向标注组提供待标注图片。该图片提供单元501是标注系统中的已有单元,一旦形成标注组就会向标注组中的各用户提供待标注的图片,供用户进行标注,在此不再详述。
虚拟用户模拟单元502,用于从待标注图片的已有标注结果中选择关键词,或者,从待标注图片在源文件上的周边文本中提取关键词,作为虚拟用户对待标注图片的标注关键词。
其中虚拟用户模拟单元502在从待标注图片在源文件上的周边文本中提取关键词时,具体执行以下操作:
A1、对待标注图片在源文件上的周边文本进行分词和过滤处理。
A2、依据词语在周边文本中的位置以及词语的倒文档率,确定操作A1得到的各词语的权值。具体可以依据公式wij=[(αi1i2+…+αik)/Li]×idfj确定词语tj的权值wij,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。
A3、提取权值满足预设权值要求的词语作为关键词。例如,提取权值排在前M个的词语,M为预设的正整数,或者,提取权值大于预设权值阈值的词语。
标注结果确定单元503首先获取标注组中各用户的标注关键词,这是其的已有功能,在本实施例中其获取的除了标注组中真实用户的标注关键词之外,还会有虚拟用户模拟单元502得到的虚拟用户对待标注图片的标注关键词。然后利用标注组中各用户的标注关键词,确定待标注图片的标注结果,具体可以将标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为待标注图片的标注结果。
另外,虚拟用户模拟单元502在将虚拟用户模仿真实用户行为时,尽量保 证虚拟用户的标注时间也与真实用户相一致,可以将虚拟用户对待标注图片的标注关键词按照标注时间间隔ΔT逐一进行标注,ΔT=Tavr+β·Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,β为-1至1之间的随机值。当然,也可以将ΔT采用一个经验值。
更进一步地,该系统还可以包括:用户切换单元(图中未示出),用于如果当前系统中存在可参与标注的用户,则选择可参与标注的用户替换标注组中的虚拟用户。
上述系统中,由于虚拟用户对图片标注的参与,且其标注关键词不受同标注组其他用户的影响,因此在一定程度上已经减少了同标注组的用户串通作弊的影响,即如果真实用户串通作弊,虚拟用户的参与降低了其他用户的标注关键词的一致率,使得其他用户很难通过串通的方式达成一致,串通作弊的成本提高,可能就会放弃作弊。
为了更进一步遏制作弊行为,该系统还可以包括:作弊检测单元504,用于当确定标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊。
其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定某用户行为异常。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

一种确定图片文本标注的方法和系统.pdf_第1页
第1页 / 共14页
一种确定图片文本标注的方法和系统.pdf_第2页
第2页 / 共14页
一种确定图片文本标注的方法和系统.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《一种确定图片文本标注的方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种确定图片文本标注的方法和系统.pdf(14页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103425715 A(43)申请公布日 2013.12.04CN103425715A*CN103425715A*(21)申请号 201210167803.7(22)申请日 2012.05.25G06F 17/30(2006.01)(71)申请人百度在线网络技术(北京)有限公司地址 100085 北京市海淀区上地十街10号百度大厦(72)发明人阮星华 欧鑫凤 张敏 高亮(74)专利代理机构北京鸿德海业知识产权代理事务所(普通合伙) 11412代理人袁媛(54) 发明名称一种确定图片文本标注的方法和系统(57) 摘要本发明提供了一种确定图片文本标注的方法和系统,在标注系。

2、统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;向所述标注组提供待标注图片;从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;利用所述标注组中各用户的标注关键词,确定所述待标注图片的标注结果。通过本发明能够避免标注系统在运行过程中长时间无法实现图片标注的情况,从而提高系统资源的利用率,同时降低协同作弊的可能性。(51)Int.Cl.权利要求书2页 说明书7页 附图4页(19)中华人民共和国国家知识产权局(12)发。

3、明专利申请权利要求书2页 说明书7页 附图4页(10)申请公布号 CN 103425715 ACN 103425715 A1/2页21.一种确定图片文本标注的方法,其特征在于,该方法包括:S1、在标注系统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;S2、向所述标注组提供待标注图片;S3、从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;S4、利用所述标注组中各用户的标注关键词,确定所述待标注图片的标注结果。2.。

4、根据权利要求1所述的方法,其特征在于,所述步骤S3中从所述待标注图片在源文件上的周边文本中提取关键词具体包括:A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定步骤A1得到的各词语的权值;A3、提取权值满足预设权值要求的词语作为关键词。3.根据权利要求2所述的方法,其特征在于,所述步骤A2包括:依据公式wij(i1+i2+ik)/Liidfj确定词语tj的权值wij,i1、i2.ik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出。

5、现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。4.根据权利要求1所述的方法,其特征在于,在所述步骤S3中还包括:将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔T逐一进行标注,所述TTavr+Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,为-1至1之间的随机值。5.根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括:将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。6.根据权利要求1所述的方法,其特征在于,在所述步骤S4之后还包括。

6、:S5、如果标注系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。7.根据权利要求1所述的方法,其特征在于,该方法还包括:当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。8.一种确定图片文本标注的系统,其特征在于,该系统包括:虚拟用户分配单元,用于如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚。

7、拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;图片提供单元,用于向所述标注组提供待标注图片;虚拟用户模拟单元,用于从所述待标注图片的已有标注结果中选择关键词,或者,从所权 利 要 求 书CN 103425715 A2/2页3述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;标注结果确定单元,用于利用标注组中各用户的标注关键词,确定所述待标注图片的标注结果。9.根据权利要求8所述的系统,其特征在于,所述虚拟用户模拟单元在从所述待标注图片在源文件上的周边文本中提取关键词时,具体执行以下操作:A1、对所述待标注图片在源文件上的周边文本进行分词和过。

8、滤处理;A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定操作A1得到的各词语的权值;A3、提取权值满足预设权值要求的词语作为关键词。10.根据权利要求9所述的系统,其特征在于,所述虚拟用户模拟单元在执行操作A2时,依据公式wij(i1+i2+ik)/Liidfj确定词语tj的权值wij,i1、i2.ik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。11.根据权利要求8所述的系统,其特征在于,所述虚拟用户模拟单元,还。

9、用于将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔T逐一进行标注,所述TTavr+Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,为-1至1之间的随机值。12.根据权利要求8所述的系统,其特征在于,所述标注结果确定单元具体将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。13.根据权利要求8所述的系统,其特征在于,该系统还包括:用户切换单元,用于如果当前系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。14.根据权利要求8所述的系统,其特。

10、征在于,该系统还包括:作弊检测单元,用于当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。权 利 要 求 书CN 103425715 A1/7页4一种确定图片文本标注的方法和系统【 技术领域 】0001 本发明涉及计算机应用技术领域,特别涉及一种确定图片文本标注的方法和系统。【 背景技术 】0002 随着多媒体相关技术的发展,数字图片的规模迅速扩大。

11、,其应用也越来越广泛,因此,如何有效、快速地从大规模图片数据中搜索出所需的图片已成为一个研究热点。常用的方式为基于文本的图片搜索方式,即通过表征图片信息的关键词建立索引来实现图片搜索。其中通过“众包”的方式对图片进行信息标注,来提高搜索引擎的准确性和召回率是一个比较有效的方法,并且标注数据可以作为图片机器学习的样本数据,对于提高图片机器学习的准确率也有很大的效果。0003 现有对图片进行标注的方式要求标注用户具有一定程度的同步,即当可参与图片标注的在线用户数量达到预设的人数要求时,向可参与图片标注的在线用户展示待标注图片,获取在线用户对待标注图片标注的关键词,并利用各关键词的一致性程度来确定图。

12、片的标注结果。但这种标注方式会存在以下问题:0004 1)在标注系统运行的过程中有在线用户数量少的时候,可能长时间无法达到启动标注需要的人数要求,在此过程中,在线用户可能不愿意等待而下线,这就更造成长时间无法达到启动标注的人数要求。这就会造成标注系统在运行过程中可能长时间无法实现图片标注的情况,显然,浪费了系统资源。0005 2)在标注系统中是存在激励机制的,部分用户是为了奖励而参与标注,这就可能引起部分用户的协同作弊行为,即部分用户串通为图片标注相同关键词从而获得奖励,而该关键词可能并不准确,从而影响图片标注的准确性。【 发明内容 】0006 有鉴于此,本发明提供了一种确定图片文本标注的方法。

13、和系统,以便于避免标注系统在运行过程中长时间无法实现图片标注的情况,从而提高系统资源的利用率,同时降低协同作弊的可能性。0007 具体技术方案如下:0008 一种确定图片文本标注的方法,该方法包括:0009 S1、在标注系统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;0010 S2、向所述标注组提供待标注图片;0011 S3、从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;0012 S4、利用所述标注组中各用。

14、户的标注关键词,确定所述待标注图片的标注结果。0013 根据本发明一优选实施例,所述步骤S3中从所述待标注图片在源文件上的周边说 明 书CN 103425715 A2/7页5文本中提取关键词具体包括:0014 A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;0015 A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定步骤A1得到的各词语的权值;0016 A3、提取权值满足预设权值要求的词语作为关键词。0017 根据本发明一优选实施例,所述步骤A2包括:0018 依据公式wij(i1+i2+ik)/Liidfj确定词语tj的权值wij,i1、i2.ik为词语tj出现在图片。

15、di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。0019 根据本发明一优选实施例,在所述步骤S3中还包括:0020 将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔T逐一进行标注,所述TTavr+Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,为-1至1之间的随机值。0021 根据本发明一优选实施例,所述步骤S4具体包括:0022 将所述标注组中各用户的标注关键词中。

16、一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。0023 根据本发明一优选实施例,在所述步骤S4之后还包括:0024 S5、如果标注系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。0025 根据本发明一优选实施例,该方法还包括:0026 当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;0027 其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。0028 。

17、一种确定图片文本标注的系统,该系统包括:0029 虚拟用户分配单元,用于如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;0030 图片提供单元,用于向所述标注组提供待标注图片;0031 虚拟用户模拟单元,用于从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;0032 标注结果确定单元,用于利用标注组中各用户的标注关键词,确定所述待标注图片的标注结果。0033 根据本发明一优选实施例,所述虚拟用户模拟单元在从所述待标注图。

18、片在源文件上的周边文本中提取关键词时,具体执行以下操作:0034 A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;说 明 书CN 103425715 A3/7页60035 A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定操作A1得到的各词语的权值;0036 A3、提取权值满足预设权值要求的词语作为关键词。0037 根据本发明一优选实施例,所述虚拟用户模拟单元在执行操作A2时,依据公式wij(i1+i2+ik)/Liidfj确定词语tj的权值wij,i1、i2.ik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重。

19、越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。0038 根据本发明一优选实施例,所述虚拟用户模拟单元,还用于将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔T逐一进行标注,所述TTavr+Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,为-1至1之间的随机值。0039 根据本发明一优选实施例,所述标注结果确定单元具体将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。0040 根据本发明一优选实施例,该系统。

20、还包括:0041 用户切换单元,用于如果当前系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。0042 根据本发明一优选实施例,该系统还包括:0043 作弊检测单元,用于当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;0044 其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。0045 由以上技术方案可以看出,本发明通过分配虚拟用户参与图片标注的方式避免了标注系统在运。

21、行过程中长时间无法实现图片标注的情况,从而提高系统资源的利用率;同时由于虚拟用户对图片标注的参与,其标注关键词不受同标注组其他用户的影响,而是从待标注图片的已有标注结果中选择关键词,或者,从待标注图片在源文件上的周边文本中提取关键词,因此在一定程度上减少了同标注组的用户协同作弊的影响,即降低了协同作弊的可能性。【 附图说明 】0046 图1为本发明实施例一提供的确定图片文本标注的方法流程图;0047 图2为本发明实施例一提供的分配虚拟用户参与标注的示意图;0048 图3为本发明实施例一提供的待标注图片实例;0049 图4为本发明实施例一提供的用户切换示意图;0050 图5为本发明实施例二提供的。

22、确定图片文本标注的系统结构图。【 具体实施方式 】0051 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对说 明 书CN 103425715 A4/7页7本发明进行详细描述。0052 实施例一、0053 图1为本发明实施例一提供的确定图片文本标注的方法流程图,在该实施例中引入虚拟用户来参与图片标注,防止长时间可参与图片标注的用户数量达不到人数要求,具体如图1所示,该方法包括以下步骤:0054 步骤101:如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组。0055 如果超过预设时长WTmax可。

23、参与图片标注的用户数量没有达到预设的人数要求,则标注系统就会分配一个虚拟参与者,即虚拟用户和真实用户一起参与图片标注,如图2所示。假设参与一个图片标注的人数要求为4人,超过WTmax可参与图片标注的用户仍只有3人:U1、U2和U3(在线用户还存在U4、U5、U6和U7,但已经构成标注组1参与图片的标注,则他们就不是目前可参与图片标注的用户),此时标注系统会分配虚拟用户VU1和真实用户U1、U2和U3构成标注组2一起参与图片标注。0056 另外,为了防止一个标注组中全是虚拟用户,分配虚拟用户的条件可以进一步增加:至少存在一个可参与图片标注的用户。0057 步骤102:为该标注组提供待标注图片。0。

24、058 步骤103:从该待标注图片的已有标注结果中选择关键词,或者,从该待标注图片在源文件上的周边文本提取关键词,作为虚拟用户对该待标注图片的标注关键词。0059 虚拟用户的行为模仿真实用户,也需要对图片进行标注,其标注关键词可以通过两种方式获得:0060 第一种方式:从待标注图片的已有标注结果中获得。图片的已有标注结果为每次参与标注的用户中达成共识的关键词,即一致率满足预设要求的标注关键词,可以从中任选N个作为虚拟用户对该待标注图片的标注关键词,也可以从中选择N个标注次数最多的作为虚拟用户对该待标注图片的标注关键词,N为预设的正整数。当然也可以采用其他选择策略,在此不再一一穷举。0061 第。

25、二种方式:从待标注图片在源文件上的周边文本提取关键词。在本发明实施例中采用一种带权重的倒文档率关键词提取方法,针对关键词在周边文本中出现位置不同而赋予不同权重,即利用周边文本中各词语的位置以及各词语的倒文档率,确定各词语的权值,提取权值满足预设权值要求的词语作为关键词。0062 通常在网页中,图片周边文本和图片的相关性往往和图片与文本之间的物理距离有一定关系,距离图片越近的文本和图片的相关性一般来说会高一些,从中提取为关键词的概率比较大。另外,在周边文本中如果出现“如图”、“图中”、“图示”等词语的时候,其前后内容和图片的相关度往往会高一些。0063 首先对待标注图片在源文件上的周边文本进行分。

26、词处理,例如,对待标注图片在页面上的周边文本进行分词处理,并进行诸如停用词过滤等预处理。0064 然后按照公式(1)计算分词处理后得到的各词语的权值。0065 wij(i1+i2+ik)/Liidfj(i1+i2+ik)/Lilog(N/nj)(1)0066 其中,wij为词语tj作为图片di关键词的权值,i1、i2.ik为词语tj出现在图片di的源文件上周边文本不同位置时的权重。k为词语tj在周边文本的出现次数,Li说 明 书CN 103425715 A5/7页8为图片di的源文件上周边文本的长度,idfj为tj的倒文档率,N为图片总数,nj为在源文件上的周边文本出现词语tj的图片数。006。

27、7 权重i1、i2.ik的设置可以为:和图片距离越近权重越大,越靠近“如图”、“图中”、“图示”等预设词语的权重越大。例如,可以预先根据词语和图片距离的行数设置不同权重,以及根据词语和预设词语距离的字数或词数设置不同权重。0068 最后从分词处理后得到的词语中提取权值满足预设权值要求的词语作为关键词。例如,提取权值排在前M个的词语,M为预设的正整数,或者,提取权值大于预设权值阈值的词语。0069 虚拟用户的上述两种标注关键词的获得方式可以择一使用,优选地,也可以同时使用。例如,通过上述提取关键词的过程,对于图3所示的待标注图片,虚拟用户可以从该图片所在的url页面上的周边文本中提取出关键词:“。

28、甲壳虫”、“新甲壳虫”、“大众”、同时从该图片之前的已有标注结果中能够获得“红色”、“汽车”等关键词。0070 除此之外,由于虚拟用户模仿的是真实用户的行为,真实用户在对待标注图片进行标注时,会将标注关键词逐一标注在弹出的文本框、待标注图片附近的文本框等标注位置,因此虚拟用户也需要将提取的标注关键词逐一标注在对应的标注位置,为了保证标注时间也与真实用户相一致,优选地,可以通过如下公式(2)得到虚拟用户的标注时间间隔T。0071 TTavr+Vtmax(2)0072 其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,即最大抖动时间,为-。

29、1至1之间的随机值。0073 除了公式(2)之外,也可以直接将T采用一个经验值。0074 步骤104:利用该标注组中各用户的标注关键词,确定该待标注图片的标注结果。0075 该标注组中的用户包括真实用户以及虚拟用户,在利用该标注组中真实用户和虚拟用户的标注关键词确定该待标注图片的标注结果时,与现有技术相似,确定标注关键词中一致率达到预设要求的标注关键词作为该待标注图片的标注结果。0076 其中一致率的预设要求可以根据标注系统需要的准确度来进行设置,如果要求较高准确度则可以设置一致率的要求为100,当某一个关键词只有出现在标注组中所有用户的标注关键词中,才作为该待标注图片的标注结果。例如,对于图。

30、3所示的图片,如果标注组中用户U1的标注关键词为“甲壳虫”、“大众”、“轮胎”,用户U2的标注关键词为“甲壳虫”、“大众”、“new beetle”,用户U3的标注关键词为“大众”、“甲壳虫”、“轿车”,用户VU1的标注关键词为“大众”、“甲壳虫”、“红色”,则确定该图片的标注结果为“甲壳虫”和“大众”。0077 步骤105:如果标注系统中存在可参与标注的用户,则选择可参与标注的用户替换该标注组中的虚拟用户。0078 也就是说,当虚拟用户参与的标注组完成待标注图片的标注后,标注系统中有新的用户登录,就可以将标注组中的虚拟用户切换为新登录的可参与标注的用户,虚拟用户就可以退出该标注组。这个切换过。

31、程对真实用户来说是透明的,如图4所示,假设此时存在可参与标注的用户U8和U9,则可以选择U8与VU1进行切换。需要说明的是步骤105为可选步骤。0079 在上述过程中,由于虚拟用户对图片标注的参与,且其标注关键词不受同标注组说 明 书CN 103425715 A6/7页9其他用户的影响,因此在一定程度上已经减少了同标注组的用户串通作弊的影响,即如果真实用户串通作弊,虚拟用户的参与降低了其他用户的标注关键词的一致率,使得其他用户很难通过串通的方式达成一致,串通作弊的成本提高,可能就会放弃作弊。0080 为了更进一步遏制作弊行为,当确定标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟。

32、用户的标注关键词一致率低于预设的阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊。也就是说,如果其他用户多次与虚拟用户的标注关键词都有较大程度的不一致,则该其他用户很可能是作弊用户。0081 针对作弊用户所采用的策略本发明不加以限制,例如可以采用屏蔽作弊用户,针对作弊用户采用更进一步检测措施,惩罚作弊用户等策略。0082 其中如果其他用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,其他用户的积分增长速度超过预设增长阈值,则认为其他用户行为异常。0083 以上是对本发明所提供的方法进行的详细描述,下面通过实施例二对本发明所提供的系统进行详细描述。0084 实施例二、00。

33、85 图5为本发明实施例二提供的确定图片文本标注的系统结构图,如图5所示,该系统包括:虚拟用户分配单元500、图片提供单元501、虚拟用户模拟单元502和标注结果确定单元503。0086 虚拟用户分配单元500,用于如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组。0087 虚拟用户分配单元500分配虚拟用户实际上是对虚拟用户模拟单元502进行调用,参与当前标注组对图片的标注过程。0088 图片提供单元501,用于向标注组提供待标注图片。该图片提供单元501是标注系统中的已有单元,一旦形成标注组就会向标注组中的各用。

34、户提供待标注的图片,供用户进行标注,在此不再详述。0089 虚拟用户模拟单元502,用于从待标注图片的已有标注结果中选择关键词,或者,从待标注图片在源文件上的周边文本中提取关键词,作为虚拟用户对待标注图片的标注关键词。0090 其中虚拟用户模拟单元502在从待标注图片在源文件上的周边文本中提取关键词时,具体执行以下操作:0091 A1、对待标注图片在源文件上的周边文本进行分词和过滤处理。0092 A2、依据词语在周边文本中的位置以及词语的倒文档率,确定操作A1得到的各词语的权值。具体可以依据公式wij(i1+i2+ik)/Liidfj确定词语tj的权值wij,i1、i2.ik为词语tj出现在图。

35、片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。0093 A3、提取权值满足预设权值要求的词语作为关键词。例如,提取权值排在前M个的词语,M为预设的正整数,或者,提取权值大于预设权值阈值的词语。0094 标注结果确定单元503首先获取标注组中各用户的标注关键词,这是其的已有功说 明 书CN 103425715 A7/7页10能,在本实施例中其获取的除了标注组中真实用户的标注关键词之外,还会有虚拟用户模拟单元502得到的虚拟用户对待标注图片的标注关键词。

36、。然后利用标注组中各用户的标注关键词,确定待标注图片的标注结果,具体可以将标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为待标注图片的标注结果。0095 另外,虚拟用户模拟单元502在将虚拟用户模仿真实用户行为时,尽量保证虚拟用户的标注时间也与真实用户相一致,可以将虚拟用户对待标注图片的标注关键词按照标注时间间隔T逐一进行标注,TTavr+Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,为-1至1之间的随机值。当然,也可以将T采用一个经验值。0096 更进一步地,该系统还可以包括:用户切换单元(图中未示出)。

37、,用于如果当前系统中存在可参与标注的用户,则选择可参与标注的用户替换标注组中的虚拟用户。0097 上述系统中,由于虚拟用户对图片标注的参与,且其标注关键词不受同标注组其他用户的影响,因此在一定程度上已经减少了同标注组的用户串通作弊的影响,即如果真实用户串通作弊,虚拟用户的参与降低了其他用户的标注关键词的一致率,使得其他用户很难通过串通的方式达成一致,串通作弊的成本提高,可能就会放弃作弊。0098 为了更进一步遏制作弊行为,该系统还可以包括:作弊检测单元504,用于当确定标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊。0099 其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定某用户行为异常。0100 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。说 明 书CN 103425715 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1