《一种跨语种的文档相似性检测方法.pdf》由会员分享,可在线阅读,更多相关《一种跨语种的文档相似性检测方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102360372A43申请公布日20120222CN102360372ACN102360372A21申请号201110303579522申请日20111009G06F17/3020060171申请人北京航空航天大学地址100191北京市海淀区学院路37号72发明人赵长海晏海华杨沐杉74专利代理机构北京永创新实专利事务所11121代理人周长琪54发明名称一种跨语种的文档相似性检测方法57摘要本发明提出一种跨语种的文档相似性检测方法,属于文档相似性比较技术领域。本发明方法首先将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档,然后寻找两个中间文档之间的相似的中间表。
2、示集合,建立映射集合,最后根据相似文段的寻找方法,通过映射集合,找出源文档和目标文档的相似文段。本发明方法提供了一种跨语种的文档相似性检测方法,可以较好地解决跨语种文档相似检测的难点,并得到较好的检测效果。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图4页CN102360389A1/2页21一种跨语种的文档相似性检测方法,其特征在于,所述检测方法包括以下步骤步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档,所述中间文档都是由中间表示集合组成,所述的中间表示集合由中间表示集合形成,所述的中间表示为文档分词得到的单词或词组所对应的。
3、转换成的语言的单词或词组;步骤二、寻找两个中间文档之间相似的中间表示集合,建立映射集合W,具体过程如下首先,枚举两个中间文档所有中间表示集合的组合SA,SB,其中,SA为源文档转换的中间文档中的中间表示集合,SB为目标文档转换的中间文档中的中间表示集合;然后,针对每个组合SA,SB,枚举该组合中两个中间表示集合中的中间表示的组合AI,BJ,其中,AI为SA中的第I个中间表示,BJ为SB中的第J个中间表示;最后,确定每一对中间表示组合AI,BJ的相似度,在相似度超过所设定的阈值Q之后,建立两个中间表示集合SA与SB的映射,并将建立的映射加入到映射集合W中,将组合SA,SB中的中间表示组合的相似度。
4、的最大值作为SA与SB所建立的映射的相似度,若相似度未超过阈值Q,则不建立映射;所述的每一对中间表示组合的相似度通过该组合中两个中间表示的形式关联度与优先权值来确定;步骤三、通过映射集合W,根据相似文段的寻找方法找出源文档和目标文档的相似文段。2根据权利要求1所述的一种跨语种的文档相似性检测方法,其特征在于,步骤一中所述的转换的具体方法为首先将源文档与目标文档分别进行分词;然后将划分得到的每个单词或词组转换为一个中间表示集合;最后为每个中间表示集合建立索引,每个中间表示集合占据一个索引,索引的序号与该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。3根据权利要求1所述的一种跨语种的文。
5、档相似性检测方法,其特征在于,步骤二中所述的阈值Q设定为0509。4根据权利要求1所述的一种跨语种的文档相似性检测方法,其特征在于,步骤二中所述的中间表示组合的相似度的确定方法具体为1确定形式关联度若两个中间表示的形式完全一致,则该中间表示组合的相似度为1;若两个中间表示为同一词衍生而来,则该中间表示组合的相似度小于1大于0;若两个中间表示的形式不一样,且不是由同一词衍生而来,则该中间表示组合的相似度为0;2确定两个中间表示的优先权值,所述的优先权值与该词在语言环境中的词频成反比,该词越常用,优先权值越低,该词越罕见,优先权值越高;3将1中得到的形式关联度与2中得到的两个优先权值中的较大值相乘。
6、,得到的数值设置为该中间表示组合的相似度。5根据权利要求1所述的一种跨语种的文档相似性检测方法,其特征在于,步骤三中所述的相似文段的寻找方法,具体为第1步判断集合W是否为空,若为空,则结束本方法,否则,新建一个空的映射集合P;第2步在集合W中任取一个未用过的映射,加入集合P中,并在集合W中标记该映射为已用过,针对该映射进入第3步执行;第3步确定该映射的跳跃半径RR基础半径映射的优先权值正比系数;所述权利要求书CN102360372ACN102360389A2/2页3的映射的优先权值该映射的相似度该映射所涉及的两个中间表示集合中的中间表示的最大优先权值;第4步更新源文档转换的中间文档的当前边界范。
7、围和目标文档转换的中间文档的当前边界范围,具体是根据第3步得到的跳跃半径,由该映射对应在两个中间文档的中间表示集合的索引序号加减跳跃半径,在源文档转换的中间文档中得到一个左边界MSL和一个右边界MSR,在目标文档转换的中间文档中得到一个左边界MTL和一个右边界MTR,若MSLSL,则用MSL更新SL,否则不作处理,若MSRSR,则用MSR更新SR,否则不作处理;若MTLTL,则用MTL更新TL,否则不作处理,若MTRTR,则用MTR更新TR,否则不作处理;所述的SL、SR分别为设置的源文档转换的中间文档的当前边界范围的左边界和右边界,初始左边界SL和右边界SR的值都为1,所述的TL、TR分别为。
8、设置的目标文档转换的中间文档的当前边界范围的左边界和右边界,初始左边界TL和右边界TR的值都为1;第5步分别在源文档转换的中间文档与目标文档转换的中间文档中判断当前边界范围映射内是否覆盖有新的映射满足如下条件在集合W中未被标记为已用过,且该映射对应在两个中间文档的中间表示集合的索引序号都处于各自中间文档的当前边界范围内;若存在符合条件的映射,则将该映射加入映射集合P,并在集合W中将该映射标记为已用过,然后针对加入集合P的映射转第3步执行,若不存在符合条件的映射,则执行下一步;第6步由源文档转换的中间文档中的当前边界范围SL,SR和目标文档转换的中间文档的当前边界范围TL,TR,相应逆向索引到源。
9、文档与目标文档后,就得到源文档和目标文档的一组相似文段;第7步确定得到的一组相似文段的相似度,具体是将当前映射集合P中相似度最高的三组映射的相似度相乘得到;第8步,判断集合W中是否存在未被标记为已用过的映射,若不存在,则本次方法结束,否则转到第1步继续执行。6根据权利要求5所述的一种跨语种的文档相似性检测方法,其特征在于,第3步中所述的基础半径取值为6。7根据权利要求5所述的一种跨语种的文档相似性检测方法,其特征在于,第3步中所述的正比系数取值为06。权利要求书CN102360372ACN102360389A1/5页4一种跨语种的文档相似性检测方法技术领域0001本发明涉及文档相似性比较技术领。
10、域,具体是一种跨语种的文档相似性检测方法。背景技术0002论文抄袭现象是一直困扰着学术界的一大问题,近年来,同语种的文档相似检测技术有着不少的研究,也有很多可用的产品。然而跨语种的文档相似检测研究基本上还处于一个空白的状态,与此同时,伴随的是跨语种的论文抄袭现象日益严重。因此研究跨语种情况下的文档相似检测技术,是一个很有价值和意义的课题。0003目前,跨语种的文档相似检测难点主要体现在两个方面0004一、语言间的语法结构区别;0005譬如以下一个英文句子和对应的中文译句0006THISPAGEALLOWSCUSTOMERSTOSUBSCRIBE0007顾客可以在该页面进行预订。0008可以看到。
11、,同样的一句话,通过中文和英文表达出来,整个语法结构有很大的区别,包括主谓宾位置和时态语态等,都难以对应。0009二、语言间的一词多义;0010以下是中文词对应的英文表述和英文词对应的中文意思的一个示例0011SUBSCRIBE预订、订阅、捐款、认购、赞成、签署0012预订SUBSCRIBE,BOOK,ORDER0013从示例中可以看出,同样由于这种表述的多样性和词汇的多义性,会造成在跨语种文档相似检测时的障碍。0014由于存在着上述技术难点,所以传统的文档相似检测方法对跨语种情况下的文档相似检测并不适用。发明内容0015本发明针对目前传统文档相似性检测方法不适用跨语种情况的情况,提供一种跨语。
12、种的文档相似性检测方法,用以较好地解决跨语种文档相似检测的难点,得到较好的检测效果。0016本发明的一种跨语种的文档相似性检测方法,具体包括以下步骤0017步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档;0018步骤二、寻找两个中间文档之间的相似的中间表示集合SLOT,建立映射集合W;0019步骤三、通过映射集合W,根据相似文段的寻找方法找出源文档和目标文档的相似文段。0020所述的步骤一具体过程是首先将源文档与目标文档分别进行分词;然后将划分说明书CN102360372ACN102360389A2/5页5得到的每个单词或词组转换为一个中间表示集合,所述的中间表示为该。
13、单词或词组所对应的转换成的语言的单词或词组;最后为每个中间表示集合建立索引,每个中间表示集合占据一个索引,索引的序号与该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。0021所述的步骤二的具体方法是0022首先,枚举两个中间文档所有中间表示集合的组合SA,SB,其中,SA为源文档转换的中间文档中的中间表示集合,SB为目标文档转换的中间文档中的中间表示集合;0023然后,针对每个组合SA,SB,枚举该组合中两个中间表示集合中的中间表示的组合AI,BJ,其中,AI为SA中的第I个中间表示,BJ为SB中的第J个中间表示;0024最后,确定每一对中间表示组合AI,BJ的相似度,在相似度超过。
14、所设定的阈值Q之后,建立两个中间表示集合SA与SB的映射,并将建立的映射加入到映射集合中,将组合SA,SB中的中间表示组合的相似度的最大值作为SA与SB的相似度,若相似度未超过阈值Q,则不建立映射;所述的每一对中间表示组合的相似度通过该组合中两个中间表示的形式关联度与优先权值来确定。0025本发明的优点与积极效果在于1通过将对比的文档都转换为基于同一种语言的中间文档,使得支持任意一种新语言与其他语言的对比,只需要实现将其转换到中间语言的过程即可;2通过将文章的每个词语扩展为词语集合,扩充了中间语言的文档可以携带的语义信息,一定程度上解决了语言中一词多义的问题;3通过中间语言的词语之间跨时态、跨。
15、语态的计算相似度,一定程度上解决了语言中词语的变化和变形问题;4通过先枚举映射,后从映射出发进行跳跃的方式,将查找相似文段的时间控制在可以接受的程度之中。附图说明0026图1是本发明的文档相似性检测方法的总体步骤流程图;0027图2是本发明方法步骤一中将中文文档转换为SLOTINDEX文档的实例示意图;0028图3是本发明方法步骤一中将英文文档转换为SLOTINDEX文档的实例示意图;0029图4是本发明方法步骤二中枚举两个中间文档的SLOT组合的示意图;0030图5是本发明方法步骤二中计算两个词语之间的词语相似度的示意图;0031图6是本发明方法步骤三的具体流程示意图;0032图7是本发明方。
16、法步骤三中寻找新的映射的示意图。具体实施方式0033下面将结合附图和实施例对本发明作进一步的详细说明。0034本发明的跨语种的文档相似性检测方法,如图1所示,具体包括以下步骤0035步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档。所述的源文档和目标文档为任意语言的纯文本文档。0036转换的方法为首先将源文档或目标文档以一个或数个词为粒度进行划分;然后将划分得到的每个单词或词组转换为一个由中间表示所组成的集合SLOT,所述的中间表示为源文档或目标文档划分的单词或词组所对应的某种语言的单词或词组;最后为每个中间说明书CN102360372ACN102360389A3/5页。
17、6表示的集合SLOT建立索引,每个SLOT占据一个索引,索引的序号和该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。所述的SLOT是某种语言无关的对词义进行描述的有序符号的集合。0037转换后得到的中间文档称为SLOTINDEX文档,该文档是一个语言无关的文档中间表示形式。任意语言的文档输入后都将被转换为SLOTINDEX文档。所述的SLOTINDEX文档可以保留词语大部分的可能含义信息,并容易对原文进行逆向索引。0038本发明实施例中的中间表示采用基于英文单词的方案,对要比较的源文档进行分词,之后将划分得到的每个单词所对应的英文词义的集合作为其对应的SLOT,并按源文档中词的顺序。
18、标记SLOT索引的序号。例如,如图2所示,对中文文档句子“顾客可以在该页面进行预订”,先分词得到7个词,之后将这7个词对应的英文词义集合分别放到中间文档SLOTINDEXA中对应的SLOT1SLOT7中。而对于英文文档,只需要将每个词直接放入SLOT集合中即可得到对应的SLOTINDEX文档,如图3所示,为英文句子“THISPAGEALLOWSCUSTOMERSTOSUBSCRIBE”转换为SLOTINDEX文档后对应的SLOT1SLOT6,该英文句子对应的中间文档为SLOTINDEXB。0039步骤二、寻找两个中间文档之间的相似SLOT,建立映射MAPPING集合W。0040本步骤目前在于找。
19、到两个SLOTINDEX文档之间的相似SLOT,以便进一步分析出两个SLOTINDEX文档之间的关联,得到的映射集合用于找出相似文段。0041首先,枚举两个中间文档中的SLOT的组合,如图4所示,对于中间文档SLOTINDEXA与中间文档SLOTINDEXB,将中间文档SLOTINDEXA中的每个SLOT分别与中间文档SLOTINDEXB中的每个SLOT组合。0042然后,对于两个中间文档中给定的一个SLOT组合SA,SB,枚举两个SLOT中的中间表示的组合,即将SLOTSA中的每个中间表示分别与SLOTSB中的每个中间表示进行组合。0043最后,确定每一对中间表示组合的相似度,在相似度超过一。
20、定阈值Q之后,建立两个SLOT间的映射,并将建立的映射加入到映射集合中,若相似度未超过阈值Q,则不建立映射。所述的阈值Q可以由用户自行定义,一般设置为0509。0044一个映射有一个相似度,该相似度定义为每一个中间表示组合的相似度中的最大值,如下00450046其中,SA,B表示SLOT组合SA,SB映射的相似度,为一对中间表示AI,BJ的相似度,AI表示中间表示集合SLOTSA中的第I个中间表示,BJ表示中间表示集合SLOTSB中的第J个中间表示。0047具体每一个中间表示组合的相似度的确定方法为0048步骤21,确定形式关联度。00491若给定的两个中间表示形式完全一致,则这两个中间表示的。
21、相似度为1。例如,INITIAL和INITIAL,这两个中间表示的相似度就为1。00502两个形式不完全一样的中间表示,若这两个中间表示为同一词衍生而来,则其相近,但形式关联度较小,例如两个中间表示INITIALED和INITIALIZATION。若给定的这两个中间表示是相似的,但则其相似度小于1大于0。说明书CN102360372ACN102360389A4/5页700513除去1与2所述的情况外的其他情况下相似度为0。0052步骤22,为中间表示确定优先权值。所述的优先权值与该词在语言环境中的词频成反比,即该词越常用,优先权值越低,该词越罕见,优先权值越高。本发明方法中词的优先权值的确定是。
22、根据网址HTTP/WWWWORDFREQUENCYINFO提供的词频列表确定的,其中设置最常见的120个词优先级为0,其次1000个词为1,其次1200个词为2,其次1400个词为3,依此类推,直到2600个词为9,其余的均认为是10。0053步骤23,确定中间表示组合的相似度。0054在确定了一对中间表示的形式关联度和两个优先权值后,进一步确定该中间表示组合的相似度。对于一对中间表示组合,将该中间表示组合的形式关联度与两个中间表示的优先权值中的较大值相乘,得到的数值就设置为该中间表示组合的相似度。所得到的相似度综合反映了两个词语之间的关联性、相近度和对文档相似贡献度的多少,如图5所示。005。
23、5步骤三、通过映射集合W,根据如图6所示的相似文段的寻找方法,找出源文档和目标文档的相似文段。如图6所示,相似文段的寻找方法如下0056第1步,判断集合W是否为空,若为空,则结束本次方法,否则,新建一个空的映射集合P。0057第2步,在集合W中任取一个未用过的映射,加入集合P中,并在集合W中标记该映射为已用过,针对该映射进入第3步执行。0058第3步,确定映射的跳跃半径RR基础半径映射的优先权值正比系数。本发明实施例中取基础半径为4,正比系数为06,在实际应用中能够取得好的效果,可以获得有效的相似文段。0059两个中间表示集合SA与SB所建立一个映射,该映射的优先权值该映射的相似度该映射所涉及。
24、的两个中间表示集合中的中间表示的最大优先权值。第4步,更新源文档转换的中间文档的当前边界范围和目标文档转换的中间文档的当前边界范围。所述的边界都是一个索引序号。为源文档转换的中间文档设置一个当前边界范围SL,SR,初始左边界SL和右边界SR的值都为1,为目标文档转换的中间文档设置一个当前边界范围TL,TR,初始左边界TL和右边界TR的值都为1。根据第3步得到的该映射的跳跃半径,由该映射对应在两个中间文档的SLOT的索引序号加减跳跃半径,可以得到在源文档转换的中间文档中的一个左边界MSL和一个右边界MSR,得到在目标文档转换的中间文档中的一个左边界MTL和一个右边界MTR。若MSLSL,则用MS。
25、L更新SL,否则不作处理,若MSRSR,则用MSR更新SR,否则不作处理;若MTLTL,则用MTL更新TL,否则不作处理,若MTRTR,则用MTR更新TR,否则不作处理。0060第5步,分别在源文档转换的中间文档与目标文档转换的中间文档中判断当前边界范围映射内是否覆盖有新的映射满足如下条件在集合W中未被标记为已用过,且该映射对应的SLOT的索引位置都处于各自中间文档的当前边界范围内。若存在符合条件的映射,则将该映射加入映射集合P,并在集合W中将该映射标记为已用过,然后针对加入集合P的新的映射转第3步执行,若不存在符合条件的映射,则执行下一步。0061如图6所示,SLOTI和SLOTJ是一个映射。
26、连接的两个SLOT,其确定一个半径R,在I的半径R范围和J的半径R范围中寻找新的映射。0062第6步,由当前映射集合P中的映射可以在源文档转换的中间文档与目标文档转说明书CN102360372ACN102360389A5/5页8换的中间文档中分别确定一个连续的索引范围,即源文档转换的中间文档中得到的当前边界范围SL,SR,目标文档转换的中间文档中得到的当前边界范围TL,TR,将该索引范围对应逆向索引到源文档与目标文档后,就得到源文档和目标文档的一组相似文段。0063第7步,对于一组相似文段,由其对应映射集合P中映射的数量、相似度等可以计算出一个相似度,得到的该相似度就是该相似文段的相似度。具体。
27、本发明方法该文段的相似度是由当前的映射集合P中相似度最高的三组映射的相似度相乘得到。0064一般对于某组相似文段,若其相似度大于06,则可认为该组相似文段有一定的相似性、或论述相近的主题,若其相似度大于08,则可认为该组相似文段有很高的相似性。0065第8步,判断集合W中是否存在未被标记为已用过的映射,若不存在,则本次方法结束,否则回到第1步执行。说明书CN102360372ACN102360389A1/4页9图1图2说明书附图CN102360372ACN102360389A2/4页10图3图4图5说明书附图CN102360372ACN102360389A3/4页11图6说明书附图CN102360372ACN102360389A4/4页12图7说明书附图CN102360372A。