文本相似度的统计方法及系统.pdf

摘要
申请专利号：	CN201310074669.0	申请日：	2013.03.08
公开号：	CN103176962A	公开日：	2013.06.26
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/27申请日:20130308\|\|\|公开
IPC分类号：	G06F17/27	主分类号：	G06F17/27
申请人：	深圳先进技术研究院
发明人：	朱定局
地址：	518055 广东省深圳市南山区西丽大学城学苑大道1068号
优先权：
专利代理机构：	广州华进联合专利商标代理有限公司 44224	代理人：	吴平
PDF下载：	PDF下载

内容摘要

本发明公开了一种文本相似度的统计方法，包括：获取需要判别相似度的第一和第二文本；以第一划分尺度将第一和第二文本分别分割成若干文本片段，计算第一划分尺度下第一与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例；自第一和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；以第二划分尺度将第一和第二剩余文本分别分割成若干文本片段，计算第二划分尺度下第一与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例；计算第一文本与第二文本的综合相似度。本发明能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度，将被故意打乱了词序、句序、段序的相似文本检测出来。

权利要求书

权利要求书
1.   一种文本相似度的统计方法，包括：
获取需要判别相似度的第一文本和第二文本；
以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1；
自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；
以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；
将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度，以计算第一文本与第二文本的综合相似度。

2.   根据权利要求1所述的文本相似度的统计方法，其特征在于，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。

3.   根据权利要求1所述的文本相似度的统计方法，其特征在于，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干句子；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。

4.   根据权利要求1所述的文本相似度的统计方法，其特征在于，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干句子；
所述文本相似度的统计方法还包括自第一剩余文本和第二剩余文本中删除相同的句子，分别得到文本T5和文本T6，将文本T5和文本T6分别分割成若干词语，将文本T5中全部的词语和文本T6中全部的词语进行比较，计算文本T5和文本T6中相同的词语占文本T5中词语总数的比例z1的步骤；
所述计算第一文本与第二文本的综合相似度的步骤，是通过如下公式进行计算：综合相似度M1=x1*c1+(1‑x1*c1)[y1*c2+(1‑y1*c2)z1]；其中c1为自然段尺度在综合相似度中的权重，c2为句子尺度在综合相似度中的权重。

5.   根据权利要求1‑4中任意一项所述的文本相似度的统计方法，其特征在于，还包括判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似的步骤。

6.   根据权利要求1‑3中任意一项所述的文本相似度的统计方法，其特征在于，还包括下列步骤：
计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第二文本的文本片段总数的比例x2；
计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第二剩余文本的文本片段总数的比例y2；
将x2乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y2、接着加上第一划分尺度的相似度，计算第二文本与第一文本的综合相似度；
判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，所述第二文本与第一文本的综合相似度是否大于所述相似度阈值，若二者有任意一个大于所述相似度阈值，则判定所述第一文本与第二文本相似。

7.   一种文本相似度的统计系统，其特征在于，包括：
读取模块，用于获取需要判别相似度的第一文本和第二文本；
第一分割比较模块，用于以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1；
第一删除模块，用于自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；
分割比较模块，用于以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；
综合相似度计算模块，用于将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度，计算第一文本与第二文本的综合相似度。

8.   根据权利要求7中所述的文本相似度的统计系统，其特征在于，还包括判断模块，用于判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似。

说明书

说明书文本相似度的统计方法及系统
技术领域
本发明涉及文本处理，特别是涉及一种文本相似度的统计方法，还涉及一种文本相似度的统计系统。
背景技术
现有技术中判断两个文本的相似度，一般是通过将两个文本进行分词，然后按照顺序判断两个文本中重复的字词句串。
但如果文本中字词句的顺序被故意打乱了，那么即使实质上是相似的（例如抄袭的）文本之间，按照现有的相似度统计方式得到的相似度较低，无法反映其本身的相似程度。
发明内容
基于此，为了解决传统的文本相似度统计方法难以准确反映被人为打乱了字词句顺序的文本之间的相似程度的问题，有必要提供一种能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度的文本相似度的统计方法。
一种文本相似度的统计方法，包括：获取需要判别相似度的第一文本和第二文本；以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1；自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度，以计算第一文本与第二文本的综合相似度。
在其中一个实施例中，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。
在其中一个实施例中，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干句子；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。
在其中一个实施例中，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干句子；所述文本相似度的统计方法还包括自第一剩余文本和第二剩余文本中删除相同的句子，分别得到文本T5和文本T6，将文本T5和文本T6分别分割成若干词语，将文本T5中全部的词语和文本T6中全部的词语进行比较，计算文本T5和文本T6中相同的词语占文本T5中词语总数的比例z1的步骤；所述计算第一文本与第二文本的综合相似度的步骤，是通过如下公式进行计算：综合相似度M1=x1*c1+(1‑x1*c1)[y1*c2+(1‑y1*c2)z1]；其中c1为自然段尺度在综合相似度中的权重，c2为句子尺度在综合相似度中的权重。
在其中一个实施例中，还包括判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似的步骤。
在其中一个实施例中，还包括下列步骤：计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第二文本的文本片段总数的比例x2；计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第二剩余文本的文本片段总数的比例y2；将x2乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y2、接着加上第一划分尺度的相似度，计算第二文本与第一文本的综合相似度；判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，所述第二文本与第一文本的综合相似度是否大于所述相似度阈值，若二者有任意一个大于所述相似度阈值，则判定所述第一文本与第二文本相似。
本发明还相应提供一种文本相似度的统计系统。
7、一种文本相似度的统计系统，包括：读取模块，用于获取需要判别相似度的第一文本和第二文本；第一分割比较模块，用于以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1；第一删除模块，用于自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；分割比较模块，用于以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；综合相似度计算模块，用于将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度，计算第一文本与第二文本的综合相似度。
在其中一个实施例中，还包括判断模块，用于判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似。
上述文本相似度的统计方法和系统，先后以文本的段、句、词为尺度，对文本进行分割‑比较‑删除后来计算文本之间的综合相似度，能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度，使得被故意打乱了词序、句序、段序的相似文本也可以被检测出来。
附图说明
图1是实施例一中文本相似度的统计方法的流程图；
图2是实施例二中文本相似度的统计方法的流程图；
图3是实施例三中文本相似度的统计方法的流程图。
具体实施方式
为使本发明的目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。
实施例一：
图1是一实施例中文本相似度的统计方法的流程图，包括下列步骤：
S110，获取需要判别相似度的文本T1和文本T2。
S120，将文本T1和文本T2分别分割成若干自然段，将文本T1中全部的自然段与文本T2中全部的自然段进行比较，将相同自然段的数量记为k3。
在本实施例中，将文本T1的自然段数量记为k1，文本T2的自然段数量记为k2。i从1到k1，j从1到k2，比较文本T1的第i段与文本T2的第j段是否相同，并将相同的自然段的数量记为k3。
S130，自文本T1和文本T2中删除相同的自然段，文本T1在删除后得到文本T3，文本T2在删除后得到文本T4。
将步骤S120比较后得出的相同的各自然段从文本T1和文本T2中删除，分别得到文本T3和文本T4。删除后得到的文本T3与文本T4之间不存在相同的自然段。
S140，将文本T3和文本T4分别分割成若干句子，将文本T3中全部的句子与文本T4中全部的句子进行比较，将相同句子的数量记为k6。
在本实施例中，将文本T3的句子数量记为k4，文本T4的句子数量记为k5。i从1到k4，j从1到k5，比较文本T3的第i句与文本T4的第j句是否相同，并将相同的句子的数量记为k6。
S150，自文本T3和文本T4中删除相同的句子，文本T3在删除后得到文本T5，文本T4在删除后得到文本T6。
将步骤S140比较后得出的相同的各句子从文本T3和文本T4中删除，分别得到文本T5和文本T6。删除后得到的文本T5和文本T6之间不存在相同的句子。
S160，将文本T5和文本T6分别分割成若干词语，将文本T5中全部的词语与文本T6中全部的词语进行比较，将相同词语的数量记为k9。
分割成词语可以采用现有技术的算法。在本实施例中，将文本T5的句子数量记为k7，文本T6的句子数量记为k8。i从1到k7，j从1到k8，比较文本T5的第i个词语与文本T6的第j个词语是否相同，并将相同的词语的数量记为k9。
S170，计算文本T1与文本T2的综合相似度，计算文本T2与文本T1的综合相似度。
文本T1与文本T2的综合相似度M1通过如下公式进行计算：
M1=k3/k1*c1+(1‑k3/k1*c1)*[k6/k4*c2+(1‑k6/k4*c2)*k9/k7]
文本T2与文本T1的综合相似度M2通过如下公式进行计算：
M2=k3/k2*c1+(1‑k3/k2*c1)*[k6/k5*c2+(1‑k6/k5*c2)*k9/k8]
其中c1为自然段尺度在综合相似度中的权重，c2为句子尺度在综合相似度中的权重。可以取合适的经验值（但需保证c1>0，1‑k3/k1*c1>0，1‑k3/k2*c1>0，c2>0，1‑k6/k4*c2>0，1‑k6/k5*c2>0），来调整不同划分尺度在综合相似度中所占的比重。
在其中一个实施例中，c1=c2=1，则文本T1与文本T2的综合相似度为：
M1=k3/k1+(1‑k3/k1)*[k6/k4+(1‑k6/k4)*k9/k7]
文本T2与文本T1的综合相似度为：
M2=k3/k2+(1‑k3/k2)*[k6/k5+(1‑k6/k5)*k9/k8]
文本T1与文本T2的综合相似度不一定等于文本T2与文本T1的综合相似度。例如，文本T1是文本T2的一半，则文本T1可以完全从文本T2中找到，而文本T2只有一半能从文本T1的找到，这种情况下，显然文本T1与文本T2的综合相似度大于文本T2与文本T1的综合相似度。
在另一个实施例中，计算M1、M2可以采用不同的权重，即：
M1=k3/k1*c1+(1‑k3/k1*c1)*[k6/k4*c2+(1‑k6/k4*c2)*k9/k7]
M2=k3/k2*c3+(1‑k3/k2*c3)*[k6/k5*c4+(1‑k6/k5*c4)*k9/k8]
其中c1、c2、c3、c4是权重，可以取合适的经验值，且c1>0，c2>0，1‑k3/k1*c1>0，1‑k6/k4*c2>0，c3>0，c4>0，1‑k3/k2*c3>0，1‑k6/k5*c4>0。
上述文本相似度的统计方法，先后以文本的段、句、词为尺度，对文本进行分割‑比较‑删除后来计算文本之间的综合相似度，能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度，使得被故意打乱了词序、句序、段序的相似文本也可以被检测出来。
在本实施例中，步骤S170后还包括步骤：
判断文本T1与文本T2的综合相似度是否大于相似度阈值θ，及文本T2与文本T1的综合相似度是否大于相似度阈值θ，若二者有任意一个大于相似度阈值θ，则判定文本T1与文本T2相似。相似度阈值θ可以是一个经验值，其取值与c1、c2有关。
在其它实施例中，也可以只计算一个综合相似度（例如文本T1与文本T2的综合相似度），并只判断该综合相似度是否大于相似度阈值θ。比如在两个文本中认定文本T1是有抄袭嫌疑的情况。
在其它实施例中，将需要判别相似度的两个文本分割成若干文本片段时采用的划分尺度，也可以不同于实施例一，例如是直接从自然段到词语，或者是直接从句子到词语，又或者采用除了自然段、句子、词语外其它的划分尺度。以下再分别给出两个对应的实施例：
实施例二：
S210，获取需要判别相似度的文本T1和文本T2。
S220，将文本T1和文本T2分别分割成若干自然段，将文本T1中全部的自然段与文本T2中全部的自然段进行比较，将相同自然段的数量记为k3。
在本实施例中，将文本T1的自然段数量记为k1，文本T2的自然段数量记为k2。i从1到k1，j从1到k2，比较文本T1的第i段与文本T2的第j段是否相同，并将相同的自然段数量记为k3。
S230，自文本T1和文本T2中删除相同的自然段，文本T1在删除后得到文本T3，文本T2在删除后得到文本T4。
S240，将文本T3和文本T4分别分割成若干词语，将文本T3中全部的词语与文本T4中全部的词语进行比较，将相同词语的数量记为k6。
在本实施例中，将文本T3的词语数量记为k4，文本T4的词语数量记为k5。i从1到k4，j从1到k5，比较文本T3的第i个词语与文本T4的第j个词语是否相同，并将相同的词语数量记为k6。
S250，计算文本T1与文本T2的综合相似度，计算文本T2与文本T1的综合相似度。
在本实施例中，文本T1与文本T2的综合相似度M1通过如下公式进行计算：
M1=k3/k1*c1+(1‑k3/k1*c1)*k6/k4
文本T2与文本T1的综合相似度M2通过如下公式进行计算：
M2=k3/k2*c1+(1‑k3/k2*c1)*k6/k5
其中c1为自然段尺度在综合相似度中的权重，可以取合适的经验值，但需保证c1>0，1‑k3/k1*c1>0，1‑k3/k2*c1>0。
在本实施例中，步骤S250后还包括步骤：
判断文本T1与文本T2的综合相似度是否大于相似度阈值θ，及文本T2与文本T1的综合相似度是否大于相似度阈值θ，若二者有任意一个大于相似度阈值θ，则判定文本T1与文本T2相似。相似度阈值θ可以是一个经验值，其取值与c1有关。
在其它实施例中，也可以只计算一个综合相似度（例如文本T1与文本T2的综合相似度），并只判断该综合相似度是否大于相似度阈值θ。
实施例三：
S310，获取需要判别相似度的文本T1和文本T2。
S320，将文本T1和文本T2分别分割成若干句子，将文本T1中全部的句子与文本T2中全部的句子进行比较，将相同句子的数量记为k3。
在本实施例中，将文本T1的句子数量记为k1，文本T2的句子数量记为k2。i从1到k1，j从1到k2，比较文本T1的第i句与文本T2的第j句是否相同，并将相同的句子数量记为k3。
S330，自文本T1和文本T2中删除相同的句子，文本T1在删除后得到文本T3，文本T2在删除后得到文本T4。
S340，将文本T3和文本T4分别分割成若干词语，将文本T3中全部的词语与文本T4中全部的词语进行比较，将相同词语的数量记为k6。
在本实施例中，将文本T3的词语数量记为k4，文本T4的词语数量记为k5。i从1到k4，j从1到k5，比较文本T3的第i个词语与文本T4的第j个词语是否相同，并将相同的词语数量记为k6。
S350，计算文本T1与文本T2的综合相似度，计算文本T2与文本T1的综合相似度。
在本实施例中，文本T1与文本T2的综合相似度M1通过如下公式进行计算：
M1=k3/k1*c1+(1‑k3/k1*c1)*k6/k4
文本T2与文本T1的综合相似度M2通过如下公式进行计算：
M2=k3/k2*c1+(1‑k3/k2*c1)*k6/k5
其中c1为句子尺度在综合相似度中的权重，可以取合适的经验值，但需保证c1>0，1‑k3/k1*c1>0，1‑k3/k2*c1>0。
在本实施例中，步骤S350后还包括步骤：
判断文本T1与文本T2的综合相似度是否大于相似度阈值θ，及文本T2与文本T1的综合相似度是否大于相似度阈值θ，若二者有任意一个大于相似度阈值θ，则判定文本T1与文本T2相似。相似度阈值θ可以是一个经验值，其取值与c1有关。
在其它实施例中，也可以只计算一个综合相似度（例如文本T1与文本T2的综合相似度），并只判断该综合相似度是否大于相似度阈值θ。
以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

资源描述

《文本相似度的统计方法及系统.pdf》由会员分享，可在线阅读，更多相关《文本相似度的统计方法及系统.pdf（12页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103176962 A(43)申请公布日 2013.06.26CN103176962A*CN103176962A*(21)申请号 201310074669.0(22)申请日 2013.03.08G06F 17/27(2006.01)(71)申请人深圳先进技术研究院地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号(72)发明人朱定局(74)专利代理机构广州华进联合专利商标代理有限公司 44224代理人吴平(54) 发明名称文本相似度的统计方法及系统(57) 摘要本发明公开了一种文本相似度的统计方法，包括：获取需要判别相似度的第一和第二文本；以第一划分尺。

2、度将第一和第二文本分别分割成若干文本片段，计算第一划分尺度下第一与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例；自第一和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；以第二划分尺度将第一和第二剩余文本分别分割成若干文本片段，计算第二划分尺度下第一与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例；计算第一文本与第二文本的综合相似度。本发明能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度，将被故意打乱了词序、句序、段序的相似文本检测出来。(51)Int.Cl.权利要求书2页说明书6页附图3页(19)中华人民共和国国家知识产权局(1。

3、2)发明专利申请权利要求书2页说明书6页附图3页(10)申请公布号 CN 103176962 ACN 103176962 A1/2页21.一种文本相似度的统计方法，包括：获取需要判别相似度的第一文本和第二文本；以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1；自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺。

4、度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度，以计算第一文本与第二文本的综合相似度。2.根据权利要求1所述的文本相似度的统计方法，其特征在于，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以第二划分尺度将第一剩余文本和第二。

5、剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。3.根据权利要求1所述的文本相似度的统计方法，其特征在于，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干句子；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。4.根据权利要求1所述的文本相似度的统计方法，其特征在于，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以第二划分尺度将第一。

6、剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干句子；所述文本相似度的统计方法还包括自第一剩余文本和第二剩余文本中删除相同的句子，分别得到文本T5和文本T6，将文本T5和文本T6分别分割成若干词语，将文本T5中全部的词语和文本T6中全部的词语进行比较，计算文本T5和文本T6中相同的词语占文本T5中词语总数的比例z1的步骤；所述计算第一文本与第二文本的综合相似度的步骤，是通过如下公式进行计算：综合相似度M1=x1*c1+(1-x1*c1)y1*c2+(1-y1*c2)z1；其中c1为自然段尺度在综合相似度中的权重，c2为句子尺度在综合相似度中的。

7、权重。5.根据权利要求1-4中任意一项所述的文本相似度的统计方法，其特征在于，还包括判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似的步骤。6.根据权利要求1-3中任意一项所述的文本相似度的统计方法，其特征在于，还包括下列步骤：计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第二文本的文本权利要求书CN 103176962 A2/2页3片段总数的比例x2；计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第二剩余文本的文本片段总数的比例y2；将x2乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一。

8、减去第一划分尺度的相似度后再乘以y2、接着加上第一划分尺度的相似度，计算第二文本与第一文本的综合相似度；判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，所述第二文本与第一文本的综合相似度是否大于所述相似度阈值，若二者有任意一个大于所述相似度阈值，则判定所述第一文本与第二文本相似。7.一种文本相似度的统计系统，其特征在于，包括：读取模块，用于获取需要判别相似度的第一文本和第二文本；第一分割比较模块，用于以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第一划分尺度下第一文本与第二文本中相同的文本。

9、片段数量占第一文本的文本片段总数的比例x1；第一删除模块，用于自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；分割比较模块，用于以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；综合相似度计算模块，用于将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相。

10、似度，计算第一文本与第二文本的综合相似度。8.根据权利要求7中所述的文本相似度的统计系统，其特征在于，还包括判断模块，用于判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似。权利要求书CN 103176962 A1/6页4文本相似度的统计方法及系统技术领域0001 本发明涉及文本处理，特别是涉及一种文本相似度的统计方法，还涉及一种文本相似度的统计系统。背景技术0002 现有技术中判断两个文本的相似度，一般是通过将两个文本进行分词，然后按照顺序判断两个文本中重复的字词句串。0003 但如果文本中字词句的顺序被故意打乱了，那么即使实质上是相似的。

11、（例如抄袭的）文本之间，按照现有的相似度统计方式得到的相似度较低，无法反映其本身的相似程度。发明内容0004 基于此，为了解决传统的文本相似度统计方法难以准确反映被人为打乱了字词句顺序的文本之间的相似程度的问题，有必要提供一种能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度的文本相似度的统计方法。0005 一种文本相似度的统计方法，包括：获取需要判别相似度的第一文本和第二文本；以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本。

12、片段总数的比例x1；自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度，以计算第一文本与第二文本的综合相似度。0006 在其中一个实施例中，所述以第一。

13、划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。0007 在其中一个实施例中，所述以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干句子；所述以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干词语。0008 在其中一个实施例中，所述以第一划分尺度将所述第一文本和第二文本分别分割成。

14、若干文本片段的步骤，是将所述第一文本和第二文本分别分割成若干自然段；所述以说明书CN 103176962 A2/6页5第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段的步骤，是将所述第一剩余文本和第二剩余文本分别分割成若干句子；所述文本相似度的统计方法还包括自第一剩余文本和第二剩余文本中删除相同的句子，分别得到文本T5和文本T6，将文本T5和文本T6分别分割成若干词语，将文本T5中全部的词语和文本T6中全部的词语进行比较，计算文本T5和文本T6中相同的词语占文本T5中词语总数的比例z1的步骤；所述计算第一文本与第二文本的综合相似度的步骤，是通过如下公式进行计算：综合相似度M1。

15、=x1*c1+(1-x1*c1)y1*c2+(1-y1*c2)z1；其中c1为自然段尺度在综合相似度中的权重，c2为句子尺度在综合相似度中的权重。0009 在其中一个实施例中，还包括判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似的步骤。0010 在其中一个实施例中，还包括下列步骤：计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第二文本的文本片段总数的比例x2；计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第二剩余文本的文本片段总数的比例y2；将x2乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一。

16、减去第一划分尺度的相似度后再乘以y2、接着加上第一划分尺度的相似度，计算第二文本与第一文本的综合相似度；判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，所述第二文本与第一文本的综合相似度是否大于所述相似度阈值，若二者有任意一个大于所述相似度阈值，则判定所述第一文本与第二文本相似。0011 本发明还相应提供一种文本相似度的统计系统。0012 7、一种文本相似度的统计系统，包括：读取模块，用于获取需要判别相似度的第一文本和第二文本；第一分割比较模块，用于以第一划分尺度将所述第一文本和第二文本分别分割成若干文本片段，将第一划分尺度下第一文本中全部的文本片段与第二文本中全部的文本片段进行比较。

17、，计算第一划分尺度下第一文本与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例x1；第一删除模块，用于自第一文本和第二文本中删除相同的文本片段，分别得到第一剩余文本和第二剩余文本；分割比较模块，用于以第二划分尺度将第一剩余文本和第二剩余文本分别分割成若干文本片段，将第二划分尺度下第一剩余文本中全部的文本片段与第二文本中全部的文本片段进行比较，计算第二划分尺度下第一剩余文本与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例y1；所述第二划分尺度比第一划分尺度小；综合相似度计算模块，用于将x1乘以第一划分尺度在综合相似度中的权重，得到第一划分尺度的相似度，一减去第一划分。

18、尺度的相似度后再乘以y1、接着加上第一划分尺度的相似度，计算第一文本与第二文本的综合相似度。0013 在其中一个实施例中，还包括判断模块，用于判断所述第一文本与第二文本的综合相似度是否大于相似度阈值，若是，则判定所述第一文本与第二文本相似。0014 上述文本相似度的统计方法和系统，先后以文本的段、句、词为尺度，对文本进行分割-比较-删除后来计算文本之间的综合相似度，能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度，使得被故意打乱了词序、句序、段序的相似文本也可以被检测出来。附图说明说明书CN 103176962 A3/6页60015 图1是实施例一中文本相似度的统计方法的流程图；。

19、0016 图2是实施例二中文本相似度的统计方法的流程图；0017 图3是实施例三中文本相似度的统计方法的流程图。具体实施方式0018 为使本发明的目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。0019 实施例一：0020 图1是一实施例中文本相似度的统计方法的流程图，包括下列步骤：0021 S110，获取需要判别相似度的文本T1和文本T2。0022 S120，将文本T1和文本T2分别分割成若干自然段，将文本T1中全部的自然段与文本T2中全部的自然段进行比较，将相同自然段的数量记为k3。0023 在本实施例中，将文本T1的自然段数量记为k1，文本T2的自然段数。

20、量记为k2。i从1到k1，j从1到k2，比较文本T1的第i段与文本T2的第j段是否相同，并将相同的自然段的数量记为k3。0024 S130，自文本T1和文本T2中删除相同的自然段，文本T1在删除后得到文本T3，文本T2在删除后得到文本T4。0025 将步骤S120比较后得出的相同的各自然段从文本T1和文本T2中删除，分别得到文本T3和文本T4。删除后得到的文本T3与文本T4之间不存在相同的自然段。0026 S140，将文本T3和文本T4分别分割成若干句子，将文本T3中全部的句子与文本T4中全部的句子进行比较，将相同句子的数量记为k6。0027 在本实施例中，将文本T3的句子数量记为k4，文本T。

21、4的句子数量记为k5。i从1到k4，j从1到k5，比较文本T3的第i句与文本T4的第j句是否相同，并将相同的句子的数量记为k6。0028 S150，自文本T3和文本T4中删除相同的句子，文本T3在删除后得到文本T5，文本T4在删除后得到文本T6。0029 将步骤S140比较后得出的相同的各句子从文本T3和文本T4中删除，分别得到文本T5和文本T6。删除后得到的文本T5和文本T6之间不存在相同的句子。0030 S160，将文本T5和文本T6分别分割成若干词语，将文本T5中全部的词语与文本T6中全部的词语进行比较，将相同词语的数量记为k9。0031 分割成词语可以采用现有技术的算法。在本实施例中，。

22、将文本T5的句子数量记为k7，文本T6的句子数量记为k8。i从1到k7，j从1到k8，比较文本T5的第i个词语与文本T6的第j个词语是否相同，并将相同的词语的数量记为k9。0032 S170，计算文本T1与文本T2的综合相似度，计算文本T2与文本T1的综合相似度。0033 文本T1与文本T2的综合相似度M1通过如下公式进行计算：0034 M1=k3/k1*c1+(1-k3/k1*c1)*k6/k4*c2+(1-k6/k4*c2)*k9/k70035 文本T2与文本T1的综合相似度M2通过如下公式进行计算：0036 M2=k3/k2*c1+(1-k3/k2*c1)*k6/k5*c2+(1-k6/。

23、k5*c2)*k9/k80037 其中c1为自然段尺度在综合相似度中的权重，c2为句子尺度在综合相似度中的说明书CN 103176962 A4/6页7权重。可以取合适的经验值（但需保证c10，1-k3/k1*c10，1-k3/k2*c10，c20，1-k6/k4*c20，1-k6/k5*c20），来调整不同划分尺度在综合相似度中所占的比重。0038 在其中一个实施例中，c1=c2=1，则文本T1与文本T2的综合相似度为：0039 M1=k3/k1+(1-k3/k1)*k6/k4+(1-k6/k4)*k9/k70040 文本T2与文本T1的综合相似度为：0041 M2=k3/k2+(1-k3。

24、/k2)*k6/k5+(1-k6/k5)*k9/k80042 文本T1与文本T2的综合相似度不一定等于文本T2与文本T1的综合相似度。例如，文本T1是文本T2的一半，则文本T1可以完全从文本T2中找到，而文本T2只有一半能从文本T1的找到，这种情况下，显然文本T1与文本T2的综合相似度大于文本T2与文本T1的综合相似度。0043 在另一个实施例中，计算M1、M2可以采用不同的权重，即：0044 M1=k3/k1*c1+(1-k3/k1*c1)*k6/k4*c2+(1-k6/k4*c2)*k9/k70045 M2=k3/k2*c3+(1-k3/k2*c3)*k6/k5*c4+(1-k6/k5*c。

25、4)*k9/k80046 其中c1、c2、c3、c4是权重，可以取合适的经验值，且c10，c20，1-k3/k1*c10，1-k6/k4*c20，c30，c40，1-k3/k2*c30，1-k6/k5*c40。0047 上述文本相似度的统计方法，先后以文本的段、句、词为尺度，对文本进行分割-比较-删除后来计算文本之间的综合相似度，能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度，使得被故意打乱了词序、句序、段序的相似文本也可以被检测出来。0048 在本实施例中，步骤S170后还包括步骤：0049 判断文本T1与文本T2的综合相似度是否大于相似度阈值，及文本T2与文本T1的综合相似度是。

26、否大于相似度阈值，若二者有任意一个大于相似度阈值，则判定文本T1与文本T2相似。相似度阈值可以是一个经验值，其取值与c1、c2有关。0050 在其它实施例中，也可以只计算一个综合相似度（例如文本T1与文本T2的综合相似度），并只判断该综合相似度是否大于相似度阈值。比如在两个文本中认定文本T1是有抄袭嫌疑的情况。0051 在其它实施例中，将需要判别相似度的两个文本分割成若干文本片段时采用的划分尺度，也可以不同于实施例一，例如是直接从自然段到词语，或者是直接从句子到词语，又或者采用除了自然段、句子、词语外其它的划分尺度。以下再分别给出两个对应的实施例：0052 实施例二：0053 S210，获取需。

27、要判别相似度的文本T1和文本T2。0054 S220，将文本T1和文本T2分别分割成若干自然段，将文本T1中全部的自然段与文本T2中全部的自然段进行比较，将相同自然段的数量记为k3。0055 在本实施例中，将文本T1的自然段数量记为k1，文本T2的自然段数量记为k2。i从1到k1，j从1到k2，比较文本T1的第i段与文本T2的第j段是否相同，并将相同的自然段数量记为k3。0056 S230，自文本T1和文本T2中删除相同的自然段，文本T1在删除后得到文本T3，文本T2在删除后得到文本T4。说明书CN 103176962 A5/6页80057 S240，将文本T3和文本T4分别分割成若干词语。

28、，将文本T3中全部的词语与文本T4中全部的词语进行比较，将相同词语的数量记为k6。0058 在本实施例中，将文本T3的词语数量记为k4，文本T4的词语数量记为k5。i从1到k4，j从1到k5，比较文本T3的第i个词语与文本T4的第j个词语是否相同，并将相同的词语数量记为k6。0059 S250，计算文本T1与文本T2的综合相似度，计算文本T2与文本T1的综合相似度。0060 在本实施例中，文本T1与文本T2的综合相似度M1通过如下公式进行计算：0061 M1=k3/k1*c1+(1-k3/k1*c1)*k6/k40062 文本T2与文本T1的综合相似度M2通过如下公式进行计算：0063 M2=。

29、k3/k2*c1+(1-k3/k2*c1)*k6/k50064 其中c1为自然段尺度在综合相似度中的权重，可以取合适的经验值，但需保证c10，1-k3/k1*c10，1-k3/k2*c10。0065 在本实施例中，步骤S250后还包括步骤：0066 判断文本T1与文本T2的综合相似度是否大于相似度阈值，及文本T2与文本T1的综合相似度是否大于相似度阈值，若二者有任意一个大于相似度阈值，则判定文本T1与文本T2相似。相似度阈值可以是一个经验值，其取值与c1有关。0067 在其它实施例中，也可以只计算一个综合相似度（例如文本T1与文本T2的综合相似度），并只判断该综合相似度是否大于相似度阈值。00。

30、68 实施例三：0069 S310，获取需要判别相似度的文本T1和文本T2。0070 S320，将文本T1和文本T2分别分割成若干句子，将文本T1中全部的句子与文本T2中全部的句子进行比较，将相同句子的数量记为k3。0071 在本实施例中，将文本T1的句子数量记为k1，文本T2的句子数量记为k2。i从1到k1，j从1到k2，比较文本T1的第i句与文本T2的第j句是否相同，并将相同的句子数量记为k3。0072 S330，自文本T1和文本T2中删除相同的句子，文本T1在删除后得到文本T3，文本T2在删除后得到文本T4。0073 S340，将文本T3和文本T4分别分割成若干词语，将文本T3中全部的词。

31、语与文本T4中全部的词语进行比较，将相同词语的数量记为k6。0074 在本实施例中，将文本T3的词语数量记为k4，文本T4的词语数量记为k5。i从1到k4，j从1到k5，比较文本T3的第i个词语与文本T4的第j个词语是否相同，并将相同的词语数量记为k6。0075 S350，计算文本T1与文本T2的综合相似度，计算文本T2与文本T1的综合相似度。0076 在本实施例中，文本T1与文本T2的综合相似度M1通过如下公式进行计算：0077 M1=k3/k1*c1+(1-k3/k1*c1)*k6/k40078 文本T2与文本T1的综合相似度M2通过如下公式进行计算：0079 M2=k3/k2*c1+(1。

32、-k3/k2*c1)*k6/k50080 其中c1为句子尺度在综合相似度中的权重，可以取合适的经验值，但需保证c10，1-k3/k1*c10，1-k3/k2*c10。说明书CN 103176962 A6/6页90081 在本实施例中，步骤S350后还包括步骤：0082 判断文本T1与文本T2的综合相似度是否大于相似度阈值，及文本T2与文本T1的综合相似度是否大于相似度阈值，若二者有任意一个大于相似度阈值，则判定文本T1与文本T2相似。相似度阈值可以是一个经验值，其取值与c1有关。0083 在其它实施例中，也可以只计算一个综合相似度（例如文本T1与文本T2的综合相似度），并只判断该综合相似度是否大于相似度阈值。0084 以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。说明书CN 103176962 A1/3页10图1说明书附图CN 103176962 A10。

展开阅读全文