一种垃圾短信检测方法及装置.pdf

摘要
申请专利号：	CN201210457592.0	申请日：	2012.11.14
公开号：	CN103813279A	公开日：	2014.05.21
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):H04W 4/14申请公布日:20140521\|\|\|实质审查的生效IPC(主分类):H04W 4/14申请日:20121114\|\|\|公开
IPC分类号：	H04W4/14(2009.01)I; H04W12/12(2009.01)I; G06F17/30	主分类号：	H04W4/14
申请人：	中国移动通信集团设计院有限公司
发明人：	丁志刚; 肖子玉
地址：	100080 北京市海淀区丹棱街甲16号
优先权：
专利代理机构：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
PDF下载：	PDF下载

内容摘要

本发明公开了一种垃圾短信检测方法和装置，该方法包括：针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。能够较好地提高识别垃圾短息的准确性、提升垃圾短信检测的效率、实时性较好。

权利要求书

1.一种垃圾短信检测方法，其特征在于，包括：
针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一
个特征词的特征词集合；
将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进
行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够
匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信
信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，
所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词
和垃圾短信信息样本的匹配程度；
根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短
信。
2.如权利要求1所述的方法，其特征在于，将所述待检测短信中包含的
信息转换为包含至少一个特征词的特征词集合，包括：
将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；
基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转
换为包含至少一个特征词的特征词集合。
3.如权利要求1所述的方法，其特征在于，所述倒排索引文件采用下述
方式获得：
获得至少一个垃圾短信信息样本；
针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息
的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重；
建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间
的对应关系，形成倒排索引文件。
4.如权利要求3所述的方法，其特征在于，设置特征词和所述垃圾短信
信息样本的匹配权重的方法至少包括下述中的一项或多项：
根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本
的匹配权重；
根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信
息样本的匹配权重；
根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信
信息样本的匹配权重；
根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾
短信信息样本的匹配权重。
5.如权利要求1所述的方法，其特征在于，将所述特征词集合中包含的
每个特征词分别在预设的倒排索引文件中进行查询，包括：
将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，
所述特征词分组中包含的特征词均不相同；
基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行
查询。
6.如权利要求1所述的方法，其特征在于，根据确定出的样本数量和匹
配权重，确定所述待检测短信是否是垃圾短信，包括：
若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值
时，确定所述待检测短信是垃圾短信。
7.如权利要求6所述的方法，其特征在于，在确定出所述待检测短信是
垃圾短信之后，还包括：
对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。
8.一种垃圾短信检测装置，其特征在于，包括：
特征词集合确定模块，用于针对一个待检测短信，将所述待检测短信中包
含的信息转换为包含至少一个特征词的特征词集合；
查询模块，用于将所述特征词集合中包含的每个特征词分别在预设的倒排
索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信
信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征
词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃
圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配
权重是特征词和垃圾短信信息样本的匹配程度；
垃圾短信确定模块，用于根据索引模块确定出的样本数量和匹配权重，确
定所述待检测短信是否是垃圾短信。
9.如权利要求8所述的装置，其特征在于，所述特征词集合确定模块，
具体用于将所述待检测短信中包含的信息经过预处理，转换为可识别的文本
形式；基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息
转换为包含至少一个特征词的特征词集合。
10.如权利要求8所述的装置，其特征在于，所述查询模块，还包括：
索引子模块，用于建立倒排索引文件的索引子模块，其中所述倒排索引文
件采用下述方式获得：获得至少一个垃圾短信信息样本；针对任一垃圾短信信
息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征
词和所述垃圾短信信息样本的匹配权重；建立表征垃圾短信信息的特征词、垃
圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。
11.如权利要求10所述的装置，其特征在于，设置特征词和所述垃圾短
信信息样本的匹配权重的方法至少包括下述中的一项或多项：
根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本
的匹配权重；
根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信
息样本的匹配权重；
根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信
信息样本的匹配权重；
根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾
短信信息样本的匹配权重。
12.如权利要求8所述的装置，其特征在于，所述查询模块，具体用于
将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所
述特征词分组中包含的特征词均不相同；基于分布式计算方法，将得到的特征
词分组在预设的倒排索引文件中进行查询。
13.如权利要求8所述的装置，其特征在于，所述垃圾短信确定模块，具
体用于若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈
值时，确定所述待检测短信是垃圾短信。
14.如权利要求8所述的装置，其特征在于，所述垃圾短信确定模块，还
用于对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。

说明书

一种垃圾短信检测方法及装置

技术领域

本发明涉及垃圾短信过滤方法技术领域，尤其是涉及一种垃圾短信检测方法及装置。

背景技术

随着无线通信网络的不断发展，用户在享受各种业务带来方便的同时，也受到不法分子发送的垃圾短信的困扰。

目前，垃圾短信的检测主要通过两种方法来实现：一种方式是通过短信的发送行为来实现垃圾短信检测，主要包括通过短信发送频次特征、短信被叫号码规律特征、短信主叫号码规律特征等发现垃圾短信。另一种方式是通过内容识别的方式来实现垃圾短信检测，一般采用预先指定的非法关键词匹配策略来实现垃圾短信检测。

其中，通过内容识别的方式来实现垃圾短信检测，如图1所示，其处理流程如下述：

步骤11，确定垃圾短信关键词集合。

其中，确定垃圾短信关键词集合主要有两种方式：

第一种方式：收集垃圾短信样本，采用手工或计算机数据挖掘方式，在手机的垃圾短信样本中提炼垃圾短信的特征词。

第二种方式：网维人员根据经验人为制定一些应限制在短信中传播的词汇。

根据上述两种方式确定的垃圾短信关键词，确定垃圾短信管检测集合。

步骤12，将确定出的垃圾短信关键词集合做适当分级后载入垃圾短信监控系统中，并在垃圾短信监控系统中设定短信在命中各级关键词、各种命中频次、命中组合情况下应采取的处理策略等等。

步骤13，垃圾短信监控系统每收到一条送检的短信，用每一级系统关键词逐词与该短信进行匹配，记录该短信对每一条关键词的命中情况。

步骤14，垃圾短信监控系统根据待检测短信对关键词的命中情况，遵照预设的处理策略，确定该短信是否是垃圾短信。

现有技术中基于内容识别方法来实现垃圾短信的检测，主要存下述两种缺陷：

第一种缺陷：对垃圾短信的识别准确率较低，例如关键词处理策略设置严格容易造成大量误拦截，处理策略设置宽松又无法起到有效的拦截效果。关键词处理策略容易被垃圾短信传播者识破，进而通过编辑“变体”垃圾短信使系统无法识别，手段诸如：用同义词替代关键词、在关键词中间填加特殊符号、利用同音字代替等。

第二种缺陷：垃圾短信检测的效率低下、实时性较差。对于待检测的短信，需要将该短信内容与垃圾短信监控系统中设置的所有关键词逐次匹配，如果关键词数量较少，相应的关键词匹配处理可以在短时间完成，相反如果关键词数量增加到较高量级，考虑逐词索引的线性计算增量、及根据命中情况匹配处理方法时增加的平方级计算消耗，处理每一条待检短信所需时间可能达到小量关键词情况下的数倍。

综上所述，现有技术中垃圾短信检测方法准确性较低、垃圾短信检测的效率低下、实时性较差。

发明内容

本发明实施例提供了一种垃圾短信检测方法及装置，能够较好地提高识别垃圾短息的准确性、提升垃圾短信检测的效率、实时性较好。

一种垃圾短信检测方法，包括：针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度；根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

一种垃圾短信检测装置，包括：特征词集合确定模块，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；查询模块，用于将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。

采用上述技术方案，针对一个待检测短信，将该待检测短信中包含的信息转换为包含至少一个特征词的特征词集合，然后将特征词集合中的每个特征词分别进行查询，根据查询结果，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重，最后确定待检测短信是否是垃圾短信。对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本多维度特征匹配，提高了识别垃圾短信的准确性。并且基于倒排索引的方式，也能够较好地提升垃圾短信检测的效率、实时性较好。

附图说明

图1为现有技术中，提出的基于内容识别的方式来实现垃圾短信检测的方法流程图；

图2为本发明实施例中，提出的垃圾短信检测方法流程图；

图3为本发明实施例中，提出的垃圾短信检测装置结构组成示意图；

图4为本发明实施例中，提出的垃圾短信检测方法的原理示意图。

具体实施方式

针对现有技术中垃圾短信检测时存在的准确性较低、垃圾短信检测的效率低下、实时性较差的问题，本发明实施例这里提出的技术方案，针对一个待检测短信，将该待检测短信中包含的信息转换为包含至少一个特征词的特征词集合然后将特征词集合中的每个特征词分别进行查询，根据查询结果，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重，最后确定待检测短信是否是垃圾短信，对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本多维度特征匹配，提高了识别垃圾短信的准确性。并且基于倒排索引文件进行查询的方式，识别速度较快，对系统性能要求也比较低，较好地提升垃圾短信检测的效率、实时性较好。

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

本发明实施例这里提出一种垃圾短信检测方法，如图2所示，其具体处理流程如下述：

步骤21，针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

其中，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合可以通过下述步骤来实现：

步骤一：将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式。

其中，在对待检测短信信息进行整理，将待检测短信的信息转换为可识别的文本形式，这种方式也可以称之为预处理。例如：将待检测短信中包含的文本编码调整为可识别的形式，去掉信息中包含的无法识别的乱码等。

较佳地，由于垃圾短信中经常被不法分子采用一些“变体”手段发送垃圾短信，即在垃圾短信信息中加入特殊符号，在进行预处理过程时，可以在预处理过程中加入“反变体算法”去除待检测短信信息中出现的不合理符号、同义词转换等。例如：将待检测短信信息中包含的“发**票”，经过预处理可以转换成为“发票”。这样，可以进一步地提高识别垃圾短信的准确性。

步骤二：基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

其中，分词可以通过计算机执行自动分词算法来完成。分词算法可以但不限于是基于词典的方法、基于统计的方法或者基于规则的方法等等。现有技术中，分词算法不但能够将已知的词汇从文本中分出来，还能够利用语言的语法、语义特征从文本中发现新的词汇（未登录词）。其中，英文是以词为单位的，词和词之间是基于空格隔开，将英文中的词进行切分，成为有意义的词组，就是英文分词。而中文是以字为单位，句子中所有的字连起来可以表达一个含义。将中文的汉字序列切分成有意义的词，就是中文分词。具体实施过程中，有些语言本身包含的词就是分开的，但从广义的概念来讲，无论什么语言，都有分词的概念。例如：英文中，需要把句子分成有意义的词组。各种语言混合、甚至包含各种特殊符号的文本，也需要将其中具有独立的意义的单元分开。该些处理方式均定义为分词。

步骤22，将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重。

其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。

较佳地，还可以将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同，基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。

其中，可以对特征词集合中包含的全部特征词按照一定的分类文本集按照一定的分类体系或标准进行自动分类标记，其具体实施方式可以是根据待分类特征词的某些特征来进行匹配，可以根据预设的评价评价标准选择最优的匹配结果，从而完成特征词的分类。

其中，在将全部特征词进行划分之后，可以基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。具体地，分布式算法是关于如何将一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。本发明实施例这里提出的技术方案中，在待检测短信的数量比较多的情况下，进行特征词索引时，计算量较大。仅仅由单个的终端或是个人在一个较佳的时间内计算完成的可能性较低。但是进行特征词查询时，划分得到的全部特征词可以划分为计算片断，服务端负责将计算问题分成许多小的计算部分，然后把这些部分分配给许多联网参与计算的计算机进行并行处理，最后将这些计算结果综合起来得到最终的结果。例如，现有技术中垃圾短信监控系统中，用于实时监控垃圾短信的关键词及关键词条数容量最高仅能达到“几千”数量级。基于此，可以采用分布式计算方法，同时设置多个服务器，每个服务器上均设置倒排索引文件，将预处理得到的特征词集合划分为多个组别，然后将得到的特征词分组分配给多个计算机并行处理，从而得到查询结果。

其中，倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。带有倒排索引的文件称为倒排索引文件，简称倒排文件。倒排索引的优点是可以根据指定的属性值很快的从较多的记录中搜索出匹配属性值的相关记录。要把文本文档样本库设置为倒排索引，首先需要确定文本文档中需要将哪些词或哪些字、哪些句子、甚至哪些段落、哪些符号作为索引的属性，也要确定哪些属性是重要的，哪些是次要的。这些属性可以人为制定、也可以通过“特征选择”算法得到。例如代词、介词等虚词一般不作为属性被索引，一般有意义的实词（如名词）、词组、流行的句子会作为属性被索引，但并不是每一个名词都被索引，属性被赋予的重要程度也不一样，到底哪些应该索引，需要通过特征算法得出。特征选择算法一般不是静态算法，是机器学习的过程，随着样本库更新，算法多轮迭代及特征参数修正，算法得到的特征会更新，随着样本库逐渐扩大、迭代次数增加，特征选择的结果也越能真实的代表文本。

具体地，本发明实施例这里提出的倒排索引文件可以采用下述方式获得：

步骤一：获得至少一个垃圾短信信息样本。

其中，垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信记录以及用户举报、投诉的垃圾短信记录中获得。

步骤二：针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重。

其中，对获得的每个垃圾短信信息样本中进行分词、预处理，执行特征选择算法，提取其中表征垃圾短信的特征词、特征句子、特征符号等，并赋予特征相应的匹配权重。

具体地，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一种或者多种：

第一种：根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重。

第二种：根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重。

第三种：根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重；

第四种：根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。

步骤三：建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。

其中，可以将表征垃圾短信信息的特征词作为倒排索引文件的属性。倒排索引文件可以但不限于是表格的形式。索引表中每一项包含表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系。

步骤23，根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。

较佳地，在确定出待检测短信是垃圾短信之后还可以对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。

下面以一具体实例对上述垃圾短信检测方法进行详细阐述，这里假设接收到待检测短信内容为ABxxx，如图3所示，具体处理过程如下述：

步骤31，接收到待检测短信ABxxx。

步骤32，将接收到的待检测短信ABxxx依次进行分词、预处理操作，将该待检测短信中包含的信息ABxxx转换为包含至少一个特征词的特征词集合。

例如，将接收到的待检测短信包含的信息ABxxx转为为特征词集合{A、AB、B}。

步骤33，将特征词集合{A、AB、B}中包含的每个特征词分别在预设的倒排索引文件中进行查询。

经过预处理及分词，待检测短信信息被转换为包含至少一个特征词的特征词集合，将特征词集合中每个特征词分别去倒排索引中查询。其中，可利用分布式计算技术分摊到多台计算机上进行查询，这样可以较好地降低查询的复杂度。例如待检测短信ABxxx被转换成特征词集合{A、AB、B}，则针对分成的 3个特征词在一台服务器中进行3次查询，或者在三台服务器中同时进行1次查询。

其中，进行查询时，垃圾短信监控系统需要设置倒排索引文件。倒排索引文件的形成原理在上述步骤22中已经详细阐述，这里不再赘述。

较佳地，本发明实施例这里以垃圾短信样本为AxxBxxCxxDxx为例来详细阐述倒排索引文件的形成。

步骤一，获得至少一个垃圾短信信息样本。

其中，垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信记录以及用户举报、投诉的垃圾短信记录中获得。为便于阐述，本发明实施例这里以垃圾短信样本为AxxBxxCxxDxx为例来进行详细阐述。

步骤二：对获得的垃圾短信样本AxxBxxCxxDxx进行预处理、分词，执行特征选择算法，提取其中表征垃圾短信的特征词、特征句子、特征符号等，并赋予相应的匹配权重。

例如，垃圾短信样本AxxBxxCxxDxx，其中，大写字母代表在很多垃圾短信中都普遍出现的典型字串（诸如“发票”、“中奖”等词汇），而xx是不具备特征意义的字串（诸如：“是”、“我”、“你”这样的词汇）。通过分词和预处理，将A、B、C、D这些特征字串从已知的垃圾短信信息中分析出来，将提取的特征词作为索引表属性，制作倒排索引文件。其中倒排索引表中的每一项包含一个特征此和具有该特征次的所有垃圾短信样本情况、该特征词同每一垃圾短信样本的匹配权重。匹配权重可以根据该垃圾短信样本本身重要程度、样本长度、出现特征词频次、出现位置等情况综合评价。如表1所示，给出以垃圾短信样本AxxBxxCxxDxx为例制作的倒排索引文件。

表1

形成的倒排索引文件可以载入到垃圾短信监控系统中，若垃圾短信监控系统采用分布式系统，则可以将形成的倒排索引文件同时载入到多个计算机中。形成的倒排索引文件可以根据垃圾短信样本数据库中存储的垃圾短信样本的变化而变化，从而实现定时或者随时更新。

步骤34，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重。

综合统计特征词集合中包含的各特词在进行倒排索引后，命中的垃圾短信信息样本数量及匹配权重，得到本条待检短信的垃圾短信评定分数。例如，根据表1，确定特征词集合{A、AB、B}的结果应当是：

命中垃圾短信样本的样本数量：6

特征词集合的匹配权重：3+3+3+3+3+5+3+2+3=28

步骤35，根据预设的评定指标确定该待检测短信是否是垃圾短信，并对该待检测短信采用对应的处理方式。

其中，可以依据短信命中的垃圾短信样本数量、待检短信同垃圾短信样本的匹配权重等确定评定指标，评定指标可以由网优人员根据经验制定也可以通过自动文本分类算法计算得到。例如评定标准可以是：

命中垃圾短信样本数量大于6且匹配权重大于20时，确定该待检测短信为垃圾短信，则对该短信实时进行封堵。

命中垃圾短信样本数量大于2，则将该待检测短信挂起，后续由网优人员进行人工审核，若判定不是垃圾短信，则放行，反之，确定该待检测短信为垃圾短信，则对该短信实时进行封堵。

命中垃圾短信样本数量小于等于2，确定该待检测短信不是垃圾短信，放行该短信。

采用本发明实施例上述提出的技术方案，对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本进行多维度特征匹配，可以根据需要达到“千万”甚至更高量级，特征不仅可以是词，也可以是字、句子、符号等。现有关键词匹配算法，一般只简单分级后人为的制定在各种关键词命中情况下的处理策略，本发明实施例这里提出对技术方案不但可以人为制定，还可以通过分类算法根据所拥有垃圾短信样本经验动态制定处理策略，分类算法可以在样本更新、算法迭代过程中即时的更新处理策略，垃圾短信样本更新越快，检测系统对于垃圾短信发送者采取的新手段做出的反应也就越快。从而较好地提高了识别垃圾短信的准确性。现有技术中垃圾短信检测的技术方案，基于关键词识别策略属于静态策略，通过人工或计算机辅助制定关键词命中阈值，可配置的策略标准非常有限，容易被垃圾短信发送者通过试验测试套出策略，再应对策略制定变体短信。本发明实施例这里提出的技术方案，识别策略为动态策略，不存在某具体的阈值来决定垃圾短信的判别，而是通过综合特征评定识别垃圾短信，对于垃圾短信发送者来说，应对这种策略的难度很高，很难在短信内容表达不受影响的情况下将变体短信不被系统识别。另外，本发明实施例这里提出的技术方案，应对策略根据样本库更新即时更新，发送者即使采用了变体的手段，一旦变体短信被加入样本库参与特征训练，新的变体手段也会被识破不再有效。因此，本发明实施例这里提出的技术方案，可以有效的识别“变体”垃圾短信。

相应地，本发明实施例这里还提出一种垃圾短信检测装置，如图4所示，包括：

特征词集合确定模块401，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

具体地，上述特征词集合确定模块401，具体用于将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。

查询模块402，用于将特征词集合确定模块401确定出的所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。

具体地，上述查询模块402还包括：

索引子模块，用于建立倒排索引文件的索引子模块，其中所述倒排索引文件采用下述方式获得：获得至少一个垃圾短信信息样本；针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重；建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。

其中，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一项或多项：

根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。

具体地，上述查询模块402，具体用于将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同；基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。

垃圾短信确定模块403，用于根据索引模块402确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。

具体地，上述垃圾短信确定模块403，具体用于若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。

具体地，上述垃圾短信确定模块403，还用于对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。

本发明实施例上述提出的垃圾短信检测方法，是将获得的垃圾短信样本作为查找记录，将垃圾短信样本中的特征词、特征句、特征符号等作为属性，以此来形成倒排索引文件，根据行程的倒排索引文件对待检测短信进行垃圾短信的判定。这样，垃圾短信的识别过程不再逐关键词去匹配待检测短信，而是将待检测短信作为查询条件，通过倒排索引去匹配垃圾短信样本，根据匹配的结果实时判定垃圾短信。较佳地，本发明实施例中海引入了分布式计算算法，能够较好地提高查询速度。

本发明实施例这里提出的技术方案，对待检测短信的识别过程中，与现有技术的区别在于：现有技术中采用系统关键词逐条匹配待检测短信，而本发明实施例这里提出的技术方案，采用待测检短信匹配行程的索引文件。基于查询次数来分析两种技术方案中的主要计算量：系统关键词的数量直接影响关键词识别方法计算时间，假设系统关键词为1000个，则基本的查询操作即需要1000次，随着系统关键词数量的提高，查询时间也随之升高。本发明实施例这里提出的技术方案中，主要计算量主要受待检测短信被预处理和分词后转换成的特征词集合规模影响，正常情况下，短信的长度一般不会超过70个字，即使每个字单独查询也只有70次基本查询。本发明实施例这里提出的技术方案的查询，所需计算量跟索引的大小有关，计算量较大但能够切分，可以通过上文所述分布式计算技术将计算量分摊到多台终端，这样，理论上只要增加足够多的计算终端每个查询的时间就不会受索引大小影响，时间会非常短。因此本发明实施例这里提出的技术方案，计算量较小，查询速度较快。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置（设备）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

资源描述

《一种垃圾短信检测方法及装置.pdf》由会员分享，可在线阅读，更多相关《一种垃圾短信检测方法及装置.pdf（15页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103813279 A (43)申请公布日 2014.05.21 CN 103813279 A (21)申请号 201210457592.0 (22)申请日 2012.11.14 H04W 4/14(2009.01) H04W 12/12(2009.01) G06F 17/30(2006.01) (71)申请人中国移动通信集团设计院有限公司地址 100080 北京市海淀区丹棱街甲 16 号 (72)发明人丁志刚肖子玉 (74)专利代理机构北京同达信恒知识产权代理有限公司 11291 代理人郭润湘 (54) 发明名称一种垃圾短信检测方法及装置 (57) 。

2、摘要本发明公开了一种垃圾短信检测方法和装置，该方法包括：针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。能够较好地提高识别垃圾短息的准确性、提升垃圾短信检测的效率、实时性较好。 (51)Int.Cl. 权利要求书 3 页说明书 10 页附图 1 页 (19)中华人民共和国国家知识产权局 (1。

3、2)发明专利申请权利要求书3页说明书10页附图1页 (10)申请公布号 CN 103813279 A CN 103813279 A 1/3 页 2 1. 一种垃圾短信检测方法，其特征在于，包括：针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息。

4、样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度；根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。 2. 如权利要求 1 所述的方法，其特征在于，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合，包括：将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。 3. 如权利要求 1 所述的方法，其特征在于，所述倒排索引文件采用下述方式获得：获得至少一个垃圾短信信息样本；针对任一垃圾短信。

5、信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重；建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。 4. 如权利要求 3 所述的方法，其特征在于，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一项或多项：根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的。

6、匹配权重；根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。 5. 如权利要求 1 所述的方法，其特征在于，将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，包括：将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同；基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。 6. 如权利要求 1 所述的方法，其特征在于，根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信，包括：若确定出的样本数量大于预设第一阈值，。

7、且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。权利要求书 CN 103813279 A 2 2/3 页 3 7. 如权利要求 6 所述的方法，其特征在于，在确定出所述待检测短信是垃圾短信之后，还包括：对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。 8. 一种垃圾短信检测装置，其特征在于，包括：特征词集合确定模块，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；查询模块，用于将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索。

8、引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度；垃圾短信确定模块，用于根据索引模块确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。 9. 如权利要求 8 所述的装置，其特征在于，所述特征词集合确定模块，具体用于将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；基于分词算法将转换为可识别的文本形式的待检测短信中。

9、包含的信息转换为包含至少一个特征词的特征词集合。 10. 如权利要求 8 所述的装置，其特征在于，所述查询模块，还包括：索引子模块，用于建立倒排索引文件的索引子模块，其中所述倒排索引文件采用下述方式获得：获得至少一个垃圾短信信息样本；针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重；建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。 11. 如权利要求 10 所述的装置，其特征在于，设置特征词和所述垃圾短信信息样本的匹配权重的方法至。

10、少包括下述中的一项或多项：根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。 12. 如权利要求 8 所述的装置，其特征在于，所述查询模块，具体用于将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同；基于分布式计算方。

11、法，将得到的特征词分组在预设的倒排索引文件中进行查询。 13. 如权利要求 8 所述的装置，其特征在于，所述垃圾短信确定模块，具体用于若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。 14. 如权利要求 8 所述的装置，其特征在于，所述垃圾短信确定模块，还用于对所述待权利要求书 CN 103813279 A 3 3/3 页 4 检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。权利要求书 CN 103813279 A 4 1/10 页 5 一种垃圾短信检测方法及装置技术领域 0001 本发明涉。

12、及垃圾短信过滤方法技术领域，尤其是涉及一种垃圾短信检测方法及装置。背景技术 0002 随着无线通信网络的不断发展，用户在享受各种业务带来方便的同时，也受到不法分子发送的垃圾短信的困扰。 0003 目前，垃圾短信的检测主要通过两种方法来实现：一种方式是通过短信的发送行为来实现垃圾短信检测，主要包括通过短信发送频次特征、短信被叫号码规律特征、短信主叫号码规律特征等发现垃圾短信。另一种方式是通过内容识别的方式来实现垃圾短信检测，一般采用预先指定的非法关键词匹配策略来实现垃圾短信检测。 0004 其中，通过内容识别的方式来实现垃圾短信检测，如图 1 所示，其处理流。

13、程如下述： 0005 步骤 11，确定垃圾短信关键词集合。 0006 其中，确定垃圾短信关键词集合主要有两种方式： 0007 第一种方式：收集垃圾短信样本，采用手工或计算机数据挖掘方式，在手机的垃圾短信样本中提炼垃圾短信的特征词。 0008 第二种方式：网维人员根据经验人为制定一些应限制在短信中传播的词汇。 0009 根据上述两种方式确定的垃圾短信关键词，确定垃圾短信管检测集合。 0010 步骤 12，将确定出的垃圾短信关键词集合做适当分级后载入垃圾短信监控系统中，并在垃圾短信监控系统中设定短信在命中各级关键词、各种命中频次、命中组合情况下应采取的处理策略。

14、等等。 0011 步骤 13，垃圾短信监控系统每收到一条送检的短信，用每一级系统关键词逐词与该短信进行匹配，记录该短信对每一条关键词的命中情况。 0012 步骤 14，垃圾短信监控系统根据待检测短信对关键词的命中情况，遵照预设的处理策略，确定该短信是否是垃圾短信。 0013 现有技术中基于内容识别方法来实现垃圾短信的检测，主要存下述两种缺陷： 0014 第一种缺陷：对垃圾短信的识别准确率较低，例如关键词处理策略设置严格容易造成大量误拦截，处理策略设置宽松又无法起到有效的拦截效果。关键词处理策略容易被垃圾短信传播者识破，进而通过编辑 “变体” 垃圾短信使系统无法。

15、识别，手段诸如：用同义词替代关键词、在关键词中间填加特殊符号、利用同音字代替等。 0015 第二种缺陷：垃圾短信检测的效率低下、实时性较差。对于待检测的短信，需要将该短信内容与垃圾短信监控系统中设置的所有关键词逐次匹配，如果关键词数量较少，相应的关键词匹配处理可以在短时间完成，相反如果关键词数量增加到较高量级，考虑逐词索引的线性计算增量、及根据命中情况匹配处理方法时增加的平方级计算消耗，处理每一条待检短信所需时间可能达到小量关键词情况下的数倍。说明书 CN 103813279 A 5 2/10 页 6 0016 综上所述，现有技术中垃圾短信检测方。

16、法准确性较低、垃圾短信检测的效率低下、实时性较差。发明内容 0017 本发明实施例提供了一种垃圾短信检测方法及装置，能够较好地提高识别垃圾短息的准确性、提升垃圾短信检测的效率、实时性较好。 0018 一种垃圾短信检测方法，包括：针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征。

17、词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度；根据确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。 0019 一种垃圾短信检测装置，包括：特征词集合确定模块，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合；查询模块，用于将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本。

18、和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。 0020 采用上述技术方案，针对一个待检测短信，将该待检测短信中包含的信息转换为包含至少一个特征词的特征词集合，然后将特征词集合中的每个特征词分别进行查询，根据查询结果，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重，最后确定待检测短信是否是垃圾短信。对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本多维度特征匹配，提高了识别垃圾短信的准确性。并。

19、且基于倒排索引的方式，也能够较好地提升垃圾短信检测的效率、实时性较好。附图说明 0021 图 1 为现有技术中，提出的基于内容识别的方式来实现垃圾短信检测的方法流程图； 0022 图 2 为本发明实施例中，提出的垃圾短信检测方法流程图； 0023 图 3 为本发明实施例中，提出的垃圾短信检测装置结构组成示意图； 0024 图 4 为本发明实施例中，提出的垃圾短信检测方法的原理示意图。具体实施方式 0025 针对现有技术中垃圾短信检测时存在的准确性较低、垃圾短信检测的效率低下、实时性较差的问题，本发明实施例这里提出的技术方案，针对一个待检测短信，将该待检测说。

20、明书 CN 103813279 A 6 3/10 页 7 短信中包含的信息转换为包含至少一个特征词的特征词集合然后将特征词集合中的每个特征词分别进行查询，根据查询结果，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重，最后确定待检测短信是否是垃圾短信，对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本多维度特征匹配，提高了识别垃圾短信的准确性。并且基于倒排索引文件进行查询的方式，识别速度较快，对系统性能要求也比较低，较好地提升垃圾短信检测的效率、实时性较好。 0026 下面将结合各个附图对本发明实施例技术方。

21、案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。 0027 本发明实施例这里提出一种垃圾短信检测方法，如图 2 所示，其具体处理流程如下述： 0028 步骤 21，针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。 0029 其中，将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合可以通过下述步骤来实现： 0030 步骤一：将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式。 0031 其中，在对待检测短信信息进行整理，将待检测短信的信息转换为可识别的文本形式，这种方式也。

22、可以称之为预处理。例如：将待检测短信中包含的文本编码调整为可识别的形式，去掉信息中包含的无法识别的乱码等。 0032 较佳地，由于垃圾短信中经常被不法分子采用一些 “变体” 手段发送垃圾短信，即在垃圾短信信息中加入特殊符号，在进行预处理过程时，可以在预处理过程中加入 “反变体算法” 去除待检测短信信息中出现的不合理符号、同义词转换等。例如：将待检测短信信息中包含的 “发 * 票” ，经过预处理可以转换成为 “发票” 。这样，可以进一步地提高识别垃圾短信的准确性。 0033 步骤二：基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至。

23、少一个特征词的特征词集合。 0034 其中，分词可以通过计算机执行自动分词算法来完成。分词算法可以但不限于是基于词典的方法、基于统计的方法或者基于规则的方法等等。现有技术中，分词算法不但能够将已知的词汇从文本中分出来，还能够利用语言的语法、语义特征从文本中发现新的词汇（未登录词）。其中，英文是以词为单位的，词和词之间是基于空格隔开，将英文中的词进行切分，成为有意义的词组，就是英文分词。而中文是以字为单位，句子中所有的字连起来可以表达一个含义。将中文的汉字序列切分成有意义的词，就是中文分词。具体实施过程中，有些语言本身包含的词就是分开的，但从广义的概。

24、念来讲，无论什么语言，都有分词的概念。例如：英文中，需要把句子分成有意义的词组。各种语言混合、甚至包含各种特殊符号的文本，也需要将其中具有独立的意义的单元分开。该些处理方式均定义为分词。 0035 步骤 22，将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重。 0036 其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信息，所述垃圾短信信息样本是包含所述特征词的说明书 CN 103813279 。

25、A 7 4/10 页 8 垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。 0037 较佳地，还可以将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中，所述特征词分组中包含的特征词均不相同，基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。 0038 其中，可以对特征词集合中包含的全部特征词按照一定的分类文本集按照一定的分类体系或标准进行自动分类标记，其具体实施方式可以是根据待分类特征词的某些特征来进行匹配，可以根据预设的评价评价标准选择最优的匹配结果，从而完成特征词的分类。 0039 其中，在将全部特征词进行划分之。

26、后，可以基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。具体地，分布式算法是关于如何将一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。本发明实施例这里提出的技术方案中，在待检测短信的数量比较多的情况下，进行特征词索引时，计算量较大。仅仅由单个的终端或是个人在一个较佳的时间内计算完成的可能性较低。但是进行特征词查询时，划分得到的全部特征词可以划分为计算片断，服务端负责将计算问题分成许多小的计算部分，然后把这些部分分配给许多联网参与计算的计算机进行并行。

27、处理，最后将这些计算结果综合起来得到最终的结果。例如，现有技术中垃圾短信监控系统中，用于实时监控垃圾短信的关键词及关键词条数容量最高仅能达到 “几千” 数量级。基于此，可以采用分布式计算方法，同时设置多个服务器，每个服务器上均设置倒排索引文件，将预处理得到的特征词集合划分为多个组别，然后将得到的特征词分组分配给多个计算机并行处理，从而得到查询结果。 0040 其中，倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。。

28、带有倒排索引的文件称为倒排索引文件，简称倒排文件。倒排索引的优点是可以根据指定的属性值很快的从较多的记录中搜索出匹配属性值的相关记录。要把文本文档样本库设置为倒排索引，首先需要确定文本文档中需要将哪些词或哪些字、哪些句子、甚至哪些段落、哪些符号作为索引的属性，也要确定哪些属性是重要的，哪些是次要的。这些属性可以人为制定、也可以通过 “特征选择” 算法得到。例如代词、介词等虚词一般不作为属性被索引，一般有意义的实词（如名词）、词组、流行的句子会作为属性被索引，但并不是每一个名词都被索引，属性被赋予的重要程度也不一样，到底哪些应该索引，需要通过。

29、特征算法得出。特征选择算法一般不是静态算法，是机器学习的过程，随着样本库更新，算法多轮迭代及特征参数修正，算法得到的特征会更新，随着样本库逐渐扩大、迭代次数增加，特征选择的结果也越能真实的代表文本。 0041 具体地，本发明实施例这里提出的倒排索引文件可以采用下述方式获得： 0042 步骤一：获得至少一个垃圾短信信息样本。 0043 其中，垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信记录以及用户举报、投诉的垃圾短信记录中获得。 0044 步骤二：针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和。

30、所述垃圾短信信息样本的匹配权重。 0045 其中，对获得的每个垃圾短信信息样本中进行分词、预处理，执行特征选择算法，说明书 CN 103813279 A 8 5/10 页 9 提取其中表征垃圾短信的特征词、特征句子、特征符号等，并赋予特征相应的匹配权重。 0046 具体地，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一种或者多种： 0047 第一种：根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重。 0048 第二种：根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重。 0049。

31、第三种：根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重； 0050 第四种：根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。 0051 步骤三：建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引文件。 0052 其中，可以将表征垃圾短信信息的特征词作为倒排索引文件的属性。倒排索引文件可以但不限于是表格的形式。索引表中每一项包含表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系。 0053 步骤 23，根据确定出的样本数量和。

32、匹配权重，确定所述待检测短信是否是垃圾短信。 0054 若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。 0055 较佳地，在确定出待检测短信是垃圾短信之后还可以对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。 0056 下面以一具体实例对上述垃圾短信检测方法进行详细阐述，这里假设接收到待检测短信内容为 ABxxx，如图 3 所示，具体处理过程如下述： 0057 步骤 31，接收到待检测短信 ABxxx。 0058 步骤 32，将接收到的待检测短信 ABxxx 依次进行分词、预处理操作，将该待检。

33、测短信中包含的信息 ABxxx 转换为包含至少一个特征词的特征词集合。 0059 例如，将接收到的待检测短信包含的信息 ABxxx 转为为特征词集合 A、 AB、 B。 0060 步骤 33，将特征词集合 A、 AB、 B 中包含的每个特征词分别在预设的倒排索引文件中进行查询。 0061 经过预处理及分词，待检测短信信息被转换为包含至少一个特征词的特征词集合，将特征词集合中每个特征词分别去倒排索引中查询。其中，可利用分布式计算技术分摊到多台计算机上进行查询，这样可以较好地降低查询的复杂度。例如待检测短信 ABxxx 被转换成特征词集合 A、 AB、 B，则针对分成的。

34、3 个特征词在一台服务器中进行 3 次查询，或者在三台服务器中同时进行 1 次查询。 0062 其中，进行查询时，垃圾短信监控系统需要设置倒排索引文件。倒排索引文件的形成原理在上述步骤 22 中已经详细阐述，这里不再赘述。 0063 较佳地，本发明实施例这里以垃圾短信样本为 AxxBxxCxxDxx 为例来详细阐述倒排索引文件的形成。说明书 CN 103813279 A 9 6/10 页 10 0064 步骤一，获得至少一个垃圾短信信息样本。 0065 其中，垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信记录以及用户举报、投诉的垃圾短信记录中获。

35、得。为便于阐述，本发明实施例这里以垃圾短信样本为 AxxBxxCxxDxx 为例来进行详细阐述。 0066 步骤二：对获得的垃圾短信样本 AxxBxxCxxDxx 进行预处理、分词，执行特征选择算法，提取其中表征垃圾短信的特征词、特征句子、特征符号等，并赋予相应的匹配权重。 0067 例如，垃圾短信样本 AxxBxxCxxDxx，其中，大写字母代表在很多垃圾短信中都普遍出现的典型字串（诸如 “发票” 、“中奖” 等词汇），而xx是不具备特征意义的字串（诸如：“是” 、 “我” 、“你” 这样的词汇）。通过分词和预处理，将 A、 B、 C、 D 这些。

36、特征字串从已知的垃圾短信信息中分析出来，将提取的特征词作为索引表属性，制作倒排索引文件。其中倒排索引表中的每一项包含一个特征此和具有该特征次的所有垃圾短信样本情况、该特征词同每一垃圾短信样本的匹配权重。匹配权重可以根据该垃圾短信样本本身重要程度、样本长度、出现特征词频次、出现位置等情况综合评价。如表 1 所示，给出以垃圾短信样本 AxxBxxCxxDxx 为例制作的倒排索引文件。 0068 表 1 0069 0070 说明书 CN 103813279 A 10 7/10 页 11 0071 形成的倒排索引文件可以载入到垃圾短信监控系统中，若垃圾短信监控系统采用。

37、分布式系统，则可以将形成的倒排索引文件同时载入到多个计算机中。形成的倒排索引文件可以根据垃圾短信样本数据库中存储的垃圾短信样本的变化而变化，从而实现定时或者随时更新。 0072 步骤 34，确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本数量和匹配权重。 0073 综合统计特征词集合中包含的各特词在进行倒排索引后，命中的垃圾短信信息样本数量及匹配权重，得到本条待检短信的垃圾短信评定分数。例如，根据表1，确定特征词集合 A、 AB、 B 的结果应当是： 0074 命中垃圾短信样本的样本数量： 6 0075 特征词集合的匹配权重： 3+3+3+3。

38、+3+5+3+2+3=28 0076 步骤 35，根据预设的评定指标确定该待检测短信是否是垃圾短信，并对该待检测短信采用对应的处理方式。说明书 CN 103813279 A 11 8/10 页 12 0077 其中，可以依据短信命中的垃圾短信样本数量、待检短信同垃圾短信样本的匹配权重等确定评定指标，评定指标可以由网优人员根据经验制定也可以通过自动文本分类算法计算得到。例如评定标准可以是： 0078 命中垃圾短信样本数量大于6且匹配权重大于20时，确定该待检测短信为垃圾短信，则对该短信实时进行封堵。 0079 命中垃圾短信样本数量大于 2，则将该待检测短信挂起，。

39、后续由网优人员进行人工审核，若判定不是垃圾短信，则放行，反之，确定该待检测短信为垃圾短信，则对该短信实时进行封堵。 0080 命中垃圾短信样本数量小于等于 2，确定该待检测短信不是垃圾短信，放行该短信。 0081 采用本发明实施例上述提出的技术方案，对于垃圾短信内容识别不再是简单的关键词匹配，而是结合了大量的垃圾短信样本进行多维度特征匹配，可以根据需要达到 “千万” 甚至更高量级，特征不仅可以是词，也可以是字、句子、符号等。现有关键词匹配算法，一般只简单分级后人为的制定在各种关键词命中情况下的处理策略，本发明实施例这里提出对技术方案不但可以人为制定，。

40、还可以通过分类算法根据所拥有垃圾短信样本经验动态制定处理策略，分类算法可以在样本更新、算法迭代过程中即时的更新处理策略，垃圾短信样本更新越快，检测系统对于垃圾短信发送者采取的新手段做出的反应也就越快。从而较好地提高了识别垃圾短信的准确性。现有技术中垃圾短信检测的技术方案，基于关键词识别策略属于静态策略，通过人工或计算机辅助制定关键词命中阈值，可配置的策略标准非常有限，容易被垃圾短信发送者通过试验测试套出策略，再应对策略制定变体短信。本发明实施例这里提出的技术方案，识别策略为动态策略，不存在某具体的阈值来决定垃圾短信的判别，而是通过综合特征评定识别垃圾。

41、短信，对于垃圾短信发送者来说，应对这种策略的难度很高，很难在短信内容表达不受影响的情况下将变体短信不被系统识别。另外，本发明实施例这里提出的技术方案，应对策略根据样本库更新即时更新，发送者即使采用了变体的手段，一旦变体短信被加入样本库参与特征训练，新的变体手段也会被识破不再有效。因此，本发明实施例这里提出的技术方案，可以有效的识别 “变体” 垃圾短信。 0082 相应地，本发明实施例这里还提出一种垃圾短信检测装置，如图 4 所示，包括： 0083 特征词集合确定模块 401，用于针对一个待检测短信，将所述待检测短信中包含的信息转换为包含至少一个特征词。

42、的特征词集合。 0084 具体地，上述特征词集合确定模块 401，具体用于将所述待检测短信中包含的信息经过预处理，转换为可识别的文本形式；基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至少一个特征词的特征词集合。 0085 查询模块 402，用于将特征词集合确定模块 401 确定出的所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询，确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重，其中所述倒排索引文件中包含特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，所述特征词是表征垃圾短信信。

43、息，所述垃圾短信信息样本是包含所述特征词的垃圾短信，所述匹配权重是特征词和垃圾短信信息样本的匹配程度。 0086 具体地，上述查询模块 402 还包括：说明书 CN 103813279 A 12 9/10 页 13 0087 索引子模块，用于建立倒排索引文件的索引子模块，其中所述倒排索引文件采用下述方式获得：获得至少一个垃圾短信信息样本；针对任一垃圾短信信息样本，基于特征选择算法确定表征该垃圾短信信息的特征词，并设置该特征词和所述垃圾短信信息样本的匹配权重；建立表征垃圾短信信息的特征词、垃圾短信信息样本和匹配权重三者之间的对应关系，形成倒排索引。

44、文件。 0088 其中，设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的一项或多项： 0089 根据垃圾短信信息样本的重要程度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中包含的信息长度，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的频次，设置特征词和所述垃圾短信信息样本的匹配权重；根据垃圾短信信息样本中出现特征词的位置信息，设置特征词和所述垃圾短信信息样本的匹配权重。 0090 具体地，上述查询模块 402，具体用于将所述特征词集合中包含的全部特征词进行划分，得到特征词分组，其中。

45、，所述特征词分组中包含的特征词均不相同；基于分布式计算方法，将得到的特征词分组在预设的倒排索引文件中进行查询。 0091 垃圾短信确定模块 403，用于根据索引模块 402 确定出的样本数量和匹配权重，确定所述待检测短信是否是垃圾短信。 0092 具体地，上述垃圾短信确定模块 403，具体用于若确定出的样本数量大于预设第一阈值，且匹配权重值大于预设第二阈值时，确定所述待检测短信是垃圾短信。 0093 具体地，上述垃圾短信确定模块 403，还用于对所述待检测短信进行拦截，并对发送所述待检测短信的终端进行拦截。 0094 本发明实施例上述提出的垃圾短信检测方法，。

46、是将获得的垃圾短信样本作为查找记录，将垃圾短信样本中的特征词、特征句、特征符号等作为属性，以此来形成倒排索引文件，根据行程的倒排索引文件对待检测短信进行垃圾短信的判定。这样，垃圾短信的识别过程不再逐关键词去匹配待检测短信，而是将待检测短信作为查询条件，通过倒排索引去匹配垃圾短信样本，根据匹配的结果实时判定垃圾短信。较佳地，本发明实施例中海引入了分布式计算算法，能够较好地提高查询速度。 0095 本发明实施例这里提出的技术方案，对待检测短信的识别过程中，与现有技术的区别在于：现有技术中采用系统关键词逐条匹配待检测短信，而本发明实施例这里提出的技。

47、术方案，采用待测检短信匹配行程的索引文件。基于查询次数来分析两种技术方案中的主要计算量：系统关键词的数量直接影响关键词识别方法计算时间，假设系统关键词为 1000 个，则基本的查询操作即需要 1000 次，随着系统关键词数量的提高，查询时间也随之升高。本发明实施例这里提出的技术方案中，主要计算量主要受待检测短信被预处理和分词后转换成的特征词集合规模影响，正常情况下，短信的长度一般不会超过 70 个字，即使每个字单独查询也只有 70 次基本查询。本发明实施例这里提出的技术方案的查询，所需计算量跟索引的大小有关，计算量较大但能够切分，可以通过上文所述分布式计算。

48、技术将计算量分摊到多台终端，这样，理论上只要增加足够多的计算终端每个查询的时间就不会受索引大小影响，时间会非常短。因此本发明实施例这里提出的技术方案，计算量较小，查询速度较快。说明书 CN 103813279 A 13 10/10 页 14 0096 本领域的技术人员应明白，本发明的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、 CD-ROM、光学存储。

49、器等）上实施的计算机程序产品的形式。 0097 本发明是参照根据本发明实施例的方法、装置（设备）和计算机程序产品的流程图和 / 或方框图来描述的。应理解可由计算机程序指令实现流程图和 / 或方框图中的每一流程和 / 或方框、以及流程图和 / 或方框图中的流程和 / 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 / 或方框图一个方框或多个方框中指定的功能的装置。 0098 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令。

展开阅读全文