《一种垃圾短信检测方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种垃圾短信检测方法及装置.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103813279 A (43)申请公布日 2014.05.21 CN 103813279 A (21)申请号 201210457592.0 (22)申请日 2012.11.14 H04W 4/14(2009.01) H04W 12/12(2009.01) G06F 17/30(2006.01) (71)申请人 中国移动通信集团设计院有限公司 地址 100080 北京市海淀区丹棱街甲 16 号 (72)发明人 丁志刚 肖子玉 (74)专利代理机构 北京同达信恒知识产权代理 有限公司 11291 代理人 郭润湘 (54) 发明名称 一种垃圾短信检测方法及装置 (57) 。
2、摘要 本发明公开了一种垃圾短信检测方法和装 置, 该方法包括 : 针对一个待检测短信, 将所述待 检测短信中包含的信息转换为包含至少一个特征 词的特征词集合 ; 将所述特征词集合中包含的每 个特征词分别在预设的倒排索引文件中进行查 询, 确定所述特征词集合与倒排索引文件中包含 的垃圾短信信息样本能够匹配的样本数量和匹配 权重, 根据确定出的样本数量和匹配权重, 确定所 述待检测短信是否是垃圾短信。能够较好地提高 识别垃圾短息的准确性、 提升垃圾短信检测的效 率、 实时性较好。 (51)Int.Cl. 权利要求书 3 页 说明书 10 页 附图 1 页 (19)中华人民共和国国家知识产权局 (1。
3、2)发明专利申请 权利要求书3页 说明书10页 附图1页 (10)申请公布号 CN 103813279 A CN 103813279 A 1/3 页 2 1. 一种垃圾短信检测方法, 其特征在于, 包括 : 针对一个待检测短信, 将所述待检测短信中包含的信息转换为包含至少一个特征词的 特征词集合 ; 将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询, 确定 所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配 权重, 其中所述倒排索引文件中包含特征词、 垃圾短信信息样本和匹配权重三者之间的对 应关系, 所述特征词是表征垃圾短信信息, 所述垃圾短信信息。
4、样本是包含所述特征词的垃 圾短信, 所述匹配权重是特征词和垃圾短信信息样本的匹配程度 ; 根据确定出的样本数量和匹配权重, 确定所述待检测短信是否是垃圾短信。 2. 如权利要求 1 所述的方法, 其特征在于, 将所述待检测短信中包含的信息转换为包 含至少一个特征词的特征词集合, 包括 : 将所述待检测短信中包含的信息经过预处理, 转换为可识别的文本形式 ; 基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转换为包含至 少一个特征词的特征词集合。 3. 如权利要求 1 所述的方法, 其特征在于, 所述倒排索引文件采用下述方式获得 : 获得至少一个垃圾短信信息样本 ; 针对任一垃圾短信。
5、信息样本, 基于特征选择算法确定表征该垃圾短信信息的特征词, 并设置该特征词和所述垃圾短信信息样本的匹配权重 ; 建立表征垃圾短信信息的特征词、 垃圾短信信息样本和匹配权重三者之间的对应关 系, 形成倒排索引文件。 4. 如权利要求 3 所述的方法, 其特征在于, 设置特征词和所述垃圾短信信息样本的匹 配权重的方法至少包括下述中的一项或多项 : 根据垃圾短信信息样本的重要程度, 设置特征词和所述垃圾短信信息样本的匹配权 重 ; 根据垃圾短信信息样本中包含的信息长度, 设置特征词和所述垃圾短信信息样本的匹 配权重 ; 根据垃圾短信信息样本中出现特征词的频次, 设置特征词和所述垃圾短信信息样本的 。
6、匹配权重 ; 根据垃圾短信信息样本中出现特征词的位置信息, 设置特征词和所述垃圾短信信息样 本的匹配权重。 5. 如权利要求 1 所述的方法, 其特征在于, 将所述特征词集合中包含的每个特征词分 别在预设的倒排索引文件中进行查询, 包括 : 将所述特征词集合中包含的全部特征词进行划分, 得到特征词分组, 其中, 所述特征词 分组中包含的特征词均不相同 ; 基于分布式计算方法, 将得到的特征词分组在预设的倒排索引文件中进行查询。 6. 如权利要求 1 所述的方法, 其特征在于, 根据确定出的样本数量和匹配权重, 确定所 述待检测短信是否是垃圾短信, 包括 : 若确定出的样本数量大于预设第一阈值,。
7、 且匹配权重值大于预设第二阈值时, 确定所 述待检测短信是垃圾短信。 权 利 要 求 书 CN 103813279 A 2 2/3 页 3 7. 如权利要求 6 所述的方法, 其特征在于, 在确定出所述待检测短信是垃圾短信之后, 还包括 : 对所述待检测短信进行拦截, 并对发送所述待检测短信的终端进行拦截。 8. 一种垃圾短信检测装置, 其特征在于, 包括 : 特征词集合确定模块, 用于针对一个待检测短信, 将所述待检测短信中包含的信息转 换为包含至少一个特征词的特征词集合 ; 查询模块, 用于将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中 进行查询, 确定所述特征词集合与倒排索。
8、引文件中包含的垃圾短信信息样本能够匹配的样 本数量和匹配权重, 其中所述倒排索引文件中包含特征词、 垃圾短信信息样本和匹配权重 三者之间的对应关系, 所述特征词是表征垃圾短信信息, 所述垃圾短信信息样本是包含所 述特征词的垃圾短信, 所述匹配权重是特征词和垃圾短信信息样本的匹配程度 ; 垃圾短信确定模块, 用于根据索引模块确定出的样本数量和匹配权重, 确定所述待检 测短信是否是垃圾短信。 9. 如权利要求 8 所述的装置, 其特征在于, 所述特征词集合确定模块, 具体用于将所述 待检测短信中包含的信息经过预处理, 转换为可识别的文本形式 ; 基于分词算法将转换为 可识别的文本形式的待检测短信中。
9、包含的信息转换为包含至少一个特征词的特征词集合。 10. 如权利要求 8 所述的装置, 其特征在于, 所述查询模块, 还包括 : 索引子模块, 用于建立倒排索引文件的索引子模块, 其中所述倒排索引文件采用下述 方式获得 : 获得至少一个垃圾短信信息样本 ; 针对任一垃圾短信信息样本, 基于特征选择 算法确定表征该垃圾短信信息的特征词, 并设置该特征词和所述垃圾短信信息样本的匹配 权重 ; 建立表征垃圾短信信息的特征词、 垃圾短信信息样本和匹配权重三者之间的对应关 系, 形成倒排索引文件。 11. 如权利要求 10 所述的装置, 其特征在于, 设置特征词和所述垃圾短信信息样本的 匹配权重的方法至。
10、少包括下述中的一项或多项 : 根据垃圾短信信息样本的重要程度, 设置特征词和所述垃圾短信信息样本的匹配权 重 ; 根据垃圾短信信息样本中包含的信息长度, 设置特征词和所述垃圾短信信息样本的匹 配权重 ; 根据垃圾短信信息样本中出现特征词的频次, 设置特征词和所述垃圾短信信息样本的 匹配权重 ; 根据垃圾短信信息样本中出现特征词的位置信息, 设置特征词和所述垃圾短信信息样 本的匹配权重。 12. 如权利要求 8 所述的装置, 其特征在于, 所述查询模块, 具体用于将所述特征词集 合中包含的全部特征词进行划分, 得到特征词分组, 其中, 所述特征词分组中包含的特征词 均不相同 ; 基于分布式计算方。
11、法, 将得到的特征词分组在预设的倒排索引文件中进行查询。 13. 如权利要求 8 所述的装置, 其特征在于, 所述垃圾短信确定模块, 具体用于若确定 出的样本数量大于预设第一阈值, 且匹配权重值大于预设第二阈值时, 确定所述待检测短 信是垃圾短信。 14. 如权利要求 8 所述的装置, 其特征在于, 所述垃圾短信确定模块, 还用于对所述待 权 利 要 求 书 CN 103813279 A 3 3/3 页 4 检测短信进行拦截, 并对发送所述待检测短信的终端进行拦截。 权 利 要 求 书 CN 103813279 A 4 1/10 页 5 一种垃圾短信检测方法及装置 技术领域 0001 本发明涉。
12、及垃圾短信过滤方法技术领域, 尤其是涉及一种垃圾短信检测方法及装 置。 背景技术 0002 随着无线通信网络的不断发展, 用户在享受各种业务带来方便的同时, 也受到不 法分子发送的垃圾短信的困扰。 0003 目前, 垃圾短信的检测主要通过两种方法来实现 : 一种方式是通过短信的发送行 为来实现垃圾短信检测, 主要包括通过短信发送频次特征、 短信被叫号码规律特征、 短信主 叫号码规律特征等发现垃圾短信。另一种方式是通过内容识别的方式来实现垃圾短信检 测, 一般采用预先指定的非法关键词匹配策略来实现垃圾短信检测。 0004 其中, 通过内容识别的方式来实现垃圾短信检测, 如图 1 所示, 其处理流。
13、程如下 述 : 0005 步骤 11, 确定垃圾短信关键词集合。 0006 其中, 确定垃圾短信关键词集合主要有两种方式 : 0007 第一种方式 : 收集垃圾短信样本, 采用手工或计算机数据挖掘方式, 在手机的垃圾 短信样本中提炼垃圾短信的特征词。 0008 第二种方式 : 网维人员根据经验人为制定一些应限制在短信中传播的词汇。 0009 根据上述两种方式确定的垃圾短信关键词, 确定垃圾短信管检测集合。 0010 步骤 12, 将确定出的垃圾短信关键词集合做适当分级后载入垃圾短信监控系统 中, 并在垃圾短信监控系统中设定短信在命中各级关键词、 各种命中频次、 命中组合情况 下应采取的处理策略。
14、等等。 0011 步骤 13, 垃圾短信监控系统每收到一条送检的短信, 用每一级系统关键词逐词与 该短信进行匹配, 记录该短信对每一条关键词的命中情况。 0012 步骤 14, 垃圾短信监控系统根据待检测短信对关键词的命中情况, 遵照预设的处 理策略, 确定该短信是否是垃圾短信。 0013 现有技术中基于内容识别方法来实现垃圾短信的检测, 主要存下述两种缺陷 : 0014 第一种缺陷 : 对垃圾短信的识别准确率较低, 例如关键词处理策略设置严格容易 造成大量误拦截, 处理策略设置宽松又无法起到有效的拦截效果。关键词处理策略容易被 垃圾短信传播者识破, 进而通过编辑 “变体” 垃圾短信使系统无法。
15、识别, 手段诸如 : 用同义词 替代关键词、 在关键词中间填加特殊符号、 利用同音字代替等。 0015 第二种缺陷 : 垃圾短信检测的效率低下、 实时性较差。对于待检测的短信, 需要将 该短信内容与垃圾短信监控系统中设置的所有关键词逐次匹配, 如果关键词数量较少, 相 应的关键词匹配处理可以在短时间完成, 相反如果关键词数量增加到较高量级, 考虑逐词 索引的线性计算增量、 及根据命中情况匹配处理方法时增加的平方级计算消耗, 处理每一 条待检短信所需时间可能达到小量关键词情况下的数倍。 说 明 书 CN 103813279 A 5 2/10 页 6 0016 综上所述, 现有技术中垃圾短信检测方。
16、法准确性较低、 垃圾短信检测的效率低下、 实时性较差。 发明内容 0017 本发明实施例提供了一种垃圾短信检测方法及装置, 能够较好地提高识别垃圾短 息的准确性、 提升垃圾短信检测的效率、 实时性较好。 0018 一种垃圾短信检测方法, 包括 : 针对一个待检测短信, 将所述待检测短信中包含的 信息转换为包含至少一个特征词的特征词集合 ; 将所述特征词集合中 包含的每个特征词 分别在预设的倒排索引文件中进行查询, 确定所述特征词集合与倒排索引文件中包含的垃 圾短信信息样本能够匹配的样本数量和匹配权重, 其中所述倒排索引文件中包含特征词、 垃圾短信信息样本和匹配权重三者之间的对应关系, 所述特征。
17、词是表征垃圾短信信息, 所 述垃圾短信信息样本是包含所述特征词的垃圾短信, 所述匹配权重是特征词和垃圾短信信 息样本的匹配程度 ; 根据确定出的样本数量和匹配权重, 确定所述待检测短信是否是垃圾 短信。 0019 一种垃圾短信检测装置, 包括 : 特征词集合确定模块, 用于针对一个待检测短信, 将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合 ; 查询模块, 用 于将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进行查询, 确定所 述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权 重, 其中所述倒排索引文件中包含特征词、 垃圾短信信息样本。
18、和匹配权重三者之间的对应 关系, 所述特征词是表征垃圾短信信息, 所述垃圾短信信息样本是包含所述特征词的垃圾 短信, 所述匹配权重是特征词和垃圾短信信息样本的匹配程度。 0020 采用上述技术方案, 针对一个待检测短信, 将该待检测短信中包含的信息转换为 包含至少一个特征词的特征词集合, 然后将特征词集合中的每个特征词分别进行查询, 根 据查询结果, 确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的样本 数量和匹配权重, 最后确定待检测短信是否是垃圾短信。对于垃圾短信内容识别不再是简 单的关键词匹配, 而是结合了大量的垃圾短信样本多维度特征匹配, 提高了识别垃圾短信 的准确性。并。
19、且基于倒排索引的方式, 也能够较好地提升垃圾短信检测的效率、 实时性较 好。 附图说明 0021 图 1 为现有技术中, 提出的基于内容识别的方式来实现垃圾短信检测的方法流程 图 ; 0022 图 2 为本发明实施例中, 提出的垃圾短信检测方法流程图 ; 0023 图 3 为本发明实施例中, 提出的垃圾短信检测装置结构组成示意图 ; 0024 图 4 为本发明实施例中, 提出的垃圾短信检测方法的原理示意图。 具体实施方式 0025 针对现有技术中垃圾短信检测时存在的准确性较低、 垃圾短信检测的效率低下、 实时性较差的问题, 本发明实施例这里提出的技术方案, 针对一个待检测短信, 将该待检测 说。
20、 明 书 CN 103813279 A 6 3/10 页 7 短信中包含的信息转换为包含至少一个特征词的特征词集合然后将特征词集合中的每个 特征词分别进行查询, 根据查询结果, 确定所述特征词集合与倒排索引文件中包含的垃圾 短信样本能够匹配的样本数量和匹配权重, 最后确定待检测短信是否是垃圾短信, 对于垃 圾短信内容识别不再是简单的关键词匹配, 而是结合了大量的垃圾短信样本多维度特征匹 配, 提高了识别垃圾短信的准确性。并且基于倒排索引文件进行查询的方式, 识别速度较 快, 对系统性能要求也比较低, 较好地提升垃圾短信检测的效率、 实时性较好。 0026 下面将结合各个附图对本发明实施例技术方。
21、案的主要实现原理、 具体实施方式及 其对应能够达到的有益效果进行详细地阐述。 0027 本发明实施例这里提出一种垃圾短信检测方法, 如图 2 所示, 其具体处理流程如 下述 : 0028 步骤 21, 针对一个待检测短信, 将所述待检测短信中包含的信息转换为包含至少 一个特征词的特征词集合。 0029 其中, 将所述待检测短信中包含的信息转换为包含至少一个特征词的特征词集合 可以通过下述步骤来实现 : 0030 步骤一 : 将所述待检测短信中包含的信息经过预处理, 转换为可识别的文本形式。 0031 其中, 在对待检测短信信息进行整理, 将待检测短信的信息转换为可识别的文本 形式, 这种方式也。
22、可以称之为预处理。例如 : 将待检测短信中包含的文 本编码调整为可识 别的形式, 去掉信息中包含的无法识别的乱码等。 0032 较佳地, 由于垃圾短信中经常被不法分子采用一些 “变体” 手段发送垃圾短信, 即 在垃圾短信信息中加入特殊符号, 在进行预处理过程时, 可以在预处理过程中加入 “反变体 算法” 去除待检测短信信息中出现的不合理符号、 同义词转换等。例如 : 将待检测短信信息 中包含的 “发 * 票” , 经过预处理可以转换成为 “发票” 。这样, 可以进一步地提高识别垃圾 短信的准确性。 0033 步骤二 : 基于分词算法将转换为可识别的文本形式的待检测短信中包含的信息转 换为包含至。
23、少一个特征词的特征词集合。 0034 其中, 分词可以通过计算机执行自动分词算法来完成。分词算法可以但不限于是 基于词典的方法、 基于统计的方法或者基于规则的方法等等。 现有技术中, 分词算法不但能 够将已知的词汇从文本中分出来, 还能够利用语言的语法、 语义特征从文本中发现新的词 汇 (未登录词) 。其中, 英文是以词为单位的, 词和词之间是基于空格隔开, 将英文中的词进 行切分, 成为有意义的词组, 就是英文分词。而中文是以字为单位, 句子中所有的字连起来 可以表达一个含义。将中文的汉字序列切分成有意义的词, 就是中文分词。具体实施过程 中, 有些语言本身包含的词就是分开的, 但从广义的概。
24、念来讲, 无论什么语言, 都有分词的 概念。例如 : 英文中, 需要把句子分成有意义的词组。各种语言混合、 甚至包含各种特殊符 号的文本, 也需要将其中具有独立的意义的单元分开。该些处理方式均定义为分词。 0035 步骤 22, 将所述特征词集合中包含的每个特征词分别在预设的倒排索引文件中进 行查询, 确定所述特征词集合与倒排索引文件中包含的垃圾短信信息样本能够匹配的样本 数量和匹配权重。 0036 其中所述倒排索引文件中包含特征词、 垃圾短信信息样本和匹配权重三者之间的 对应关系, 所述特征词是表征垃圾短信信息, 所述垃圾短信信息样本是包含所述特征词的 说 明 书 CN 103813279 。
25、A 7 4/10 页 8 垃圾短信, 所述匹配权重是特征词和垃圾短信信息样本的匹配程度。 0037 较佳地, 还可以将所述特征词集合中包含的全部特征词进行划分, 得到特征词分 组, 其中, 所述特征词分组中包含的特征词均不相同, 基于分布式计算方法, 将得到的特征 词分组在预设的倒排索引文件中进行查询。 0038 其中, 可以对特征词集合中包含的全部特征词按照一定的分类文本集按照一定的 分类体系或标准进行自动分类标记, 其具体实施方式可以是根据待分类特征词的某些特征 来进行匹配, 可以根据预设的评价评价标准选择最优的匹配结果, 从而完成特征词的分类。 0039 其中, 在将全部特征词进行划分之。
26、后, 可以基于分布式计算方法, 将得到的特征词 分组在预设的倒排索引文件中进行查询。具体地, 分布式算法是关于如何将一个需要非常 巨大的计算能力才能解决的问题分成许多小的部分, 然后把这些部分分配给许多计算机进 行处理, 最后把这些计算结果综合起来得到最终的结果。本发明实施例这里提出的技术方 案中, 在待检测短信的数量比较多的情况下, 进行特征词索引时, 计算量较大。仅仅由单个 的终端或是个人在一个较佳的时间内计算完成的可能性较低。但是进行特征词查询时, 划分得到的全部特征词可以划分为计算片断, 服务端负责将计算问题分成许多小的计算部 分, 然后把这些部分分配给许多联网参与计算的计算机进行并行。
27、处理, 最后将这些计算结 果综合起来得到最终的结果。 例如, 现有技术中垃圾短信监控系统中, 用于实时监控垃圾短 信的关键词及关键词条数容量最高仅能达到 “几千” 数量级。基于此, 可以采用分布式计算 方法, 同时设置多个服务器, 每个服务器上均设置倒排索引文件, 将预处理得到的特征词集 合划分为多个组别, 然后将得到的特征词分组分配给多个计算机并行处理, 从而得到查询 结果。 0040 其中, 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的 每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性 值, 而是由属性值来确定记录的位置, 因而称为倒排索引。。
28、 带有倒排索引的文件称为倒排索 引文件, 简称倒排文件。倒排索引的优点是可以根据指定的属性值很快的从较多的记录中 搜索出匹配属性值的相关记录。 要把 文本文档样本库设置为倒排索引, 首先需要确定文本 文档中需要将哪些词或哪些字、 哪些句子、 甚至哪些段落、 哪些符号作为索引的属性, 也要 确定哪些属性是重要的, 哪些是次要的。这些属性可以人为制定、 也可以通过 “特征选择” 算法得到。例如代词、 介词等虚词一般不作为属性被索引, 一般有意义的实词 (如名词) 、 词 组、 流行的句子会作为属性被索引, 但并不是每一个名词都被索引, 属性被赋予的重要程度 也不一样, 到底哪些应该索引, 需要通过。
29、特征算法得出。特征选择算法一般不是静态算法, 是机器学习的过程, 随着样本库更新, 算法多轮迭代及特征参数修正, 算法得到的特征会更 新, 随着样本库逐渐扩大、 迭代次数增加, 特征选择的结果也越能真实的代表文本。 0041 具体地, 本发明实施例这里提出的倒排索引文件可以采用下述方式获得 : 0042 步骤一 : 获得至少一个垃圾短信信息样本。 0043 其中, 垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信 记录以及用户举报、 投诉的垃圾短信记录中获得。 0044 步骤二 : 针对任一垃圾短信信息样本, 基于特征选择算法确定表征该垃圾短信信 息的特征词, 并设置该特征词和。
30、所述垃圾短信信息样本的匹配权重。 0045 其中, 对获得的每个垃圾短信信息样本中进行分词、 预处理, 执行特征选择算法, 说 明 书 CN 103813279 A 8 5/10 页 9 提取其中表征垃圾短信的特征词、 特征句子、 特征符号等, 并赋予特征相应的匹配权重。 0046 具体地, 设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中 的一种或者多种 : 0047 第一种 : 根据垃圾短信信息样本的重要程度, 设置特征词和所述垃圾短信信息样 本的匹配权重。 0048 第二种 : 根据垃圾短信信息样本中包含的信息长度, 设置特征词和所述垃圾短信 信息样本的匹配权重。 0049。
31、 第三种 : 根据垃圾短信信息样本中出现特征词的频次, 设置特征词和所述垃圾短 信信息样本的匹配权重 ; 0050 第四种 : 根据垃圾短信信息样本中出现特征词的位置信息, 设置特征词和所述垃 圾短信信息样本的匹配权重。 0051 步骤三 : 建立表征垃圾短信信息的特征词、 垃圾短信信息样本和匹配权重三者之 间的对应关系, 形成倒排索引文件。 0052 其中, 可以将表征垃圾短信信息的特征词作为倒排索引文件的属性。倒排索引文 件可以但不限于是表格的形式。索引表中每一项包含表征垃圾短信信息的特征词、 垃圾短 信信息样本和匹配权重三者之间的对应关系。 0053 步骤 23, 根据确定出的样本数量和。
32、匹配权重, 确定所述待检测短信是否是垃圾短 信。 0054 若确定出的样本数量大于预设第一阈值, 且匹配权重值大于预设第二阈值时, 确 定所述待检测短信是垃圾短信。 0055 较佳地, 在确定出待检测短信是垃圾短信之后还可以对所述待检测短信进行拦 截, 并对发送所述待检测短信的终端进行拦截。 0056 下面以一具体实例对上述垃圾短信检测方法进行详细阐述, 这里假设接收到待检 测短信内容为 ABxxx, 如图 3 所示, 具体处理过程如下述 : 0057 步骤 31, 接收到待检测短信 ABxxx。 0058 步骤 32, 将接收到的待检测短信 ABxxx 依次进行分词、 预处理操作, 将该待检。
33、测短 信中包含的信息 ABxxx 转换为包含至少一个特征词的特征词集合。 0059 例如, 将接收到的待检测短信包含的信息 ABxxx 转为为特征词集合 A、 AB、 B。 0060 步骤 33, 将特征词集合 A、 AB、 B 中包含的每个特征词分别在预设的倒排索引文 件中进行查询。 0061 经过预处理及分词, 待检测短信信息被转换为包含至少一个特征词的特征词集 合, 将特征词集合中每个特征词分别去倒排索引中查询。 其中, 可利用分布式计算技术分摊 到多台计算机上进行查询, 这样可以较好地降低查询的复杂度。例如待检测短信 ABxxx 被 转换成特征词集合 A、 AB、 B, 则针对分成的 。
34、3 个特征词在一台服务器中进行 3 次查询, 或 者在三台服务器中同时进行 1 次查询。 0062 其中, 进行查询时, 垃圾短信监控系统需要设置倒排索引文件。 倒排索引文件的形 成原理在上述步骤 22 中已经详细阐述, 这里不再赘述。 0063 较佳地, 本发明实施例这里以垃圾短信样本为 AxxBxxCxxDxx 为例来详细阐述倒 排索引文件的形成。 说 明 书 CN 103813279 A 9 6/10 页 10 0064 步骤一, 获得至少一个垃圾短信信息样本。 0065 其中, 垃圾短信信息样本可以在现有技术中的垃圾短信监控系统拦截的垃圾短信 记录以及用户举报、 投诉的垃圾短信记录中获。
35、得。 为便于阐述, 本发明实施例这里以垃圾短 信样本为 AxxBxxCxxDxx 为例来进行详细阐述。 0066 步骤二 : 对获得的垃圾短信样本 AxxBxxCxxDxx 进行预处理、 分词, 执行特征选择 算法, 提取其中表征垃圾短信的特征词、 特征句子、 特征符号等, 并赋予相应的匹配权重。 0067 例如, 垃圾短信样本 AxxBxxCxxDxx, 其中, 大写字母代表在很多垃圾短信中都普遍 出现的典型字串 (诸如 “发票” 、“中奖” 等词汇) , 而xx是不具备特征意义的字串 (诸如 :“是” 、 “我” 、“你” 这样的词汇) 。通过分词和预处理, 将 A、 B、 C、 D 这些。
36、特征字串从已知的垃圾短信 信息中分析出来, 将提取的特征词作为索引表属性, 制作倒排索引文件。 其中倒排索引表中 的每一项包含一个特征此和具有该特征次的所有垃圾短信样本情况、 该特征词同每一垃圾 短信样本的匹配权重。 匹配权重可以根据该垃圾短信样本本身重要程度、 样本长度、 出现特 征词频次、 出现位置等情况综合评价。如表 1 所示, 给出以垃圾短信样本 AxxBxxCxxDxx 为 例制作的倒排索引文件。 0068 表 1 0069 0070 说 明 书 CN 103813279 A 10 7/10 页 11 0071 形成的倒排索引文件可以载入到垃圾短信监控系统中, 若垃圾短信监控系统采用。
37、 分布式系统, 则可以将形成的倒排索引文件同时载入到多个计算机中。形成的倒排索引文 件可以根据垃圾短信样本数据库中存储的垃圾短信样本的变化而变化, 从而实现定时或者 随时更新。 0072 步骤 34, 确定所述特征词集合与倒排索引文件中包含的垃圾短信样本能够匹配的 样本数量和匹配权重。 0073 综合统计特征词集合中包含的各特词在进行倒排索引后, 命中的垃圾短信信息样 本数量及匹配权重, 得到本条待检短信的垃圾短信评定分数。 例如, 根据表1, 确定特征词集 合 A、 AB、 B 的结果应当是 : 0074 命中垃圾短信样本的样本数量 : 6 0075 特征词集合的匹配权重 : 3+3+3+3。
38、+3+5+3+2+3=28 0076 步骤 35, 根据预设的评定指标确定该待检测短信是否是垃圾短信, 并对该待检测 短信采用对应的处理方式。 说 明 书 CN 103813279 A 11 8/10 页 12 0077 其中, 可以依据短信命中的垃圾短信样本数量、 待检短信同垃圾短信样本的匹配 权重等确定评定指标, 评定指标可以由网优人员根据经验制定也可以通过自动文本分类算 法计算得到。例如评定标准可以是 : 0078 命中垃圾短信样本数量大于6且匹配权重大于20时, 确定该待检测短信为垃圾短 信, 则对该短信实时进行封堵。 0079 命中垃圾短信样本数量大于 2, 则将该待检测短信挂起, 。
39、后续由网优人员进行人工 审核, 若判定不是垃圾短信, 则放行, 反之, 确定该待检测短信为垃圾短信, 则对该短信实时 进行封堵。 0080 命中垃圾短信样本数量小于等于 2, 确定该待检测短信不是垃圾短信, 放行该短 信。 0081 采用本发明实施例上述提出的技术方案, 对于垃圾短信内容识别不再是简单的 关键词匹配, 而是结合了大量的垃圾短信样本进行多维度特征匹配, 可以根据需要达到 “千万” 甚至更高量级, 特征不仅可以是词, 也可以是字、 句子、 符号等。现有关键词匹配算 法, 一般只简单分级后人为的制定在各种关键词命中情况下的处理策略, 本发明实施例这 里提出对技术方案不但可以人为制定,。
40、 还可以通过分类算法根据所拥有垃圾短信样本经验 动态制定处理策略, 分类算法可以在样本更新、 算法迭代过程中即时的更新处理策略, 垃圾 短信样本更新越快, 检测系统对于垃圾短信发送者采取的新手段做出的反应也就越快。从 而较好地提高了识别垃圾短信的准确性。现有技术中垃圾短信检测的技术方案, 基于关键 词识别策略属于静态策略, 通过人工或计算机辅助制定关键词命中阈值, 可配置的策略标 准非常有限, 容易被垃圾短信发送者通过试验测试套出策略, 再应对策略制定变体短信。 本 发明实施例这里提出的技术方案, 识别策略 为动态策略, 不存在某具体的阈值来决定垃圾 短信的判别, 而是通过综合特征评定识别垃圾。
41、短信, 对于垃圾短信发送者来说, 应对这种策 略的难度很高, 很难在短信内容表达不受影响的情况下将变体短信不被系统识别。 另外, 本 发明实施例这里提出的技术方案, 应对策略根据样本库更新即时更新, 发送者即使采用了 变体的手段, 一旦变体短信被加入样本库参与特征训练, 新的变体手段也会被识破不再有 效。因此, 本发明实施例这里提出的技术方案, 可以有效的识别 “变体” 垃圾短信。 0082 相应地, 本发明实施例这里还提出一种垃圾短信检测装置, 如图 4 所示, 包括 : 0083 特征词集合确定模块 401, 用于针对一个待检测短信, 将所述待检测短信中包含的 信息转换为包含至少一个特征词。
42、的特征词集合。 0084 具体地, 上述特征词集合确定模块 401, 具体用于将所述待检测短信中包含的信息 经过预处理, 转换为可识别的文本形式 ; 基于分词算法将转换为可识别的文本形式的待检 测短信中包含的信息转换为包含至少一个特征词的特征词集合。 0085 查询模块 402, 用于将特征词集合确定模块 401 确定出的所述特征词集合中包含 的每个特征词分别在预设的倒排索引文件中进行查询, 确定所述特征词集合与倒排索引文 件中包含的垃圾短信信息样本能够匹配的样本数量和匹配权重, 其中所述倒排索引文件中 包含特征词、 垃圾短信信息样本和匹配权重三者之间的对应关系, 所述特征词是表征垃圾 短信信。
43、息, 所述垃圾短信信息样本是包含所述特征词的垃圾短信, 所述匹配权重是特征词 和垃圾短信信息样本的匹配程度。 0086 具体地, 上述查询模块 402 还包括 : 说 明 书 CN 103813279 A 12 9/10 页 13 0087 索引子模块, 用于建立倒排索引文件的索引子模块, 其中所述倒排索引文件采用 下述方式获得 : 获得至少一个垃圾短信信息样本 ; 针对任一垃圾短信信息样本, 基于特征 选择算法确定表征该垃圾短信信息的特征词, 并设置该特征 词和所述垃圾短信信息样本 的匹配权重 ; 建立表征垃圾短信信息的特征词、 垃圾短信信息样本和匹配权重三者之间的 对应关系, 形成倒排索引。
44、文件。 0088 其中, 设置特征词和所述垃圾短信信息样本的匹配权重的方法至少包括下述中的 一项或多项 : 0089 根据垃圾短信信息样本的重要程度, 设置特征词和所述垃圾短信信息样本的匹配 权重 ; 根据垃圾短信信息样本中包含的信息长度, 设置特征词和所述垃圾短信信息样本的 匹配权重 ; 根据垃圾短信信息样本中出现特征词的频次, 设置特征词和所述垃圾短信信息 样本的匹配权重 ; 根据垃圾短信信息样本中出现特征词的位置信息, 设置特征词和所述垃 圾短信信息样本的匹配权重。 0090 具体地, 上述查询模块 402, 具体用于将所述特征词集合中包含的全部特征词进行 划分, 得到特征词分组, 其中。
45、, 所述特征词分组中包含的特征词均不相同 ; 基于分布式计算 方法, 将得到的特征词分组在预设的倒排索引文件中进行查询。 0091 垃圾短信确定模块 403, 用于根据索引模块 402 确定出的样本数量和匹配权重, 确 定所述待检测短信是否是垃圾短信。 0092 具体地, 上述垃圾短信确定模块 403, 具体用于若确定出的样本数量大于预设第一 阈值, 且匹配权重值大于预设第二阈值时, 确定所述待检测短信是垃圾短信。 0093 具体地, 上述垃圾短信确定模块 403, 还用于对所述待检测短信进行拦截, 并对发 送所述待检测短信的终端进行拦截。 0094 本发明实施例上述提出的垃圾短信检测方法, 。
46、是将获得的垃圾短信样本作为查找 记录, 将垃圾短信样本中的特征词、 特征句、 特征符号等作为属性, 以此来形成倒排索引文 件, 根据行程的倒排索引文件对待检测短信进行垃圾短信的判定。 这样, 垃圾短信的识别过 程不再逐关键词去匹配待检测短信, 而是将待检测短信作为查询条件, 通过倒排索引去匹 配垃圾短信样本, 根据匹配的结果实时判定垃圾短信。 较佳地, 本发明实施例中海引入了分 布式计算算法, 能 够较好地提高查询速度。 0095 本发明实施例这里提出的技术方案, 对待检测短信的识别过程中, 与现有技术的 区别在于 : 现有技术中采用系统关键词逐条匹配待检测短信, 而本发明实施例这里提出的 技。
47、术方案, 采用待测检短信匹配行程的索引文件。基于查询次数来分析两种技术方案中 的主要计算量 : 系统关键词的数量直接影响关键词识别方法计算时间, 假设系统关键词为 1000 个, 则基本的查询操作即需要 1000 次, 随着系统关键词数量的提高, 查询时间也随之 升高。本发明实施例这里提出的技术方案中, 主要计算量主要受待检测短信被预处理和分 词后转换成的特征词集合规模影响, 正常情况下, 短信的长度一般不会超过 70 个字, 即使 每个字单独查询也只有 70 次基本查询。本发明实施例这里提出的技术方案的查询, 所需计 算量跟索引的大小有关, 计算量较大但能够切分, 可以通过上文所述分布式计算。
48、技术将计 算量分摊到多台终端, 这样, 理论上只要增加足够多的计算终端每个查询的时间就不会受 索引大小影响, 时间会非常短。因此本发明实施例这里提出的技术方案, 计算量较小, 查询 速度较快。 说 明 书 CN 103813279 A 13 10/10 页 14 0096 本领域的技术人员应明白, 本发明的实施例可提供为方法、 装置 (设备) 、 或计算机 程序产品。因此, 本发明可采用完全硬件实施例、 完全软件实施例、 或结合软件和硬件方面 的实施例的形式。而且, 本发明可采用在一个或多个其中包含有计算机可用程序代码的计 算机可用存储介质 (包括但不限于磁盘存储器、 CD-ROM、 光学存储。
49、器等) 上实施的计算机程 序产品的形式。 0097 本发明是参照根据本发明实施例的方法、 装置 (设备) 和计算机程序产品的流程图 和 / 或方框图来描述的。应理解可由计算机程序指令实现流程图和 / 或方框图中的每一流 程和 / 或方框、 以及流程图和 / 或方框图中的流程和 / 或方框的结合。可提供这些计算机 程序指令到通用计算机、 专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理器 以产生一个机器, 使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用 于实现在流程图一个流程或多个流程和 / 或方框图一个方框或多个方框中指定的功能的 装置。 0098 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中, 使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品, 该指令。