《一种垃圾短信过滤方法、系统、移动终端以及云服务器.pdf》由会员分享,可在线阅读,更多相关《一种垃圾短信过滤方法、系统、移动终端以及云服务器.pdf(22页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104284306 A (43)申请公布日 2015.01.14 CN 104284306 A (21)申请号 201310279728.8 (22)申请日 2013.07.04 H04W 4/14(2009.01) H04L 29/08(2006.01) G06F 17/30(2006.01) (71)申请人 北京壹人壹本信息科技有限公司 地址 101105 北京市通州区聚富南路 8 号 1 幢 1 层 01 (72)发明人 何通庆 郭伟 方礼勇 杜国楹 (74)专利代理机构 深圳市威世博知识产权代理 事务所 ( 普通合伙 ) 44280 代理人 何青瓦 (54) 。
2、发明名称 一种垃圾短信过滤方法、 系统、 移动终端以及 云服务器 (57) 摘要 本发明实施方式公开了一种垃圾短信过滤方 法, 包括 : 移动终端根据其存储的分类词库对待 处理短信进行分类以获得分类结果, 当分类结果 被判定为错误的分类结果且移动终端接收到对 应错误的分类结果的上传指令时, 移动终端将分 类错误信息上传到云服务器以更新与移动终端对 应的私有短信训练集, 移动终端获得云服务器的 词库更新信息以同步更新移动终端存储的分类词 库。 本发明实施方式还公开了一种移动终端、 云服 务器、 垃圾短信过滤系统。通过上述方式, 本发明 能够提高移动终端对垃圾短信的过滤效率, 使垃 圾短信的过滤具。
3、有个性化。 (51)Int.Cl. 权利要求书 3 页 说明书 14 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书14页 附图4页 (10)申请公布号 CN 104284306 A CN 104284306 A 1/3 页 2 1. 一种垃圾短信过滤方法, 其特征在于, 包括 : 移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果, 其中, 所述 分类结果为垃圾短信或非垃圾短信 ; 当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结 果的上传指令时, 所述移动终端将分类错误信息上传到云服务器以更新与所述移。
4、动终端对 应的私有短信训练集, 其中, 所述分类错误信息包括待处理短信以及错误的分类结果 ; 所述移动终端获得云服务器的词库更新信息以同步更新所述移动终端存储的分类词 库, 其中, 所述词库更新信息为在云服务器存储的与移动终端对应的私有短信训练集和 / 或公有短信训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述移动终端根据其存储的分类词库对 待处理短信进行分类以获得分类结果的步骤具体包括 : 所述移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则 特征 ; 所述移动终端将分类词库中存储的垃圾短信所占。
5、的比例 P(C1)、 非垃圾短信所占的比 例 P(C2)、 单词特征以及规则特征在垃圾短信中的匹配概率 P(xk|C1) 以及非垃圾短信中的 匹配概率 P(xk|C2) 代入贝叶斯分类公式中, 以获得所述待处理短信属于垃圾短信的概率 P(C1|X), 所述贝叶斯分类公式具体如下所示 : 所述移动终端获得待处理短信属于非垃圾短信的概率 P(C2|X), 具体如下所示 : P(C2|X)=1-P(C1|X) 所述移动终端获得待处理短信的分类结果, 其中, 当 P(C1|X)P(C2|X) 时则所述待处理 短信属于垃圾短信, 否则所述待处理短信属于非垃圾短信。 3. 根据权利要求 2 所述的方法, 。
6、其特征在于, 在所述移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规 则特征的步骤之前还包括 : 所述移动终端判断待处理短信的发送者号码是否在与移动终端对应的私有黑白名单 中, 其中, 当所述发送者号码在与移动终端对应的私有黑名单中时则所述待处理短信属于 垃圾短信, 当所述发送者号码在与移动终端对应的私有白名单中时则所述待处理短信属于 非垃圾短信 ; 当所述发送者号码不在与移动终端对应的私有黑白名单中时, 所述移动终端继续判断 发送者号码是否在公有黑白名单中, 其中, 当所述发送者号码在公有黑名单中时则所述待 处理短信属于垃圾短信, 当所述发送者号码在公有白名单中时则所述待处。
7、理短信属于非垃 圾短信 ; 当所述发送者号码不在公有黑白名单中时, 所述移动终端执行所述对待处理短信进行 预处理以获得待处理短信对应的单词特征以及规则特征的步骤。 4. 根据权利要求 3 所述的方法, 其特征在于, 权 利 要 求 书 CN 104284306 A 2 2/3 页 3 当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结 果的上传指令时, 所述移动终端上传到云服务器的分类错误信息还包括待处理短信的发送 者号码, 所述移动终端将发送者号码上传到云服务器以判断是否将发送者号码加入所述云 服务器存储的与移动终端对应的私有黑白名单和 / 或公有黑白名单中 ; 当所述。
8、云服务器存储的与移动终端对应的私有黑白名单和 / 或公有黑白名单更新时, 所述移动终端获得云服务器的私有黑白名单更新信息和 / 或公有黑白名单更新信息以同 步更新移动终端存储的公有黑白名单和 / 或私有黑白名单。 5. 根据权利要求 1 或 4 所述的方法, 其特征在于, 所述错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于 非垃圾短信的待处理短信分类为垃圾短信 ; 所述词库更新信息至少包括私有短信训练集更新后待处理短信的单词特征以及规则 特征在垃圾短信或非垃圾短信中的匹配概率、 垃圾短信所占的比例以及非垃圾短信所占的 比例。 6. 一种垃圾短信过滤方法, 其特征在于, 包。
9、括 : 云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习 以获得与移动终端对应的分类词库, 所述分类词库用于移动终端对待处理短信进行分类以 获得分类结果, 其中, 所述分类结果为垃圾短信或非垃圾短信 ; 当所述分类结果被判定为错误的分类结果且移动终端接收到对应所述错误的分类结 果的上传指令时, 所述云服务器接收移动终端上传的分类错误信息, 其中, 所述分类错误信 息包括待处理短信以及错误的分类结果 ; 所述云服务器将待处理短信加入与移动终端对应的私有短信训练集中以更新私有短 信训练集 ; 在所述私有短信训练集和 / 或公有短信训练集更新后, 所述云服务器对私有短信训练 。
10、集和公有短信训练集进行学习以获得词库更新信息。 7. 根据权利要求 6 所述的方法, 其特征在于, 所述错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将属于 非垃圾短信的待处理短信分类为垃圾短信 ; 当所述错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信时, 在所述 私有短信训练集更新后, 所述云服务器对私有短信训练集和公有短信训练集进行学习以获 得词库更新信息的步骤具体包括 : 所述云服务器对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则 特征 ; 所述云服务器根据公有短信训练集中所述单词特征和规则特征在垃圾短信中的匹配 频次、 私有训练集中所述单词特征。
11、和规则特征在垃圾短信中的匹配频次、 私有短信训练集 和公有短信训练集中的垃圾短信数量、 非垃圾短信数量获得第一词库更新信息, 其中, 所述 第一词库更新信息包括私有短信训练集更新后待处理短信的单词特征以及规则特征在垃 圾短信中的匹配概率、 垃圾短信所占的比例以及非垃圾短信所占的比例 ; 当所述错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信时, 在所述 私有短信训练集更新后, 所述云服务器对私有短信训练集和公有短信训练集进行学习以获 权 利 要 求 书 CN 104284306 A 3 3/3 页 4 得词库更新信息的步骤具体包括 : 所述云服务器对待处理短信进行预处理以获得待处理短。
12、信对应的单词特征以及规则 特征 ; 所述云服务器根据公有短信训练集中所述单词特征和规则特征在非垃圾短信中的匹 配频次、 私有训练集中所述单词特征和规则特征在非垃圾短信中的匹配频次、 私有短信训 练集和公有短信训练集中的垃圾短信数量、 非垃圾短信数量获得第二词库更新信息, 其中, 所述第二词库更新信息包括私有短信训练集更新后待处理短信的单词特征以及规则特征 在非垃圾短信中的匹配概率、 垃圾短信所占的比例以及非垃圾短信所占的比例。 8. 根据权利要求 7 所述的方法, 其特征在于, 所述分类错误信息还包括待处理短信的发送者号码, 所述云服务器判断是否将发送者 号码加入云服务器存储的与移动终端对应的。
13、私有黑白名单和 / 或公有黑白名单中, 若是则 所述云服务器更新与移动终端对应的私有黑白名单和 / 或公有黑白名单以获得私有黑白 名单更新信息和 / 或公有黑白名单更新信息, 以使所述移动终端同步更新移动终端存储的 公有黑白名单和 / 或私有黑白名单。 9. 一种移动终端, 其特征在于, 包括 : 分类模块, 用于根据移动终端存储的分类词库对待处理短信进行分类以获得分类结 果, 其中, 所述分类结果为垃圾短信或非垃圾短信, 所述分类词库为云服务器对其存储的与 移动终端对应的私有短信训练集和公有短信训练集进行学习而获得 ; 上传模块, 用于当所述分类结果被判定为错误的分类结果且移动终端接收到对应。
14、所述 错误的分类结果的上传指令时, 将分类错误信息上传到云服务器以更新与移动终端对应的 私有短信训练集, 其中, 所述分类错误信息包括待处理短信以及错误的分类结果 ; 移动终端更新模块, 用于获得云服务器的词库更新信息以同步更新所述移动终端中存 储的分类词库, 其中, 所述词库更新信息为在私有短信训练集和 / 或公有短信训练集更新 后云服务器对私有短信训练集和公有短信训练集进行学习而获得。 10. 一种云服务器, 其特征在于, 包括 : 学习模块, 用于对云服务器存储的与移动终端对应的私有短信训练集和公有短信训练 集进行学习以获得与移动终端对应的分类词库, 所述分类词库用于移动终端对待处理短信。
15、 进行分类以获得分类结果, 其中, 所述分类结果为垃圾短信或非垃圾短信 ; 云服务器更新模块, 当所述分类结果被判定为错误的分类结果且移动终端接收到对应 所述错误的分类结果的上传指令时, 用于接收移动终端上传的分类错误信息, 其中, 所述分 类错误信息包括待处理短信以及错误的分类结果 ; 所述云服务器更新模块还用于将待处理短信加入与移动终端对应的私有短信训练集 中以更新私有短信训练集 ; 所述学习模块还用于在私有短信训练集和 / 或公有短信训练集更新后, 对私有短信训 练集和公有短信训练集进行学习以获得词库更新信息, 进而使所述移动终端根据词库更新 信息同步更新移动终端中存储的分类词库。 11。
16、. 一种垃圾短信过滤系统, 其特征在于, 包括 : 如权利要求 9 所述的移动终端以及如 权利要求 10 所述的云服务器。 权 利 要 求 书 CN 104284306 A 4 1/14 页 5 一种垃圾短信过滤方法、 系统、 移动终端以及云服务器 技术领域 0001 本发明涉及文本分类领域, 特别是涉及一种垃圾短信过滤方法、 系统、 移动终端以 及云服务器。 背景技术 0002 随着移动通信技术的飞速发展和手机普及率的迅速提升, 短信正以其短小、 迅速、 简便、 价格低廉等诸多优点日益成为人们的一种重要通信和交流方式, 给用户带来了极大 的交流方便, 同时, 垃圾短信日益猖獗, 尤其是在智能。
17、手机快速普及、 个人信息安全问题日 益严峻的今天, 不少用户都深受垃圾短信的困扰。 垃圾短信是指用户没有定制过的, 包含有 广告、 欺骗、 色情等内容以及短时间内连续发送同样内容, 影响用户正常使用、 工作和生活 的短信, 常见的垃圾短信内容包括广告信息、 色情信息、 假中奖信息、 欺诈信息、 恶作剧等, 即对用户没有价值的信息, 给用户带来了很多的烦恼, 因此急需对垃圾短信进行监控过滤。 现有技术中主要包括两种垃圾短信的过滤方法 : 一种方法是在短信服务中心 (SMSC) 等短 信处理中心进行处理 ; 另一种方法则是在手机等移动终端上用编制的内嵌程序执行整个垃 圾短信的过滤过程。 0003 。
18、本申请发明人在长期研发中发现, 有些信息例如彩票信息、 票务信息、 广告信息等 对于一部分用户来说可能是垃圾短信, 但对于另一部分用户来说则不属于垃圾短信, 在短 信服务中心进行过滤可能导致被错误分类的信息无法到达用户的移动终端上, 垃圾短信的 过滤缺乏考虑不同用户的需求差异 ; 此外由于移动终端的计算速度和空间都比较有限, 在 移动终端上执行整个垃圾短信的过滤过程会消耗过多的时间与空间, 影响用户对短信的正 常接收。 发明内容 0004 本发明主要解决的技术问题是提供一种垃圾短信过滤方法、 系统、 移动终端以及 云服务器, 能够提高移动终端对垃圾短信的过滤效率, 使垃圾短信的过滤具有个性化。。
19、 0005 为解决上述技术问题, 本发明的第一方面是 : 提供一种垃圾短信过滤方法, 包括 : 移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果, 其中, 分类结果 为垃圾短信或非垃圾短信 ; 当分类结果被判定为错误的分类结果且移动终端接收到对应错 误的分类结果的上传指令时, 移动终端将分类错误信息上传到云服务器以更新与移动终端 对应的私有短信训练集, 其中, 分类错误信息包括待处理短信以及错误的分类结果 ; 移动终 端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库, 其中, 词库更新信 息为在云服务器存储的与移动终端对应的私有短信训练集和 / 或公有短信训练集更新后。
20、 云服务器对私有短信训练集和公有短信训练集进行学习而获得。 0006 其中, 移动终端根据其存储的分类词库对待处理短信进行分类以获得分类结果的 步骤具体包括 : 移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以 及规则特征 ; 移动终端将分类词库中存储的垃圾短信所占的比例 P(C1)、 非垃圾短信所占 说 明 书 CN 104284306 A 5 2/14 页 6 的比例 P(C2)、 单词特征以及规则特征在垃圾短信中的匹配概率 P(xk|C1) 以及非垃圾短信 中的匹配概率 P(xk|C2) 代入贝叶斯分类公式中, 以获得待处理短信属于垃圾短信的概率 P(C1|X), 贝叶斯分。
21、类公式具体如下所示 : 0007 0008 移动终端获得待处理短信属于非垃圾短信的概率 P(C2|X), 具体如下所示 : 0009 P(C2|X)=1-P(C1|X) 0010 移动终端获得待处理短信的分类结果, 其中, 当 P(C1|X)P(C2|X) 时则待处理短信 属于垃圾短信, 否则待处理短信属于非垃圾短信。 0011 其中, 在移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以 及规则特征的步骤之前还包括 : 移动终端判断待处理短信的发送者号码是否在与移动终端 对应的私有黑白名单中, 其中, 当发送者号码在与移动终端对应的私有黑名单中时则待处 理短信属于垃圾短信, 当发。
22、送者号码在与移动终端对应的私有白名单中时则待处理短信属 于非垃圾短信 ; 当发送者号码不在与移动终端对应的私有黑白名单中时, 移动终端继续判 断发送者号码是否在公有黑白名单中, 其中, 当发送者号码在公有黑名单中时则待处理短 信属于垃圾短信, 当发送者号码在公有白名单中时则待处理短信属于非垃圾短信 ; 当发送 者号码不在公有黑白名单中时, 移动终端执行对待处理短信进行预处理以获得待处理短信 对应的单词特征以及规则特征的步骤。 0012 其中, 当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结 果的上传指令时, 移动终端上传到云服务器的分类错误信息还包括待处理短信的发送者号 码,。
23、 移动终端将发送者号码上传到云服务器以判断是否将发送者号码加入云服务器存储的 与移动终端对应的私有黑白名单和 / 或公有黑白名单中 ; 当云服务器存储的与移动终端对 应的私有黑白名单和 / 或公有黑白名单更新时, 移动终端获得云服务器的私有黑白名单更 新信息和/或公有黑白名单更新信息以同步更新移动终端存储的公有黑白名单和/或私有 黑白名单。 0013 其中, 错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将 属于非垃圾短信的待处理短信分类为垃圾短信 ; 词库更新信息至少包括私有短信训练集更 新后待处理短信的单词特征以及规则特征在垃圾短信或非垃圾短信中的匹配概率、 垃圾短 信所占。
24、的比例以及非垃圾短信所占的比例。 0014 为解决上述技术问题, 本发明的第二方面是 : 提供一种垃圾短信过滤方法, 包括 : 云服务器对其存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习以获 得与移动终端对应的分类词库, 分类词库用于移动终端对待处理短信进行分类以获得分类 结果, 其中, 分类结果为垃圾短信或非垃圾短信 ; 当分类结果被判定为错误的分类结果且移 动终端接收到对应错误的分类结果的上传指令时, 云服务器接收移动终端上传的分类错误 信息, 其中, 分类错误信息包括待处理短信以及错误的分类结果 ; 云服务器将待处理短信加 入与移动终端对应的私有短信训练集中以更新私有短信训。
25、练集 ; 在私有短信训练集和 / 或 公有短信训练集更新后, 云服务器对私有短信训练集和公有短信训练集进行学习以获得词 说 明 书 CN 104284306 A 6 3/14 页 7 库更新信息。 0015 其中, 错误的分类结果为将属于垃圾短信的待处理短信分类为非垃圾短信或者将 属于非垃圾短信的待处理短信分类为垃圾短信 ; 当错误的分类结果为将属于垃圾短信的待 处理短信分类为非垃圾短信时, 在私有短信训练集更新后, 云服务器对私有短信训练集和 公有短信训练集进行学习以获得词库更新信息的步骤具体包括 : 云服务器对待处理短信进 行预处理以获得待处理短信对应的单词特征以及规则特征 ; 云服务器根。
26、据公有短信训练集 中单词特征和规则特征在垃圾短信中的匹配频次、 私有训练集中单词特征和规则特征在垃 圾短信中的匹配频次、 私有短信训练集和公有短信训练集中的垃圾短信数量、 非垃圾短信 数量获得第一词库更新信息, 其中, 第一词库更新信息包括私有短信训练集更新后待处理 短信的单词特征以及规则特征在垃圾短信中的匹配概率、 垃圾短信所占的比例以及非垃圾 短信所占的比例 ; 当错误的分类结果为将属于非垃圾短信的待处理短信分类为垃圾短信 时, 在私有短信训练集更新后, 云服务器对私有短信训练集和公有短信训练集进行学习以 获得词库更新信息的步骤具体包括 : 云服务器对待处理短信进行预处理以获得待处理短信 。
27、对应的单词特征以及规则特征 ; 云服务器根据公有短信训练集中单词特征和规则特征在非 垃圾短信中的匹配频次、 私有训练集中单词特征和规则特征在非垃圾短信中的匹配频次、 私有短信训练集和公有短信训练集中的垃圾短信数量、 非垃圾短信数量获得第二词库更新 信息, 其中, 第二词库更新信息包括私有短信训练集更新后待处理短信的单词特征以及规 则特征在非垃圾短信中的匹配概率、 垃圾短信所占的比例以及非垃圾短信所占的比例。 0016 其中, 分类错误信息还包括待处理短信的发送者号码, 云服务器判断是否将发送 者号码加入云服务器存储的与移动终端对应的私有黑白名单和 / 或公有黑白名单中, 若是 则云服务器更新与。
28、移动终端对应的私有黑白名单和 / 或公有黑白名单以获得私有黑白名 单更新信息和 / 或公有黑白名单更新信息, 以使移动终端同步更新移动终端存储的公有黑 白名单和 / 或私有黑白名单。 0017 为解决上述技术问题, 本发明的第三方面是 : 提供一种移动终端, 包括 : 分类模 块, 用于根据移动终端存储的分类词库对待处理短信进行分类以获得分类结果, 其中, 分类 结果为垃圾短信或非垃圾短信, 分类词库为云服务器对其存储的与移动终端对应的私有短 信训练集和公有短信训练集进行学习而获得 ; 上传模块, 用于当分类结果被判定为错误的 分类结果且移动终端接收到对应错误的分类结果的上传指令时, 将分类错。
29、误信息上传到云 服务器以更新与移动终端对应的私有短信训练集, 其中, 分类错误信息包括待处理短信以 及错误的分类结果 ; 移动终端更新模块, 用于获得云服务器的词库更新信息以同步更新移 动终端中存储的分类词库, 其中, 词库更新信息为在私有短信训练集和 / 或公有短信训练 集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。 0018 为解决上述技术问题, 本发明的第四方面是 : 提供一种云服务器, 包括 : 学习模 块, 用于对云服务器存储的与移动终端对应的私有短信训练集和公有短信训练集进行学习 以获得与移动终端对应的分类词库, 分类词库用于移动终端对待处理短信进行分类以获得 分。
30、类结果, 其中, 分类结果为垃圾短信或非垃圾短信 ; 云服务器更新模块, 当分类结果被判 定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时, 用于接收移动 终端上传的分类错误信息, 其中, 分类错误信息包括待处理短信以及错误的分类结果 ; 云服 务器更新模块还用于将待处理短信加入与移动终端对应的私有短信训练集中以更新私有 说 明 书 CN 104284306 A 7 4/14 页 8 短信训练集 ; 学习模块还用于在私有短信训练集和 / 或公有短信训练集更新后, 对私有短 信训练集和公有短信训练集进行学习以获得词库更新信息, 进而使移动终端根据词库更新 信息同步更新移动终端中存。
31、储的分类词库。 0019 为解决上述技术问题, 本发明的第五方面是 : 提供一种垃圾短信过滤系统, 包括如 前所述的移动终端以及如前所述的云服务器。 0020 本发明的有益效果是 : 区别于现有技术的情况, 本发明通过移动终端根据其存储 的分类词库对待处理短信进行分类以获得分类结果, 当分类结果被判定为错误的分类结果 且移动终端接收到对应错误的分类结果的上传指令时, 移动终端将分类错误信息上传到云 服务器以更新与移动终端对应的私有短信训练集, 移动终端获得云服务器的词库更新信息 以同步更新移动终端存储的分类词库, 通过云服务器的强大处理能力, 对更新后的私有短 信训练集和公有短信训练集进行再学。
32、习, 为移动终端提供兼具个性化和普遍共性的分类词 库, 进而不断提高移动终端对垃圾短信过滤的准确性, 提高移动终端对垃圾短信的过滤效 率, 使垃圾短信的过滤具有个性化。 附图说明 0021 图 1 是本发明垃圾短信过滤方法第一实施方式的流程图 ; 0022 图 2 是本发明垃圾短信过滤方法第一实施方式中移动终端根据其存储的分类词 库对待处理短信进行分类以获得分类结果的流程图 ; 0023 图 3 是本发明垃圾短信过滤方法第二实施方式的流程图 ; 0024 图 4 是本发明垃圾短信过滤方法第二实施方式中当错误的分类结果为将属于垃 圾短信的待处理短信分类为非垃圾短信时云服务器对私有短信训练集和公有。
33、短信训练集 进行学习以获得词库更新信息的流程图 ; 0025 图 5 是本发明垃圾短信过滤方法第二实施方式中当错误的分类结果为将属于非 垃圾短信的待处理短信分类为垃圾短信时云服务器对私有短信训练集和公有短信训练集 进行学习以获得词库更新信息的流程图 ; 0026 图 6 是本发明移动终端一实施方式的原理框图 ; 0027 图 7 是本发明云服务器一实施方式的原理框图 ; 0028 图 8 是本发明垃圾短信过滤系统一实施方式的原理框图。 具体实施方式 0029 下面将结合本发明实施方式中的附图, 对本发明实施方式中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施方式仅仅是本发明一部分实。
34、施方式, 而不是全部的实 施方式。基于本发明中的实施方式, 本领域普通技术人员在没有做出创造性劳动前提下所 获得的所有其他实施方式, 均属于本发明保护的范围。 0030 请参阅图 1, 本发明垃圾短信过滤方法第一实施方式包括 : 0031 步骤 S101 : 对待处理短信进行分类以获得分类结果 ; 0032 移动终端根据其存储的分类词库对待处理短信进行分类以获得待处理短信对应 的分类结果, 其中, 分类结果为垃圾短信或非垃圾短信。 移动终端存储的分类词库与云服务 器存储的分类词库随时保持同步更新, 云服务器存储的分类词库为云服务器对其存储的与 说 明 书 CN 104284306 A 8 5/。
35、14 页 9 移动终端对应的私有短信训练集和公有短信训练集进行学习而获得。 与移动终端对应的私 有短信训练集可为空或者存储有移动终端上传的已分类的垃圾短信和 / 或非垃圾短信, 当 与移动终端对应的私有短信训练集为空时, 分类词库为云服务器对公有短信训练集以及为 空的私有短信训练集进行学习而获得, 即此时仅对公有短信训练集进行学习 ; 当与移动终 端对应的私有短信训练集不为空时, 分类词库为云服务器对与移动终端对应的私有短信训 练集和公有短信训练集进行学习而获得。 云服务器存储有一个公有短信训练集和多个与移 动终端对应的私有短信训练集, 即云服务器存储有一个共有短信训练集和多个私有短信训 练集。
36、, 其中, 每个私有短信训练集对应于一个移动终端。 0033 其中, 公有短信训练集中存储有一定数量的已分类的垃圾短信与非垃圾短信, 云 服务器上的所有移动终端共用一个公有短信训练集 ; 而私有短信训练集存储有移动终端上 传的已分类的垃圾短信与非垃圾短信, 不同移动终端对应不同的私有短信训练集。 0034 步骤 S102 : 将分类错误信息上传到云服务器以更新与移动终端对应的私有短信 训练集 ; 0035 当移动终端获得待处理短信的分类结果后, 用户判断移动终端获得的分类结果是 否为错误的分类结果, 其中, 错误的分类结果为将属于垃圾短信的待处理短信分类为非垃 圾短信或者将属于非垃圾短信的待处。
37、理短信分类为垃圾短信。 某些短信对于一些用户而言 可能是垃圾短信, 但对于另一些用户而言则可能是非垃圾短信, 因此不同用户对于同一条 待处理短信的分类结果的正确与否可能有不同的判断结果。 0036 当用户判定分类结果为错误的分类结果且移动终端接收到对应上述错误的分类 结果的上传指令时, 移动终端根据上传指令将分类错误信息上传到云服务器以更新与移动 终端对应的私有短信训练集, 即移动终端在接收到上传指令后将分类错误信息上传到与服 务器, 以便云服务器对与该移动终端对应的私有短信训练集进行更新, 其中, 分类错误信息 包括待处理短信以及对应的错误的分类结果。 0037 步骤 S103 : 获得云服。
38、务器的词库更新信息以同步更新移动终端存储的分类词库。 0038 移动终端获得云服务器的词库更新信息以同步更新移动终端存储的分类词库, 其 中, 词库更新信息为在云服务器存储的与移动终端对应的私有短信训练集和 / 或公有短信 训练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得, 即词库更新 信息为当私有短信训练集和公有短信训练集中的至少一个更新时而获得, 也即当出现如下 三种情况中的一种情况的更新时而获得词库更新信息 :(1) 公有短信训练集更新,(2) 私有 短信训练集更新,(3) 私有短信训练集和公有短信训练集同时更新。云服务器可定期加入 一定数量的已分类的垃圾短信和 / 或。
39、非垃圾短信到公有短信训练集中以更新公有短信训 练集。其中, 当私有短信训练集为空即私有短信训练集中没有存储移动终端上传的已分类 的短信且没有更新私有短信训练集时, 词库更新信息为云服务器对更新后的公有短信训练 集以及为空的私有短信训练集进行学习而获得即此时仅对更新后的公有短信训练集进行 学习 ; 当私有短信训练集不为空时, 词库更新信息为在私有短信训练集和 / 或公有短信训 练集更新后云服务器对私有短信训练集和公有短信训练集进行学习而获得。 当云服务器通 过学习而获得词库更新信息后, 移动终端通过 GPRS、 WiFi 等方式从云服务器上下载词库更 新信息, 移动终端只需下载信息容量较小的词库。
40、更新信息而无需下载云服务器中更新后的 整个分类词库即可实现对移动终端存储的分类词库的更新, 减少移动终端更新分类词库所 说 明 书 CN 104284306 A 9 6/14 页 10 需的流量。移动终端根据更新后的分类词库对后续待处理短信进行分类, 从而形成一个循 环过程。 0039 本发明通过云服务器的强大处理能力, 根据移动终端上传的分类错误信息更新与 移动终端对应的私有短信训练集, 在私有短信训练集和 / 或公有短信训练集更新后, 结合 分词词库和停用词库进行再学习, 通过进一步学习为移动终端提供兼具共性和个性化的分 类词库, 进而不断提高移动终端对垃圾短信过滤的处理速度和准确性, 提。
41、高移动终端对垃 圾短信的过滤效率, 同时也为移动终端提供个性化的垃圾短信过滤, 使垃圾短信的过滤具 有个性化, 满足不同用户对短信的不同过滤需求。 0040 请参阅图 2, 本发明垃圾短信过滤方法第一实施方式中移动终端根据其存储的分 类词库对待处理短信进行分类以获得分类结果具体包括以下子步骤 : 0041 子步骤 S1011 : 对待处理短信进行预处理以获得待处理短信对应的单词特征以及 规则特征 ; 0042 移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以及规则 特征, 具体包括 : 0043 移动终端对待处理短信进行分词, 通过查询其存储的分词词库将待处理短信分割 成一个个有。
42、意义的单词特征, 其中, 中文分词是将中文短信文本分割成汉语最小的、 能独立 活动的、 有意义的语言成分即词条 ; 对于英文短信文本, 根据词之间的分隔标记例如空格将 英文短信文本分隔成一个个单词特征。本实施方式的分词方法为智能分词法, 即利用隐马 尔科夫模型 (Hidden Markov Model,HMM) 算法。在其他实施方式中, 也可利用词典分词法、 切分标记法、 基于统计的分词法、 基于规则的分词法等方法进行分词, 此处不作过多限制。 0044 移动终端根据其存储的停用词库删除对短信分类没有贡献的单词特征, 其包括分 词后形成的单个的字、 叹词、 语气助词、 代词等。 0045 在删。
43、除没有贡献的单词特征后, 移动终端进一步从剩余的单词特征中选取对短信 分类贡献较高的单词特征, 通过计算各个剩余的单词特征 A 出现与否和某个分类 C 的互信 息MI(A;C), 其中, 分类C包括垃圾短信C1与非垃圾短信C2两类, 互信息MI(A;C)的计算公 式具体如下所示 : 0046 0047 进一步从中选取具有最高互信息 MI(A;C) 的单词特征作为分类判断所用的单词 特征。 0048 移动终端获得待处理短信的规则特征, 规则特征包括短信长度、 是否包含 URL、 是 否包含电话号码以及短信发送者号码是否为手机号码。 0049 待处理短信 X 表示为 : X=x1,x2,xn, x。
44、k(k=1,2,n) 为待处理短信对应的单 词特征以及规则特征。 0050 子步骤 S1012 : 将垃圾短信、 非垃圾短信所占的比例、 单词特征以及规则特征在垃 圾短信中的匹配概率以及非垃圾短信中的匹配概率代入贝叶斯分类公式中 ; 0051 移动终端将分类词库中存储的垃圾短信所占的比例 P(C1)、 非垃圾短信所占的比 例 P(C2)、 待处理短信对应的单词特征以及规则特征 xk在垃圾短信中的匹配概率 P(xk|C1) 以及非垃圾短信中的匹配概率 P(xk|C2) 代入贝叶斯分类公式中, 以获得待处理短信属于垃 说 明 书 CN 104284306 A 10 7/14 页 11 圾短信的概率。
45、 P(C1|X), 贝叶斯分类公式具体如下所示 : 0052 0053 其中, 垃圾短信所占的比例 P(C1) 即与移动终端对应的私有短信训练集和公有短 信训练集中垃圾短信数量占所有短信 (即垃圾短信与非垃圾短信) 数量的比例 ; 非垃圾短 信所占的比例 P(C2) 即与移动终端对应的私有短信训练集和公有短信训练集中非垃圾短 信数量占所有短信数量的比例。与移动终端对应的分类词库中存储有垃圾短信所占的比 例 P(C1)、 非垃圾短信所占的比例 P(C2)、 单词特征以及规则特征在垃圾短信中的匹配概率 P(xk|C1) 以及非垃圾短信中的匹配概率 P(xk|C2), 不同移动终端对应不同的分类词库。
46、。 0054 子步骤 S1013 : 获得待处理短信属于非垃圾短信的概率 ; 0055 移动终端进一步获得待处理短信属于非垃圾短信的概率 P(C2|X), 具体如下所示 : 0056 P(C2|X)=1-P(C1|X) 0057 在其他实施方式中, 也可利用贝叶斯分类公式获得待处理短信属于非垃圾短信的 概率, 此处不作过多限制。 0058 子步骤 S1014 : 获得待处理短信的分类结果。 0059 移动终端根据待处理短信属于垃圾短信的概率 P(C1|X) 以及属于非垃圾短信的概 率 P(C2|X) 获得待处理短信的分类结果, 其中, 当 P(C1|X)P(C2|X) 时则待处理短信的分类 结。
47、果为属于垃圾短信, 否则待处理短信的分类结果为属于非垃圾短信。 同时, 也可通过判断 P(C1|X) 是否大于 0.5 而进行分类判断, 当 P(C1|X) 大于 0.5 时则属于垃圾短信, 否则属于 非垃圾短信。 0060 当分类结果被判定为错误的分类结果且移动终端接收到对应错误的分类结果的 上传指令时, 则至少云服务器存储的与移动终端对应的私有短信训练集得到更新, 对应获 得的词库更新信息至少包括私有短信训练集更新后待处理短信对应的单词特征以及规则 特征在垃圾短信或非垃圾短信中的匹配概率、 垃圾短信所占的比例 P(C1) 以及非垃圾短信 所占的比例 P(C2), 具体地, 当错误的分类结果。
48、为将属于垃圾短信的待处理短信分类为非垃 圾短信时对应更新单词特征以及规则特征在垃圾短信中的匹配概率、 垃圾短信所占的比例 P(C1) 以及非垃圾短信所占的比例 P(C2) ; 当错误的分类结果为将属于非垃圾短信的待处理 短信分类为垃圾短信时对应更新单词特征以及规则特征在非垃圾短信中的匹配概率、 垃圾 短信所占的比例 P(C1) 以及非垃圾短信所占的比例 P(C2)。 0061 此外, 在移动终端对待处理短信进行预处理以获得待处理短信对应的单词特征以 及规则特征的步骤之前还包括 : 0062 移动终端判断待处理短信的发送者号码是否在与移动终端对应的私有黑白名单 中, 其中, 当发送者号码在与移动。
49、终端对应的私有黑名单中时则待处理短信属于垃圾短信, 当发送者号码在与移动终端对应的私有白名单中时则待处理短信属于非垃圾短信。 0063 当发送者号码不在与移动终端对应的私有黑白名单中时, 移动终端继续判断发送 者号码是否在公有黑白名单中, 其中, 当发送者号码在公有黑名单中时则待处理短信属于 垃圾短信, 当发送者号码在公有白名单中时则待处理短信属于非垃圾短信。 说 明 书 CN 104284306 A 11 8/14 页 12 0064 当发送者号码不在公有黑白名单中时, 移动终端执行上述对待处理短信进行预处 理以获得待处理短信对应的单词特征以及规则特征的步骤即子步骤 S1011。 0065 在移动终端执行上述步骤 S101 获得待处理短信的分类结果后, 当分类结果被判 定为错误的分类结果且移动终端接收到对应错误的分类结果的上传指令时, 移动终端上传 到云服务器的分类错误信息还包括待处理短信的发送者号码, 移动终端将发送者号码上传 到云服务器以判断是否将发送者号码加入云服务器存储的与移动终端对应的私有黑白名 单和 。