一种垃圾邮件关键词的查找方法及系统.pdf

摘要
申请专利号：	CN201310146243.1	申请日：	2013.04.24
公开号：	CN104123289A	公开日：	2014.10.29
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20141029\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20130424\|\|\|公开
IPC分类号：	G06F17/30; H04L12/58	主分类号：	G06F17/30
申请人：	北京无限立通通讯技术有限责任公司
发明人：	李清森
地址：	100020 北京市朝阳区工体东路20号百富国际大厦A座25层
优先权：
专利代理机构：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张大威
PDF下载：	PDF下载

内容摘要

本发明公开了一种垃圾邮件关键词的查找方法及系统，该方法包括，采用邮件拆分子系统将邮件按邮件标题、邮件正文、邮件附件等进行拆分，采用Map/Reduce子系统将拆分后的内容按照预装的中文分词库进行分词，并进行排序。本发明采用hadoop中的map/reduce以及分词对收集到的邮件进行关键词分析，可找出当前最流行的垃圾邮件关键词。

权利要求书

1.  一种垃圾邮件关键词的查找方法，其特征在于，采用hadoop分布式系统进行垃圾邮件关键词的查找。

2.  如权利要求1所述的垃圾邮件关键词的查找方法，其特征在于进一步包含如下步骤：将邮件按邮件主题、邮件正文等进行拆分，并分别存入系统的相应主题/正文目录中。

3.  如权利要求2所述的垃圾邮件关键词的查找方法，其特征在于，拆分邮件的过程进一步包含如下步骤：
对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高；
定时启动邮件拆分服务器上的进程；
进程从邮件存储服务器中提取出分数值低于预设的垃圾邮件报警分值的邮件；
对邮件进行解析，分别得到邮件的各组成部分，组成部分包含邮件主题和邮件正文；
将邮件主题存入HDFS的标题目录中；
将邮件正文内容存入HDFS的正文目录中。

4.  如权利要求3所述的垃圾邮件关键词的查找方法，其特征在于，进一步包含如下步骤：系统对文件按中文分词进行拆分。

5.  如权利要求4所述的垃圾邮件关键词的查找方法，其特征在于，对文件按中文分词进行拆分的具体步骤包括：
调度服务器进程将任务给它所管理的Map服务器进程；
Map进程从HDFS的主题/正文目录中读入已拆分过的文件；
Map进程按中文分词库中的分词将输入的主题或正文内容分解为单一的单词；
Map进程将分解下来的内容按照Key/value的形式保存下来；
Map进程将Key/value结果传给Reduce服务器的合并进程；
合并进程将这些记录进行合并，并将合并结果存入HDFS的合并目录中；
启动排行进程，从合并目录中读取文件，将所有的分词进行排序，并将结果保存回HDFS的结果目录中。

6.  如权利要求5所述的垃圾邮件关键词的查找方法，其特征在于，进一步包括以下步骤：
剔除常见的高频分词；
剔除中性词；
提取出占出现频度80%的关键词；
将排名和数据库中保留的上一次排名分别进行比较；
若变化幅度超过设定值，则调整该关键词的分数值；
将新的分数值导入到邮件服务器中。

7.  一种垃圾邮件关键词的查找系统，其特征在于，采用hadoop分布式系统进行关键词的查找。

8.  如权利要求7所述的垃圾邮件关键词的查找系统，其特征在于，进一步包括邮件拆分模块，该模块将邮件按邮件主题、邮件正文等进行拆分，并分别存入系统的相应主题/正文目录中。

9.  如权利要求8所述的垃圾邮件关键词的查找系统，其特征在于，该邮件拆分模块包括：
打分模块，用于对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高；
读分模块，用于从邮件存储服务器中提取出分数值低于预设的垃圾邮件报警分值的邮件；
解析模块，用于从每一封邮件中提取出主题和正文；
存储模块，用于将主题存入HDFS的主题目录中，将正文内容存入HDFS的正文目录中。

10.  如权利要求9所述的垃圾邮件关键词的查找系统，其特征在于，进一步包含中文分词拆分模块。

11.  如权利要求9所述的垃圾邮件关键词的查找系统，其特征在于，该中文分词拆分模块具体包括：
文件读取模块，用于从HDFS的主题/正文目录中读入已拆分过的文件；
文件分词模块，用于按中文分词库中的分词将输入的主题或正文内容分解为单一的单词；
分词保存模块，用于将分解下来的内容按照Key/value的形式保存下来；
数据传输模块，用于将Key/value结果传给Reduce服务器的合并进程；
合并结果记录模块，用于将这些记录进行合并，并将合并结果存入HDFS的合并目录中。

12.  如权利要求11所述的垃圾邮件关键词的查找系统，其特征在于，进一步包含如下模块：
剔除模块，用于剔除常见的高频分词和中性词；
提取模块，用于提取出占出现频度80%的关键词；
比较模块，用于将排名和数据库中保留的上一次排名分别进行比较；
排名调整模块，用于在变化幅度超过设定值时，调整该关键词的分数值；
导入模块，用于将新的分数值导入到邮件服务器中。

说明书

一种垃圾邮件关键词的查找方法及系统
技术领域
本发明涉及一种垃圾邮件处理方法，特别是涉及垃圾邮件关键词的查找方法以及系统。
背景技术
随着互联网的普及，电子邮件日渐成为人们工作、生活交流必不可少的工具，但众多的垃圾邮件严重影响邮件用户的使用，甚至可能使得用户错过夹杂在垃圾邮件中的有用邮件。现有的对于垃圾邮件的过滤可通过IP过滤、黑白名单、关键词匹配等进行。
例如，申请号为200310116951的发明专利中，采用建立垃圾邮件IP地址库，将发件人的邮件地址和垃圾邮件IP地址库进行匹配的方式查找垃圾邮件。
再如，申请号为200410027521的发明专利中，采用建立黑、白名单的方式来查找垃圾邮件。如果寄来电子邮件的地址存在于白名单中，则接受该邮件，否则就将该地址和预设的黑名单内的邮件地址对比，如在黑名单中，则拒收该邮件。然而这些方法的缺点在于，仅能查找已知的发送垃圾邮件的发送地址，对于新出现的发送者无法进行查找。所以，又出现了根据邮件的关键词来查找垃圾邮件的方法。目前开源的反垃圾技术一般都采用贝叶斯（Bayes），它一般只是对按单个字出现的概率来进行推测，而中文一般是按词来表达意思的，所以现有的这种方法在中文反垃圾方面不准确。现有技术的缺点如下:
不能有效找出目前流行的关键字；
效率低，扩展性差；
没有垃圾关键字排行功能；
由于采用的是单进程，处理能力和扩展性差。
发明内容
为了解决上述问题，本发明提出了一种新的技术方案，能够更加高效、准确地查找垃圾邮件。
本发明中一些常用的术语含义如下：
HDFS（Hadoop Distributed File System）是采用Hadoop技术实现的一种分布式文件系统。Hadoop以并行的方式工作，通过并行处理器加快处理速度，能够对大量数据进行分布式处理。它具有高可靠性、高扩展性、高效性、高容错性的特点。
Map：Hadoop中的术语，将要处理的信息转为key/value的中间结果；
Reduce：Hadoop中的术语，将Map输出key/value的中间结果进行合并，生成最终的key/value集。
MIME（Multipurpose Internet Mail Extensions）：多功能Internet邮件扩充服务。
本发明提供了一种垃圾邮件关键词的查找方法，采用Hadoop分布式系统进行垃圾邮件关键词的查找。
进一步地，该方法包含如下步骤：将邮件按邮件主题、邮件正文等进行拆分，并分别存入系统的相应主题/正文目录中。
进一步地，拆分邮件的过程包含如下步骤：
对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高；
定时启动邮件拆分服务器上的进程；
进程从邮件存储服务器中提取出分数值低于垃圾邮件报警的邮件；
对邮件进行解析，分别得到邮件的各组成部分，包含邮件主题、邮件正文；
将邮件主题存入HDFS的标题目录中；
将邮件正文内容存入HDFS的正文目录中。
进一步地，该方法包含如下步骤：系统对文件按中文分词进行拆分。
进一步地，对文件按中文分词进行拆分的具体步骤包括：
调度服务器进程将任务给它所管理的Map服务器进程；
Map进程从HDFS的主题/正文目录中读入已拆分过的文件；
Map进程按中文分词库中的分词将输入的主题或正文内容分解为一个个单一的单词；
Map进程将分解下来的内容按照Key/value的形式保存下来；
Map进程将Key/value结果传给Reduce服务器的合并进程；
合并进程将这些记录进行合并，并将合并结果存入HDFS的合并目录中；
启动排行进程，从合并目录中读取文件，将所有的分词进行排序，并将结果保存回HDFS的结果目录中。
进一步地，该方法还包括如下步骤：
剔除常见的高频分词；
剔除中性词；
提取出占出现频度80%的关键词；
将排名和数据库中保留的上一次排名分别进行比较；
若变化幅度超过设定值，则调整该关键词的分数值；
将新的分数值导入到邮件服务器中。
相应地，本发明还提供一种垃圾邮件关键词的查找系统，其采用Hadoop分布式系统进行关键词的查找。
进一步地，该系统还包括邮件拆分模块，该模块将邮件按邮件主题、邮件正文等进行拆分，并分别存入系统的相应主题/正文目录中。
进一步地，该邮件拆分模块包括：
打分模块，用于对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高；
读分模块，用于从邮件存储服务器中提取出分数值低于垃圾邮件报警的邮件；
解析模块，用于从每一封邮件中提取出主题和正文；
存储模块，用于将主题存入HDFS的主题目录中，将正文内容存入HDFS的正文目录中。
进一步地，该系统还包含中文分词拆分模块。
进一步地，该中文分词拆分模块具体包括：
文件读取模块，用于从HDFS的主题/正文目录中读入已拆分过的文件；
文件分词模块，用于按中文分词库中的分词将输入的主题或正文内容分解为一个个单一的单词；
分词保存模块，用于将分解下来的内容按照Key/value的形式保存下来；
数据传输模块，用于将Key/value结果传给Reduce服务器的合并进程；
合并结果记录模块，用于将这些记录进行合并，并将合并结果存入HDFS的合并目录中。
进一步地，该系统还包含如下模块：
剔除模块，用于剔除常见的高频分词和中性词；
提取模块，用于提取出占出现频度80%的关键词；
比较模块，用于将排名和数据库中保留的上一次排名分别进行比较；
排名调整模块，用于在变化幅度超过设定值时，调整该关键词的分数值；
导入模块，用于将新的分数值导入到邮件服务器中。
本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
图1为系统架构逻辑图
图2为邮件内容拆分流程图；
图3为Map/Reduce流程示意图
具体实施方式
如图1所示，本发明的垃圾邮件关键词查找系统由如下几个子系统组成：
邮件拆分子系统：包含邮件拆分服务器组，负责将邮件按邮件主题、邮件正文、邮件附件等进行拆分，数据保存至HDFS文件子系统；
HDFS文件系统：Hadoop分布式文件存储系统；
Map/Reduce子系统：由任务调度服务器、Map服务器、Reduce服务器和汇聚服务器组成。任务调度服务器由HDFS中提取数据，汇聚服务器将结果保存至HDFS文件系统。
如图2所示，为本发明的邮件内容拆分流程，系统首先要将邮件进行拆分，拆分邮件内容的流程如下：
（1）邮件服务器中的反垃圾程序会对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高。可采用现有技术中成熟的软件进行打分，例如开源项目（Amavisd-new和SpamAssassin），SpamAssassin，Amavisd-new会根据SpamAssassin打的分数值进行判断。分数值小于7的，一般认为是非垃圾邮件，7以上的是垃圾邮件的可能性很高，分数值越高代表可能性越大。
（2）每天系统会定时启动邮件拆分服务器上的进程；
（3）该进程从邮件存储服务器中提取出分数值低于预设的垃圾邮件报警的分值的邮件，例如，分数值在2到6的邮件；
（4）该进程会对邮件进行解析，可导入MIME解析API的动态库，分别得到邮件的各个组成部分，如邮件标题、邮件正文、邮件附件等；
（5）该进程会将每一封邮件的主题存入HDFS的主题目录中；
（6）该进程会将每一封邮件的正文内容存入HDFS的正文目录中。
在分别提取了文件的主题和内容之后，系统对文件按中文分词进行拆分。如图3所示，该图为本系统的Map/Reduce流程图，系统进行分词的流程如下：
系统定时启动任务调度服务器进程；
调度服务器进程将任务给它所管理的Map服务器进程；
Map进程装载入中文分词库，该分词可以采用市面上提供的词库即可；
Map进程从HDFS的主题/正文目录中读入已拆分过的文件；
Map进程按中文分词库中的分词将输入的主题或正文内容分解为一个个单一的分词。
例如：“我爱北京天安门，天安门在北京”，按中文分词库中的分词可以分解为：
分词   出现频率
我     1
爱     1
北京   1
天安门 1
天安门 1
在     1
北京   1
Map进程将分解下来的内容按key/value的形式保存起来，key/value形式如下：
Key=我value=1
Key=爱value=1
以此类推。
（7）Map进程将它的key/value结果传给Reduce服务器的合并进程；
（8）合并进程将这些记录进行合并，
例如：上面分解后的内容经过合并后如下：
分词   出现频率
我     1
爱     1
北京   2
天安门 2
在     1
（9）合并进程将所有合并结果存入HDFS的合并目录中；
10）当所有的合并进程工作完成后，系统启动排行进程；
11）排行进程从合并目录中读取文件，将所有的分词进行排序，
例如：上面合并过的内容排序后变为如下：
分词   出现频率
北京   2
天安门 2
我     1
爱     1
在     1
12)排行进程将结果保存回HDFS的结果目录中;
13)结束。
当采用上述方法获得分词频率排行表后，再采用如下步骤进行处理：
第一阶段：剔除常见的高频分词。常见的高频分词，如谓词“你、我、他”；副词“的、地、得”；动词“打、走”，需要通过程序从分词频率排行表中剔除；
第二阶段：剔除中性词。经过上面的剔除后，这个排行表中还剩下中性词，如国家名、地区名、商业用语等，或者流行口语，这些也要通过程序进行剔除。
第三阶段：分析垃圾关键词排名变化。经过上面2个阶段的剔除后，从这个排行表（已经按出现频度由大到小排序）中提取出累加占出现频度80%的关键词。程序会把这些关键词的排名和数据库中保留的上一次排名分别进行比较，若是变化幅度超过某一设定值（例如，超过50名，可根据邮件筛选需要进行设定），则需要根据算法调整该关键词的分数值。
上面提到的算法可以采取如下方式：
本次分数值=上次分数值+（上次排行–本次排行）*上次分数值/上次排行。
例如：
关键词：伟哥

排名分数值上次1200.60本次60

本次分数值计算如下：
分数值=0.60+（120-60）*0.60/120
=0.60+0.30
=0.90
则本次分数值应该为0.90
第四阶段：这些新的分数值，代表当前垃圾邮件的流行情况，分数值越高，说明该关键词作为垃圾邮件关键词的可能性越高。将这些分数值导入到正在运行的邮件服务器系统中，则系统会根据新的分数值来进行垃圾邮件判断，提高对垃圾邮件关键词的识别效果。
本领域普通技术人员可以理解实现上述方法的全部或部分流程，是可以通过计算机程序来指令相关硬件完成的，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体，或随机存储记忆体。
尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

资源描述

《一种垃圾邮件关键词的查找方法及系统.pdf》由会员分享，可在线阅读，更多相关《一种垃圾邮件关键词的查找方法及系统.pdf（12页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104123289A43申请公布日20141029CN104123289A21申请号201310146243122申请日20130424G06F17/30200601H04L12/5820060171申请人北京无限立通通讯技术有限责任公司地址100020北京市朝阳区工体东路20号百富国际大厦A座25层72发明人李清森74专利代理机构北京清亦华知识产权代理事务所普通合伙11201代理人张大威54发明名称一种垃圾邮件关键词的查找方法及系统57摘要本发明公开了一种垃圾邮件关键词的查找方法及系统，该方法包括，采用邮件拆分子系统将邮件按邮件标题、邮件正文、邮件附件等进行拆分，采用MAP。

2、/REDUCE子系统将拆分后的内容按照预装的中文分词库进行分词，并进行排序。本发明采用HADOOP中的MAP/REDUCE以及分词对收集到的邮件进行关键词分析，可找出当前最流行的垃圾邮件关键词。51INTCL权利要求书2页说明书6页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图3页10申请公布号CN104123289ACN104123289A1/2页21一种垃圾邮件关键词的查找方法，其特征在于，采用HADOOP分布式系统进行垃圾邮件关键词的查找。2如权利要求1所述的垃圾邮件关键词的查找方法，其特征在于进一步包含如下步骤将邮件按邮件主题、邮件正文等进行拆分，。

3、并分别存入系统的相应主题/正文目录中。3如权利要求2所述的垃圾邮件关键词的查找方法，其特征在于，拆分邮件的过程进一步包含如下步骤对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高；定时启动邮件拆分服务器上的进程；进程从邮件存储服务器中提取出分数值低于预设的垃圾邮件报警分值的邮件；对邮件进行解析，分别得到邮件的各组成部分，组成部分包含邮件主题和邮件正文；将邮件主题存入HDFS的标题目录中；将邮件正文内容存入HDFS的正文目录中。4如权利要求3所述的垃圾邮件关键词的查找方法，其特征在于，进一步包含如下步骤系统对文件按中文分词进行拆分。5如权利要求4所述的垃圾邮件关键词的查找方。

4、法，其特征在于，对文件按中文分词进行拆分的具体步骤包括调度服务器进程将任务给它所管理的MAP服务器进程；MAP进程从HDFS的主题/正文目录中读入已拆分过的文件；MAP进程按中文分词库中的分词将输入的主题或正文内容分解为单一的单词；MAP进程将分解下来的内容按照KEY/VALUE的形式保存下来；MAP进程将KEY/VALUE结果传给REDUCE服务器的合并进程；合并进程将这些记录进行合并，并将合并结果存入HDFS的合并目录中；启动排行进程，从合并目录中读取文件，将所有的分词进行排序，并将结果保存回HDFS的结果目录中。6如权利要求5所述的垃圾邮件关键词的查找方法，其特征在于，进一步包括以下步骤。

5、剔除常见的高频分词；剔除中性词；提取出占出现频度80的关键词；将排名和数据库中保留的上一次排名分别进行比较；若变化幅度超过设定值，则调整该关键词的分数值；将新的分数值导入到邮件服务器中。7一种垃圾邮件关键词的查找系统，其特征在于，采用HADOOP分布式系统进行关键词的查找。8如权利要求7所述的垃圾邮件关键词的查找系统，其特征在于，进一步包括邮件拆分模块，该模块将邮件按邮件主题、邮件正文等进行拆分，并分别存入系统的相应主题/正文目录中。9如权利要求8所述的垃圾邮件关键词的查找系统，其特征在于，该邮件拆分模块包括权利要求书CN104123289A2/2页3打分模块，用于对进来的邮件按垃圾可疑程度进。

6、行打分，分数值越高代表是垃圾邮件的可能性越高；读分模块，用于从邮件存储服务器中提取出分数值低于预设的垃圾邮件报警分值的邮件；解析模块，用于从每一封邮件中提取出主题和正文；存储模块，用于将主题存入HDFS的主题目录中，将正文内容存入HDFS的正文目录中。10如权利要求9所述的垃圾邮件关键词的查找系统，其特征在于，进一步包含中文分词拆分模块。11如权利要求9所述的垃圾邮件关键词的查找系统，其特征在于，该中文分词拆分模块具体包括文件读取模块，用于从HDFS的主题/正文目录中读入已拆分过的文件；文件分词模块，用于按中文分词库中的分词将输入的主题或正文内容分解为单一的单词；分词保存模块，用于将分解下来的。

7、内容按照KEY/VALUE的形式保存下来；数据传输模块，用于将KEY/VALUE结果传给REDUCE服务器的合并进程；合并结果记录模块，用于将这些记录进行合并，并将合并结果存入HDFS的合并目录中。12如权利要求11所述的垃圾邮件关键词的查找系统，其特征在于，进一步包含如下模块剔除模块，用于剔除常见的高频分词和中性词；提取模块，用于提取出占出现频度80的关键词；比较模块，用于将排名和数据库中保留的上一次排名分别进行比较；排名调整模块，用于在变化幅度超过设定值时，调整该关键词的分数值；导入模块，用于将新的分数值导入到邮件服务器中。权利要求书CN104123289A1/6页4一种垃圾邮件关键词的查。

8、找方法及系统技术领域0001本发明涉及一种垃圾邮件处理方法，特别是涉及垃圾邮件关键词的查找方法以及系统。背景技术0002随着互联网的普及，电子邮件日渐成为人们工作、生活交流必不可少的工具，但众多的垃圾邮件严重影响邮件用户的使用，甚至可能使得用户错过夹杂在垃圾邮件中的有用邮件。现有的对于垃圾邮件的过滤可通过IP过滤、黑白名单、关键词匹配等进行。0003例如，申请号为200310116951的发明专利中，采用建立垃圾邮件IP地址库，将发件人的邮件地址和垃圾邮件IP地址库进行匹配的方式查找垃圾邮件。0004再如，申请号为200410027521的发明专利中，采用建立黑、白名单的方式来查找垃圾邮件。如。

9、果寄来电子邮件的地址存在于白名单中，则接受该邮件，否则就将该地址和预设的黑名单内的邮件地址对比，如在黑名单中，则拒收该邮件。然而这些方法的缺点在于，仅能查找已知的发送垃圾邮件的发送地址，对于新出现的发送者无法进行查找。所以，又出现了根据邮件的关键词来查找垃圾邮件的方法。目前开源的反垃圾技术一般都采用贝叶斯（BAYES），它一般只是对按单个字出现的概率来进行推测，而中文一般是按词来表达意思的，所以现有的这种方法在中文反垃圾方面不准确。现有技术的缺点如下0005不能有效找出目前流行的关键字；0006效率低，扩展性差；0007没有垃圾关键字排行功能；0008由于采用的是单进程，处理能力和扩展性差。发。

10、明内容0009为了解决上述问题，本发明提出了一种新的技术方案，能够更加高效、准确地查找垃圾邮件。0010本发明中一些常用的术语含义如下0011HDFS（HADOOPDISTRIBUTEDFILESYSTEM）是采用HADOOP技术实现的一种分布式文件系统。HADOOP以并行的方式工作，通过并行处理器加快处理速度，能够对大量数据进行分布式处理。它具有高可靠性、高扩展性、高效性、高容错性的特点。0012MAPHADOOP中的术语，将要处理的信息转为KEY/VALUE的中间结果；0013REDUCEHADOOP中的术语，将MAP输出KEY/VALUE的中间结果进行合并，生成最终的KEY/VALUE集。

11、。0014MIME（MULTIPURPOSEINTERNETMAILEXTENSIONS）多功能INTERNET邮件扩充服务。0015本发明提供了一种垃圾邮件关键词的查找方法，采用HADOOP分布式系统进行垃圾邮件关键词的查找。说明书CN104123289A2/6页50016进一步地，该方法包含如下步骤将邮件按邮件主题、邮件正文等进行拆分，并分别存入系统的相应主题/正文目录中。0017进一步地，拆分邮件的过程包含如下步骤0018对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高；0019定时启动邮件拆分服务器上的进程；0020进程从邮件存储服务器中提取出分数值低于垃圾邮件。

12、报警的邮件；0021对邮件进行解析，分别得到邮件的各组成部分，包含邮件主题、邮件正文；0022将邮件主题存入HDFS的标题目录中；0023将邮件正文内容存入HDFS的正文目录中。0024进一步地，该方法包含如下步骤系统对文件按中文分词进行拆分。0025进一步地，对文件按中文分词进行拆分的具体步骤包括0026调度服务器进程将任务给它所管理的MAP服务器进程；0027MAP进程从HDFS的主题/正文目录中读入已拆分过的文件；0028MAP进程按中文分词库中的分词将输入的主题或正文内容分解为一个个单一的单词；0029MAP进程将分解下来的内容按照KEY/VALUE的形式保存下来；0030MAP进程将。

13、KEY/VALUE结果传给REDUCE服务器的合并进程；0031合并进程将这些记录进行合并，并将合并结果存入HDFS的合并目录中；0032启动排行进程，从合并目录中读取文件，将所有的分词进行排序，并将结果保存回HDFS的结果目录中。0033进一步地，该方法还包括如下步骤0034剔除常见的高频分词；0035剔除中性词；0036提取出占出现频度80的关键词；0037将排名和数据库中保留的上一次排名分别进行比较；0038若变化幅度超过设定值，则调整该关键词的分数值；0039将新的分数值导入到邮件服务器中。0040相应地，本发明还提供一种垃圾邮件关键词的查找系统，其采用HADOOP分布式系统进行关键词。

14、的查找。0041进一步地，该系统还包括邮件拆分模块，该模块将邮件按邮件主题、邮件正文等进行拆分，并分别存入系统的相应主题/正文目录中。0042进一步地，该邮件拆分模块包括0043打分模块，用于对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高；0044读分模块，用于从邮件存储服务器中提取出分数值低于垃圾邮件报警的邮件；0045解析模块，用于从每一封邮件中提取出主题和正文；0046存储模块，用于将主题存入HDFS的主题目录中，将正文内容存入HDFS的正文目录中。说明书CN104123289A3/6页60047进一步地，该系统还包含中文分词拆分模块。0048进一步地，该中文分。

15、词拆分模块具体包括0049文件读取模块，用于从HDFS的主题/正文目录中读入已拆分过的文件；0050文件分词模块，用于按中文分词库中的分词将输入的主题或正文内容分解为一个个单一的单词；0051分词保存模块，用于将分解下来的内容按照KEY/VALUE的形式保存下来；0052数据传输模块，用于将KEY/VALUE结果传给REDUCE服务器的合并进程；0053合并结果记录模块，用于将这些记录进行合并，并将合并结果存入HDFS的合并目录中。0054进一步地，该系统还包含如下模块0055剔除模块，用于剔除常见的高频分词和中性词；0056提取模块，用于提取出占出现频度80的关键词；0057比较模块，用于将。

16、排名和数据库中保留的上一次排名分别进行比较；0058排名调整模块，用于在变化幅度超过设定值时，调整该关键词的分数值；0059导入模块，用于将新的分数值导入到邮件服务器中。0060本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明0061本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中0062图1为系统架构逻辑图0063图2为邮件内容拆分流程图；0064图3为MAP/REDUCE流程示意图具体实施方式0065如图1所示，本发明的垃圾邮件关键词查找系统由如下几个子系统组成0066邮件拆分子系统包。

17、含邮件拆分服务器组，负责将邮件按邮件主题、邮件正文、邮件附件等进行拆分，数据保存至HDFS文件子系统；0067HDFS文件系统HADOOP分布式文件存储系统；0068MAP/REDUCE子系统由任务调度服务器、MAP服务器、REDUCE服务器和汇聚服务器组成。任务调度服务器由HDFS中提取数据，汇聚服务器将结果保存至HDFS文件系统。0069如图2所示，为本发明的邮件内容拆分流程，系统首先要将邮件进行拆分，拆分邮件内容的流程如下0070（1）邮件服务器中的反垃圾程序会对进来的邮件按垃圾可疑程度进行打分，分数值越高代表是垃圾邮件的可能性越高。可采用现有技术中成熟的软件进行打分，例如开源项目（AM。

18、AVISDNEW和SPAMASSASSIN），SPAMASSASSIN，AMAVISDNEW会根据SPAMASSASSIN打的分数值进行判断。分数值小于7的，一般认为是非垃圾邮件，7以上的是垃圾邮件的可能性很高，分数值越高代表可能性越大。说明书CN104123289A4/6页70071（2）每天系统会定时启动邮件拆分服务器上的进程；0072（3）该进程从邮件存储服务器中提取出分数值低于预设的垃圾邮件报警的分值的邮件，例如，分数值在2到6的邮件；0073（4）该进程会对邮件进行解析，可导入MIME解析API的动态库，分别得到邮件的各个组成部分，如邮件标题、邮件正文、邮件附件等；0074（5）该进。

19、程会将每一封邮件的主题存入HDFS的主题目录中；0075（6）该进程会将每一封邮件的正文内容存入HDFS的正文目录中。0076在分别提取了文件的主题和内容之后，系统对文件按中文分词进行拆分。如图3所示，该图为本系统的MAP/REDUCE流程图，系统进行分词的流程如下0077系统定时启动任务调度服务器进程；0078调度服务器进程将任务给它所管理的MAP服务器进程；0079MAP进程装载入中文分词库，该分词可以采用市面上提供的词库即可；0080MAP进程从HDFS的主题/正文目录中读入已拆分过的文件；0081MAP进程按中文分词库中的分词将输入的主题或正文内容分解为一个个单一的分词。0082例如“。

20、我爱北京天安门，天安门在北京”，按中文分词库中的分词可以分解为0083分词出现频率0084我10085爱10086北京10087天安门10088天安门10089在10090北京10091MAP进程将分解下来的内容按KEY/VALUE的形式保存起来，KEY/VALUE形式如下0092KEY我VALUE10093KEY爱VALUE10094以此类推。0095（7）MAP进程将它的KEY/VALUE结果传给REDUCE服务器的合并进程；0096（8）合并进程将这些记录进行合并，0097例如上面分解后的内容经过合并后如下0098分词出现频率0099我10100爱10101北京20102天安门20103。

21、在10104（9）合并进程将所有合并结果存入HDFS的合并目录中；010510）当所有的合并进程工作完成后，系统启动排行进程；说明书CN104123289A5/6页8010611）排行进程从合并目录中读取文件，将所有的分词进行排序，0107例如上面合并过的内容排序后变为如下0108分词出现频率0109北京20110天安门20111我10112爱10113在1011412排行进程将结果保存回HDFS的结果目录中011513结束。0116当采用上述方法获得分词频率排行表后，再采用如下步骤进行处理0117第一阶段剔除常见的高频分词。常见的高频分词，如谓词“你、我、他”；副词“的、地、得”；动词“打、。

22、走”，需要通过程序从分词频率排行表中剔除；0118第二阶段剔除中性词。经过上面的剔除后，这个排行表中还剩下中性词，如国家名、地区名、商业用语等，或者流行口语，这些也要通过程序进行剔除。0119第三阶段分析垃圾关键词排名变化。经过上面2个阶段的剔除后，从这个排行表（已经按出现频度由大到小排序）中提取出累加占出现频度80的关键词。程序会把这些关键词的排名和数据库中保留的上一次排名分别进行比较，若是变化幅度超过某一设定值（例如，超过50名，可根据邮件筛选需要进行设定），则需要根据算法调整该关键词的分数值。0120上面提到的算法可以采取如下方式0121本次分数值上次分数值（上次排行本次排行）上次分数值。

23、/上次排行。0122例如0123关键词伟哥0124排名分数值上次120060本次600125本次分数值计算如下0126分数值060（12060）060/120012706003001280900129则本次分数值应该为0900130第四阶段这些新的分数值，代表当前垃圾邮件的流行情况，分数值越高，说明该关键词作为垃圾邮件关键词的可能性越高。将这些分数值导入到正在运行的邮件服务器系统中，则系统会根据新的分数值来进行垃圾邮件判断，提高对垃圾邮件关键词的识别效果。0131本领域普通技术人员可以理解实现上述方法的全部或部分流程，是可以通过计算说明书CN104123289A6/6页9机程序来指令相关硬件完成的，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体，或随机存储记忆体。0132尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。说明书CN104123289A1/3页10图1说明书附图CN104123289A102/3页11图2说明书附图CN104123289A113/3页12图3说明书附图CN104123289A12。

展开阅读全文