一种非加密 WEB 邮件的分析还原方法及系统 【技术领域】
本发明涉及通讯领域, 特别涉及一种非加密 WEB 邮件的分析和还原方法及系统。背景技术 使用电脑上网发送和接收邮件在当今社会早已得到了普遍和广泛的应用, 随着 3G 通信的快速发展, 通过手机上网发送和接收邮件也得到了越来越广泛的应用。 然而, 新型的 通信方式也正在被应用于一些非法活动中, 例如邮件诈骗, 邮件发送病毒等。
随着国际政治形势尤其是反恐怖形势的需要, 各个国家和地区越来越关注采用各 种通信手段进行非法活动, 随着通信技术和方式的不断更新和变化, 对新型通信方式下的 合法监听需求更加迫切, 主要体现在由传统的语音传真类通信内容的合法监听扩展到对 IP 分组域数据内容的合法监听。
WEB 方式下的邮件是比较常见和使用频率较高的一种新型 IP 分组域通信方式, 借 助于多种广泛应用的终端, 如 PC、 手机等, 其用户覆盖面以及影响范围非常大, 因此 WEB 方 式下邮件内容的合法监听是 IP 分组域数据内容合法监听非常重要的组成部分。
WEB 方式下的邮件也具有其自身的特点 :
一、 种类繁多。除了一些全球知名的 WEB 邮件系统, 如 Yahoo, Hotma il 等, 每个国 家和地区都存在当地较为广泛使用的 WEB 邮件系统。因此 WEB 方式邮件的合法监听的实施 范围和工作量会随着邮件种类的增加而扩大。
二、 应用层协议一致。由于都是基于 WEB 方式下的邮件, 因此不同的邮件系统所采 用的应用层协议基本上都是 HTTP 协议, 这意味着区分不同种类的 WEB 邮件内容的差异性会 很困难。
发明内容
本发明提供了一种非加密 WEB 邮件的分析和还原方法, 能方便地监听非加密 WEB 邮件。
为解决上述技术问题, 本发明采用了如下的技术方案 :
一方面, 本发明公开了一种非加密 WEB 邮件的分析和还原方法, 包含以下步骤 :
建立不同类型的邮件会话对应的邮件样本库 ;
截获新邮件会话后, 根据其对应的邮件样本库, 从该邮件会话中还原出邮件。
上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 所述建立不同类型的 邮件会话对应的邮件样本库, 包括 :
分析邮件会话的类型 ;
对每一种类型的邮件会话的关键字信息进行分析, 建立该类型邮件会话对应的邮 件样本库。
上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 所述关键字包括下述 的一个或多个 : 发送者、 接收者、 抄送者、 主题、 内容。上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 所述对每一种类型的 邮件会话的关键字信息进行分析, 建立该类型邮件会话对应的邮件样本库, 按如下方式进 行:
分析邮件正文关键字的信息, 建立该类型会话的正文样本库 ;
分析邮件附件关键字的信息, 建立该类型会话的附件样本库 ;
分析其邮件正文样本库和附件样本库的关键字的信息, 建立邮件正文和附件的关 联。
上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 所述邮件正文关键字 的信息和邮件附件关键字的信息为各关键字在该类型会话中的位置。
上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 所述关键字在会话中 所处的位置包括以下一个或多个 : 处于会话的上行请求、 处于会话的下行响应、 在会话中的 起始位置。
上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 所述建立关联邮件正 文样和附件关联为 : 邮件正文样本库和附件样本库关键字信息中的相同部分的对应关系。
上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 所述截获新邮件会话 后, 根据其对应的邮件样本库, 从该邮件会话中还原出邮件, 包括 : 截获需要还原的邮件会话 ;
判断该邮件会话的类型 ;
在相应类型邮件会话对应的样本数据库中, 对比邮件关键字在会话中所处的位 置, 从该邮件会话中还原出邮件。
上述的非加密 WEB 邮件的分析和还原方法的一个实施例中, 在相应类型邮件会话 对应的样本数据库中, 对比邮件关键字在会话中所处的位置, 从该邮件会话中还原出邮件, 按如下方式进行 :
对比邮件正文样本库各正文关键字所处的位置, 从该邮件会话中还原出邮件正 文;
对比邮件附件样本库各附件关键字所处的位置, 从该邮件会话中还原出邮件附 件;
根据邮件正文和附件之间的关联, 将还原后的附件附加在正文中。
另一方面, 本发明还公开了一种非加密 WEB 邮件的分析和还原系统, 包括邮件分 析模块和邮件还原模块, 所述邮件分析模块用于建立不同类型的邮件会话对应的邮件样本 库; 所述邮件还原模块用于截获新邮件会话后, 根据其对应的邮件样本库, 从该邮件会话中 还原出邮件。
本发明的有益效果是 :
本发明分析时先获取邮件会话, 建立不同类型的邮件会话对应的邮件样本库 ; 在 还原时截获新邮件会话, 根据其对应的邮件样本库, 从该邮件会话中还原出可供阅读的邮 件。本发明可将不同类型的邮件会话还原为可供阅读的邮件, 能方便地监听非加密的 WEB 邮件, 维护网络安全。
附图说明
图 1 示例性地描述了本发明的非加密 WEB 邮件的分析方法的流程图 ; 图 2 示例性地描述了本发明的非加密 WEB 邮件的还原方法的流程图 ; 图 3 示例性地描述了本发明的系统结构图。具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
本发明公开了一种非加密 WEB 邮件的分析和还原方法, 包含以下步骤 :
建立不同类型的邮件会话对应的邮件样本库 ;
截获新邮件会话后, 根据其对应的邮件样本库, 从该邮件会话中还原出邮件。
实施例一 :
如图 1 所示, 本发明一个实施例的非加密 WEB 邮件的分析方法, 包含以下步骤 :
步骤 101, 获取多种类型的邮件会话, 作为邮件样本会话。
一个邮件会话中包含一封邮件的所有信息。
邮件会话是将邮件进行编码等处理后的数据包或数据流, 可以进行传输, 但是无 法直接阅读。邮件类型不同, 邮件经过的处理不同, 生成的邮件会话的类型也不同。
邮件的类型很多, 例如 Yahoo, Hotmail 等, 为了还原某一类型的邮件, 必须首先获 取该类型的邮件会话。
由于互联网上数据会产生丢包、 重复包等情况, 因此每种类型的邮件应该获取多 个邮件会话作为样本, 以减少由于样本数据错误而造成的邮件还原错误。 一般情况下, 至少 应该有两份邮件会话样本。
步骤 102, 对于每一种类型的邮件样本会话, 分析其邮件正文关键字的信息。
邮件正文关键字包括邮件发送者、 接收者、 抄送者、 主题、 内容等 ; 分析时的信息主 要是以上各正文关键字在该类型的会话中所处的位置。
正文关键字在会话中所处的位置包括该正文关键字是处于会话的上行请求或是 处于会话的下行响应, 还包括上述关键字在会话中的起始位置。
步骤 103, 用分析后的所有样本邮件会话的正文关键字的信息建立该类型邮件会 话的正文样本数据库。
每种类型的会话获取的邮件样本会话有多份, 若这些的邮件样本会话的关键字的 信息相同, 则依此建立样本数据库 ; 若这些样本关键字的信息不同, 则舍弃少数不同的样 本, 按照多数原则建立样本数据库。
步骤 104, 对于每一种类型的邮件样本会话, 分析其邮件附件关键字的信息。
邮件附件关键字信息包括附件的发送者、 接收者、 抄送者、 主题、 内容等 ; 分析关键 字的信息主要分析以上各关键字在该类型的会话中所处的位置。
附件关键字在会话中所处的位置包括该附件关键字是处于会话的上行请求或是 处于会话的下行响应, 还包括上述附件关键字在会话中的起始位置。
步骤 105, 用分析后的所有样本邮件会话的附件关键字的信息建立该类型邮件会 话的附件样本数据库。
步骤 106, 对于每一种类型的邮件样本会话, 分析邮件正文样本库和附件样本库的关键字的信息, 建立邮件正文和附件的关联。
建立的邮件正文样和附件关联为邮件正文样本库和附件样本库关键字的信息中 的相同部分的对应关系。
建立邮件附件和正文的关联主要是为了确定附件是附在哪封邮件中的。
实施例二 :
邮件的还原过程是从经过编码等处理的邮件会话中提取有用信息, 还原成可供阅 读的邮件。
本发明一个实施例的非加密 WEB 邮件的还原方法, 包含以下步骤 :
步骤 201, 截获需要还原的邮件会话。
步骤 202, 判断其属于哪种类型的会话, 判断该类型的会话样本库是否存在。
步骤 203, 根据邮件的会话类型, 在相应类型的样本库中, 对比邮件正文样本库各 正文关键字所处的位置, 从会话中还原出邮件正文。
步骤 204, 对比附件样本库各附件关键字所处的位置, 从会话中还原出邮件附件。
步骤 205, 根据邮件正文和附件之间的关联, 将还原后的附件放入邮件中。
若该邮件会话中没有附件关键字, 则可以省略步骤 204 和步骤 205。 实施例三 :
以 Yahoo 邮件为例, 本发明的非加密 WEB 邮件的分析和还原方法的一个具体实施 例, 包含以下步骤 :
步骤 301, 获取多种邮件会话, 其中包括 HTTP 协议的 Yahoo 邮件会话作为样本。
步骤 302, 判断获取的每种类型的样本数量是否大于等于 N, N 的建议值至少大于 等于 2。若样本数量大于等于 N, 则继续以下步骤 ; 若样本数量小于 N, 则继续获取邮件数据 包样本。
保证样本数量大于等于 N 是为了减少由于截获样本数据时由于丢包、 延时等其他 原因产生的样本数据错误而造成的邮件还原时的错误, 提高了邮件还原时的准确性。
步骤 303, 对于每一种类型的邮件会话, 分析邮件正文关键字的信息。
邮件正文关键字包括发送者、 接收者、 抄送者、 主题、 内容等 ; 分析关键字的信息时主 要根据数据包中的源 IP、 目的 IP 以及端口号, 从 HTTP 的协议数据包中过滤出属于同一个 HTTP 会话的数据包, 确定其中的关键字, 以及确定以上各正文关键字在该邮件会话中所处的位置。
正文关键字在邮件会话中所处的位置包括该正文关键字是处于会话的上行请求 或是处于会话的下行响应, 还包括上述关键字在会话中的起始位置。
例如, 此时可以建立一张会话表, 每一个单元格对应于 HTTP 协议会话中的一段字 节或地址, 会话表分为上行请求会话表和下行响应会话表, 在会话表中, 标明各关键字所处 的单元格, 对应于会话中各关键字在 HTTP 协议数据中的一段字节或地址, 例如 “发送者” 是 第一单元格, 对应于会话中的一段特定字节或地址。
步骤 304, 用分析后的所有样本邮件的正文关键字的信息建立正文样本数据库。
步骤 305, 对于每一种类型的邮件会话, 分析邮件附件关键字的信息。
步骤 306, 用分析后的所有样本邮件的附件关键字的信息建立附件样本数据库。
建立附件样本数据库的方法与建立正文样本数据库类似, 此处不再赘述。
步骤 307, 分析邮件正文样本库和附件样本库关键字, 建立邮件正文和附件的关
联。 例如, 在建立的正文上行请求会话表中, 第一单元格是 “发送者” , 而建立的附件上 行请求报表中, 第二单元格都是 “发送者” , 则建立正文上行请求报表第一单元格到附件上 行请求报表第二单元格的关联。所有关键字的关联都建立后, 该邮件正文和附件就建立了 关联。
步骤 308, 截获需要还原的邮件会话, 本实施例中为 HTTP 协议的 Yahoo 邮件会话。
步骤 309, 判断上述邮件会话的类型, 若该类型会话样本库存在, 则转向该类型会 话样本库, 若该类型会话样本库不存在, 则结束邮件还原。
步骤 310, 判断该会话是上行请求还是下行响应, 若是上行请求, 则转步骤 311 ; 若 是下行请求, 则转到步骤 314。
步骤 311, 对比邮件正文样本库中上行请求中正文关键字所处的位置, 从会话中还 原出邮件正文。
例如在正文样本库中, 上行请求中, 某一地址对应的是 “发送者” , 则认为在需要还 原的邮件正文中, 相同地址也对应的是 “发送者” , 依此还原 “发送者” 的具体信息 ; 若相同的 地址没有相关数据, 则认为还原失败, 转向步骤 309。
将所有关键字对应的具体内容还原出来, 即还原除了邮件正文。
步骤 312, 对比附件样本库各附件关键字所处的位置, 从会话中还原出邮件附件。
若是需要还原的数据包中未找到各附件关键字, 则表明该邮件中没有附件, 可省 略此步骤。
步骤 313, 若邮件正文和附件之间的关联匹配, 则将还原后的附件放入邮件中, 还 原为完整的邮件 ; 若是不匹配, 则转到步骤 309。
步骤 314, 对比邮件正文样本库下行响应中各正文关键字所处的位置, 从会话中还 原出邮件正文。
步骤 315, 对比附件样本库各附件关键字所处的位置, 从会话中还原出邮件附件。
步骤 316, 若邮件正文和附件之间的关联匹配, 则将还原后的附件放入邮件中, 还 原为可供阅读的邮件。
若该邮件中没有附件, 可省略还原过程中和附件有关的步骤。
实施例三 :
如图 3 所示, 本发明一个实施例的分加密 WEB 邮件分析和还原系统, 包含以下 : 包 括邮件分析模块和邮件还原模块, 所述邮件分析模块用于建立不同类型的邮件会话对应的 邮件样本库 ; 所述邮件还原模块用于截获新邮件会话后, 根据其对应的邮件样本库, 从该邮 件会话中还原出邮件。
本发明分析时先获取邮件会话, 建立不同类型的邮件会话对应的邮件样本库 ; 在 还原时截获新邮件会话, 根据其对应的邮件样本库, 从该邮件会话中还原出可供阅读的邮 件。本发明可将不同类型的邮件会话还原为可供阅读的邮件, 能方便地监听非加密的 WEB 邮件, 维护了网络安全。 此外, 本发明在建立样本库时对于每种类型的邮件都采用了获取了 多个邮件会话, 可提高邮件还原的准确性。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明, 不能认定本发 明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说, 在不脱
离本发明构思的前提下, 还可以做出若干简单推演或替换, 都应当视为属于本发明的保护 范围。