一种话单去重方法及装置.pdf

摘要
申请专利号：	CN201210520910.3	申请日：	2012.12.06
公开号：	CN103037344A	公开日：	2013.04.10
当前法律状态：	授权	有效性：	有权
法律详情：	专利权人的姓名或者名称、地址的变更IPC(主分类):H04W 4/24变更事项:专利权人变更前:北京亚信时代融创咨询有限公司变更后:亚信时代科技集团有限公司变更事项:地址变更前:100193 北京市海淀区西北旺东路10号院东区19号楼4层A座A2区变更后:100193 北京市海淀区西北旺东路10号院东区19号楼4层A座A2区\|\|\|专利权的转移IPC(主分类):H04W 4/24登记生效日:20161230变更事项:专利权人变更前权利人:亚信科技（中国）有限公司变更后权利人:亚信远航软件（北京）有限公司变更事项:地址变更前权利人:100193 北京市海淀区西北旺东路10号院东区亚信联创全球总部研发中心大楼变更后权利人:100193 北京市海淀区西北旺东路10号院东区亚信联创全球总部研发中心大楼4层A座A1区\|\|\|专利权的转移IPC(主分类):H04W 4/24登记生效日:20161230变更事项:专利权人变更前权利人:亚信远航软件（北京）有限公司变更后权利人:北京亚信时代融创咨询有限公司变更事项:地址变更前权利人:100193 北京市海淀区西北旺东路10号院东区亚信联创全球总部研发中心大楼4层A座A1区变更后权利人:100193 北京市海淀区西北旺东路10号院东区19号楼4层A座A2区\|\|\|授权\|\|\|著录事项变更IPC(主分类):H04W 4/24变更事项:申请人变更前:亚信科技（中国）有限公司变更后:亚信科技（中国）有限公司变更事项:地址变更前:100086 北京市海淀区中关村南大街6号中电信息大厦4层变更后:100193 北京市海淀区西北旺东路10号院东区亚信联创全球总部研发中心大楼\|\|\|著录事项变更IPC(主分类):H04W 4/24变更事项:申请人变更前:亚信联创科技（中国）有限公司变更后:亚信科技（中国）有限公司变更事项:地址变更前:100086 北京市海淀区中关村南大街6号中电信息大厦4层变更后:100086 北京市海淀区中关村南大街6号中电信息大厦4层\|\|\|实质审查的生效IPC(主分类):H04W 4/24申请日:20121206\|\|\|公开
IPC分类号：	H04W4/24(2009.01)I; H04W24/04(2009.01)I; G06F17/30	主分类号：	H04W4/24
申请人：	亚信联创科技（中国）有限公司
发明人：	李小平; 汪德奇; 徐亮
地址：	100086 北京市海淀区中关村南大街6号中电信息大厦4层
优先权：
专利代理机构：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
PDF下载：	PDF下载

内容摘要

本发明实施例公开了一种话单去重方法及装置，具体方法是：对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；依次识别内存数据表中所述模值指示位置上是否有信息；当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息；当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。此方法及装置能够减少话单内存占用量，提高去重效率。

权利要求书

权利要求书一种话单去重方法，其特征在于，包括：
对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；
提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；
依次识别内存数据表中所述模值指示位置上是否有信息；
当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息；
当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
根据权利要求1所述的方法，其特征在于，所述内存数据表采用内存数据库MDB结构进行存储。
根据权利要求1或者2所述的方法，其特征在于，在所述对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理得到哈希数值之后，还包括：
提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。
根据权利要求3所述的方法，其特征在于，所述文件数据表采用文件集群储存结构进行存储的。
根据权利要求1或者2所述的方法，其特征在于，所述对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值，包括：
根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系；
按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。
一种话单去重装置，其特征在于，包括：
映射模块，用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；
内存位置模块，用于提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；
内存识别模块，用于依次识别内存数据表中所述模值指示位置上是否有信息；
内存判断模块，用于当所述内存识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息；
内存更改模块，当所述内存识别模块识别出所述位置上至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
根据权利要求6所述的装置，其特征在于，还包括：
文件位置模块，用于提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。
根据权利要求7所述的装置，其特征在于，还包括：
文件识别模块，用于依次识别文件数据表中所述模值指示位置上是否有信息。
根据权利要求7所述的装置，其特征在于，还包括：
文件判断模块，用于当所述文件识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息。
根据权利要求7所述的装置，其特征在于，还包括：
文件更改模块，用于当文件判断模块判断出所述位置中至少有一个位没有信息时，则在没有信息的空位置更新所述摘要信息。
根据权利要求6或者7所述的装置，其特征在于，所述映射模块，包括：
设置子模块，用于根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量和哈希数值的个数成比例关系；
映射子模块，用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到哈希数值。

说明书

说明书一种话单去重方法及装置
技术领域
本发明涉及通信技术领域，特别是涉及一种话单去重方法及装置。
背景技术
随着通信技术的快速发展，电信行业的业务量也越来越大，同时对话单采集的要求也就越来越高，话单是指通信原始记录信息，以固定电话为例，话单主要记录以下信息：流水号、用户标识、主叫号码、被叫号码、起始时间、结束时间、通话时长、通话性质、费率、费用、折扣等，具体话单包含的信息，可根据业务需求不同而不同。由于在话单采集过程中的重复采集或者交换机本身故障等异常操作可能会产生重复话单，如果不及时剔除，将会导致用户的费用统计有误，引起客户投诉，造成客源流失。因此在电信行业的计费系统中必须将重复话单剔除，所以这种话单去重技术是现在电信行业中电信数据采集系统的一种关键技术，也是一个难点技术。
现有的去重技术往往采用以下算法进行处理，具体为：采用话单中具有唯一性标识作用的主叫号码、被叫号码、通话起始时间、通过时长等关键字段值中的一些信息作为摘要信息，并将摘要信息以内容的形式保存在数据结构里，摘要信息一般为16字节的消息摘要算法(Message Digest Algorithm，MD5)值，保存的话单量十分庞大，因此占用的内存也是比较大；当处理新话单时将新话单的摘要信息与已经记录的话单的摘要信息进行匹配对比，若对比结果相同则为重单，返回信令指示为重单，否则，记录新话单。
但是，由于现在电信行业业务的快速发展，业务数据量也是越来越庞大，针对从海量的话单信息中剔除重复话单需要耗费大量的系统资源并且处理时间冗长，话单查重速度根本无法满足业务需求，经常成为影响系统性能的主要因素。
发明内容
为了解决上述技术问题，本发明提出了一种话单去重方法及装置，针对海量的话单信息，能够快速的实现去重处理，节约系统内存资源，提高处理速度，从而提高了系统性能。
本发明实施例公开了如下技术方案：
一种话单去重方法，包括：
对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；
提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；
依次识别内存数据表中所述模值指示位置上是否有信息；
当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息；
当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
优选的，所述内存数据表采用内存数据库MDB结构进行存储。
优选的，在所述对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理得到哈希数值之后，还包括：提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。
优选的，所述文件数据表采用文件集群储存结构进行存储的。
优选的，所述对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值，包括：根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系；按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。
还提供了，一种话单去重装置，包括：
映射模块，用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；
内存位置模块，用于提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；
内存识别模块，用于依次识别内存数据表中所述模值指示位置上是否有信息；
内存判断模块，用于当所述内存识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息；
内存更改模块，当所述内存识别模块识别出所述位置上至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
优选的，还包括：文件位置模块，用于提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。
优选的，还包括：文件识别模块，用于依次识别文件数据表中所述模值指示位置上是否有信息。
优选的，还包括：文件判断模块，用于当所述文件识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息。
优选的，还包括：文件更改模块，用于当文件判断模块判断出所述位置中至少有一个位没有信息时，则在没有信息的空位置更新所述摘要信息。
优选的，所述映射模块，包括：设置子模块，用于根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量和哈希数值的个数成比例关系；映射子模块，用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到哈希数值。
本发明实施例中所提供的一种话单去重方法及装置，通过对当前话单摘要信息的哈希函数处理，在对应的内存位置上查找信息位判断是否有信息，最终通过是否全部有信息来判断当前话单是否是重单，能够大大的节约话单占用的内存，快速地进行去重操作，提高整个系统的性能；同时本发明采用的内存数据库(Memory DataBase，MDB)作为内存保护介质当出现故障时，能够自动连接到备用MDB继续处理，从而很好的解决了系统出现问题时，无法话单去重的问题，采用的文件集群系统进行文件共享，在某个主机出现故障时，能够从另外的主机上运行查重进程，访问故障主机写出来的查重摘要信息文件，解决了当一个去重主机出现故障无法继续去重的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图1为本发明实施例一揭示的一种话单去重方法流程图；
图2为本发明实施例二揭示的另一种话单去重方法流程图；
图3为本发明实施例三揭示的另一种话单去重装置结构示意图；
图4为本发明实施例三揭示的内存数据表结构示意图；
图5为本发明实施例三揭示的内存位置结构示意图；
图6为本发明实施例四揭示的一种话单去重装置结构示意图；
图7为本发明揭示的另一种话单去重装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步详细描述。
需要说明的是，本发明所针对的话单可根据现实业务需求包含不同的信息，则话单的摘要信息也根据业务需要不同包含不同的信息，并不限定具体的话单信息。
实施例一
请参阅图1，其为本发明实施例一揭示的一种话单去重方法流程图。如图1所示，具体包括以下步骤：
步骤101：对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；
步骤102：提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；
步骤103：依次识别内存数据表中所述模值指示位置上是否有信息；
步骤104：当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息；
步骤105：当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理得到哈希数值，可以具体为：
优选的，所述步骤101包括：根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系；
按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。
例如，一个摘要信息中MD5值是16个字节，若是按照16个字节直接储存，则由于话单量的增加，需要的内存空间是十分庞大的，所以可以将一个MD5值拆分成比较小的多个数值，假如拆分成4个4字节的整数，然后将其在一个4字节地址的连续内存上映射4次即可，也可以根据实际需求映射成更多字节或者更少字节，只要能够将所述16个字节进行拆分映射即可，在此不做具体限定，本发明采用哈希函数映射处理，将摘要信息映射成多个哈希数值，可以解决空间要求的问题，提高空间利用率。
所述内存数据表是以MDB的数据结构进行存储。例如将用户配置信息、数据表信息、数据表映射信息和数据文件信息都保存在MDB表中，建立查重配置信息表，用户可以根据业务号，输入平时每日话单信息量及保存时间，查重程序启动后将按照用户配置重新计算，获取最优的执行配置信息。
话单信息按照业务进行分类，并参考话单时间进行分表保存到内存数据表中，程序按照用户设置的保存时间，将该段时间切割成若干时间段，每段时间的信息保存在一张内存数据表中，则不同的内存数据表保存不同时间段摘要信息，在内存里保存的信息有一个时间窗口，超过时间窗口的摘要信息其命中率会下降，则将该内存数据表中的记录信息从内存中导出到文件，然后再内存中将表删除。而且在MDB故障时，客户端会发现故障并自动连接到备用MDB继续进行去重处理，主备切换时的数据完整的在MDB中保存。线性地址数据在内存中是很长一段的内存，为了保证去重的正确率，可以设计采用64Kbit大小的内存进行去重运算，但是在每次更新或者更新操作必定产生8KB的冗余信息，为了使得每次冗余信息比较小，每条记录的定义必须较小才可以满足需求，所以将64Kbit内存切割成若干个12字节为一块的内存便可以满足需求。当然可以根据现实需求设置内存大小，再将内存切割成小字节的内存块，具体小字节的大小也是根据需求设定，在此并不做具体限定；
通过上述实施例可知：本发明提供的方法通过哈希函数映射处理，大大节约了话单占用的内存资源量，提高了话单查重速率，提高了空间利用率，同时也提高系统性能。
实施二
针对实施例一提供的方法，无法解决当话单查重时间超过了内存时间窗口的话单去重问题，本发明还提供了另外一种话单去重方法，请参阅图2所示的方法流程图，具体包括：
步骤201：对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值。
步骤202：提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。
步骤203：依次识别文件数据表中所述模值指示位置上是否有信息。
步骤204：当所述模值指示文件数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息。
步骤205：当所述模值指示文件数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
优选的，所述文件数据表采用文件集群储存结构进行储存。
例如：将所述文件数据表采用集群文件系统进行共享，可以在某个查重主机故障后，从另外的主机上运行查重进程，访问故障主机写出来的查重摘要信息文件，数据文件与表对应，表里的数据在被写出文件时，记录被重新组合成连续内存数据结构保存在文件里。在进行文件查重时，则根据地址，直接打开的文件里做偏移，得到要访问的数据，进行读写，为了减少磁盘读写IO的次数，使用8K大小的数据块为单位进行读写。
优选的，通过话单摘要信息中的时间，判断所述时间是否在内存查重时间段内，如果不在则进行文件去重。
通过上述实施例二提供的方法，在话单去重时，如果话单摘要信息不在内存查重范围内，则可以通过文件数据表进行话单去重，由于文件数据表可以保存时间更久的文件，使得去重的范围更广，去重的命中性更高，更好的节约内存。
实施例三
为了更为详细的对本发明所提供的方案进行描述，下面针对具体的去重场景进行描述，请参阅实施例三所提供的另外一种话单去重方法流程图，具体包括：
步骤301：对接收到的当前话单信息按照消息摘要算法Message DigestAlgorithm MD5进行处理得到摘要信息MD5值，对所述MD5值进行哈希函数处理得到哈希数值，所述哈希数值表示MD5值映射后的数值。
优选的，所述步骤301包括：根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系；
按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。
对所述MD5值进行哈希函数取值得到五个哈希数值。
步骤302A：按照话单时间提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置。
优选的，按照话单时间提取内存数据表，若话单时间是14:30，则在数据映射表中查找出数据表三的时间段是(12:00‑18:00)，则提取内存数据表3，具体如图4所示。
优选的，对所述MD5值进行哈希函数取值得到五个哈希数值进行取模运算得到Hash1＝2、Hash2＝4、Hash3＝7、Hash4＝8、Hash5＝12，则表示所述摘要信息对应在内存数据表中的位置是第2、4、7、8、12位。具体如图5所示的内存位置表。
步骤303A：依次识别内存数据表中所述模值指示位置上是否有信息。
优选的，根据步骤302A确定出的内存位置，在对应位置上依次确定是否存在信息，如图5所示的，去重前内存位置2上存在信息，位置4和位置7上都没有信息，位置8和位置12上都有信息，图中内存位置上数字1表示此位置有信息，数字0表示此位置无信息，当然也可以是其他方式表示是否存在信息，图5仅仅是其中一种方式，对其他方式并不作具体限定。
判断所述识别的位置上是否都有信息。
步骤304A：当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
在图5中去重前在位置4和7上都更新信息，则是将数字0修改为数字1，更新之后具体如图5去重后内存所示。
若检测的模值指示内存数据中的位置全部都有信息，则执行步骤305A：向客户端指示当前话单信息为重单信息。
优选的，根据图5所示的，识别出位置4和位置7上都没有信息，则满足至少有一个位置没有信息，确定是新话单，则发生新话单信息给客户端。
上述步骤302A：按照话单时间提取内存数据表，也可以是按照业务类型或者其他方式提取内存数据表并不做具体限定。
优选的，所述本发明，还包括步骤302B：当所述话单时间不在内存时间范围内，则提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。
则还包括步骤303B为：依次识别文件数据表中所述模值指示位置上是否有信息。
判断所述识别的位置上是否都有信息，
则还包括步骤304B为：当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
则还包括步骤305B为：当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息。
上述实施例中的数据表以MDB数据结构进行储存，以便当MDB出现故障时，客户端可以自动连接到备用的MDB继续处理；文件数据表以文件集群系统进行共享，以便可以在某个查重主机故障后，从另外一个主机上运行查重进程，访问故障主机写出来的查重摘要文件。
通过上述实施例三可知，本发明提供的去重方法，能够同时满足内存去重和文件去重，扩大去重范围，满足更多业务需求，减少内存占用量，提高去重速率，能够进行查重扩展，提高整个查重系统性能。
实施例四
本发明还提供了另一种话单去重装置，具体如图6所示的另一种话单去重装置结构图，包括：映射模块601、内存位置模块602，内存识别模块603A，内存判断模块604和内存更改模块605。
映射模块601，用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值。
内存位置模块602，用于提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置。
内存识别模块603，用于依次识别内存数据表中所述模值指示位置上是否有信息。
内存判断模块604，用于当所述内存识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息。
内存更改模块605，当所述内存识别模块识别出所述位置上至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。
优选的，所述映射模块601包含设置子模块601A和映射子模块601B，具体的：设置子模块601A，用于根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量和哈希数值的个数成比例关系。
映射子模块601B，用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到哈希数值。优选的，所述设置子模块可以是设置子模块601A：由于内存大小与集合元素个数是影响错误率的关键因素，根据错误率要求在10亿分之一以下，采用内存大小为64Kbit和元素个数是1524，则采用的Hash值个数不小于5个。
优选的，所述装置还包括：文件位置模块702B，用于提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示摘要信息在文件数据表中的位置。
则还包括：文件识别模块703B，用于依次识别内存数据表中所述模值指示位置上是否有信息。
优选的，还包括：文件判断模块704B，用于当所述文件识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息。
优选的，还包括：文件更改模块705B，用于当所述文件识别模块识别出所述位置上至少有一个位没有信息时，则在没有信息的空位置更新所述摘要信息。
优选的，所述装置还包括，内存储存模块，将所述内存数据表以MDB的数据结构进行储存，以便当MDB出现故障时，客户端可以自动连接到备用的MDB继续处理。
优选的，所述装置还包括，文件储存模块，将文件数据表以文件集群系统进行共享，以便当某个查重主机故障后，系统可以从另外一个主机上运行查重进程，访问故障主机写出来的查重摘要文件。
优选的，所述装置还可以同时包含内存位置模块702A和文件位置模块702B，对应的将包含内存识别模块703A、文件识别模块703B、内存判断模块704A、文件判断模块704B、内存更改模块705A、文件更改模块705B、内存储存模块706和文件储存模块707和当话单摘要信息时间在内存去重时间范围内，则采用内存位置模块进行相应处理，若不在，则采用文件位置模块进行相应处理。
当然，所述装置可以任意包含所述内存位置模块和所述文件位置模块任意一个，同时相对应的包含与各自对应的识别模块和判断模块以及储存模块。
通过上述实施例四可知，本发明提供的话单去重装置能够通过对话单信息的摘要信息进行映射处理，在对应的内存数据表中识别对应的位置上是否有信息，以此完成话单去重，大大减少话单占用的内存，提高去重效率，提高系统性能。
以上对本发明所提供的一种话单去重方法及装置进行了详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

资源描述

《一种话单去重方法及装置.pdf》由会员分享，可在线阅读，更多相关《一种话单去重方法及装置.pdf（16页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103037344 A (43)申请公布日 2013.04.10 CN 103037344 A *CN103037344A* (21)申请号 201210520910.3 (22)申请日 2012.12.06 H04W 4/24(2009.01) H04W 24/04(2009.01) G06F 17/30(2006.01) (71)申请人亚信联创科技（中国）有限公司地址 100086 北京市海淀区中关村南大街 6 号中电信息大厦 4 层 (72)发明人李小平汪德奇徐亮 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人王宝筠 (。

2、54) 发明名称一种话单去重方法及装置 (57) 摘要本发明实施例公开了一种话单去重方法及装置，具体方法是：对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；依次识别内存数据表中所述模值指示位置上是否有信息；当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息；当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。此方法及装置能够减少话单。

3、内存占用量，提高去重效率。 (51)Int.Cl. 权利要求书 2 页说明书 7 页附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 2 页说明书 7 页附图 6 页 1/2 页 2 1. 一种话单去重方法，其特征在于，包括：对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置；依次识别内存数据表中所述模值指示位置上是否有信息；当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当。

4、前话单信息为重单信息；当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 2.根据权利要求1所述的方法，其特征在于，所述内存数据表采用内存数据库MDB结构进行存储。 3.根据权利要求1或者2所述的方法，其特征在于，在所述对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理得到哈希数值之后，还包括：提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。 4. 根据权利要求 3 所述的方法，其特征在于，所述文件数据表采用文件集群储存结构进行存储的。。

5、 5.根据权利要求1或者2所述的方法，其特征在于，所述对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值，包括：根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系；按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。 6. 一种话单去重装置，其特征在于，包括：映射模块，用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值；内存位置模块，用于提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位。

6、置；内存识别模块，用于依次识别内存数据表中所述模值指示位置上是否有信息；内存判断模块，用于当所述内存识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息；内存更改模块，当所述内存识别模块识别出所述位置上至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 7. 根据权利要求 6 所述的装置，其特征在于，还包括：文件位置模块，用于提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。 8. 根据权利要求 7 所述的装置，其特征在于，还包括：文件识别模块。

7、，用于依次识别文件数据表中所述模值指示位置上是否有信息。 9. 根据权利要求 7 所述的装置，其特征在于，还包括：文件判断模块，用于当所述文件识别模块识别出所述位置上全部都有信息时，则向客权利要求书 CN 103037344 A 2 2/2 页 3 户端指示当前话单信息为重单信息。 10. 根据权利要求 7 所述的装置，其特征在于，还包括：文件更改模块，用于当文件判断模块判断出所述位置中至少有一个位没有信息时，则在没有信息的空位置更新所述摘要信息。 11. 根据权利要求 6 或者 7 所述的装置，其特征在于，所述映射模块，包括：设置子模块，用于。

8、根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量和哈希数值的个数成比例关系；映射子模块，用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到哈希数值。权利要求书 CN 103037344 A 3 1/7 页 4 一种话单去重方法及装置技术领域 0001 本发明涉及通信技术领域，特别是涉及一种话单去重方法及装置。背景技术 0002 随着通信技术的快速发展，电信行业的业务量也越来越大，同时对话单采集的要求也就越来越高，话单是指通信原始记录信息，以固定电话为例，话单主要记录以下信息：流水号、用户标识、主叫号码、被叫号码、。

9、起始时间、结束时间、通话时长、通话性质、费率、费用、折扣等，具体话单包含的信息，可根据业务需求不同而不同。由于在话单采集过程中的重复采集或者交换机本身故障等异常操作可能会产生重复话单，如果不及时剔除，将会导致用户的费用统计有误，引起客户投诉，造成客源流失。因此在电信行业的计费系统中必须将重复话单剔除，所以这种话单去重技术是现在电信行业中电信数据采集系统的一种关键技术，也是一个难点技术。 0003 现有的去重技术往往采用以下算法进行处理，具体为：采用话单中具有唯一性标识作用的主叫号码、被叫号码、通话起始时间、通过时长等关键字段值中的一些信息。

10、作为摘要信息，并将摘要信息以内容的形式保存在数据结构里，摘要信息一般为 16 字节的消息摘要算法 (Message Digest Algorithm， MD5) 值，保存的话单量十分庞大，因此占用的内存也是比较大；当处理新话单时将新话单的摘要信息与已经记录的话单的摘要信息进行匹配对比，若对比结果相同则为重单，返回信令指示为重单，否则，记录新话单。 0004 但是，由于现在电信行业业务的快速发展，业务数据量也是越来越庞大，针对从海量的话单信息中剔除重复话单需要耗费大量的系统资源并且处理时间冗长，话单查重速度根本无法满足业务需求，经常成为影响系统性能的主要。

11、因素。发明内容 0005 为了解决上述技术问题，本发明提出了一种话单去重方法及装置，针对海量的话单信息，能够快速的实现去重处理，节约系统内存资源，提高处理速度，从而提高了系统性能。 0006 本发明实施例公开了如下技术方案： 0007 一种话单去重方法，包括： 0008 对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值； 0009 提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置； 0010 依次识别内存数据表中所述模值指示位置上是否有信息； 0011 当所述模值指示内存数据表。

12、中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息； 0012 当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。说明书 CN 103037344 A 4 2/7 页 5 0013 优选的，所述内存数据表采用内存数据库 MDB 结构进行存储。 0014 优选的，在所述对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理得到哈希数值之后，还包括：提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。 0015 优选的，所述文件数据表采用文件。

13、集群储存结构进行存储的。 0016 优选的，所述对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值，包括：根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系；按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。 0017 还提供了，一种话单去重装置，包括： 0018 映射模块，用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值； 0019 内存位置模块，用于提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在。

14、内存数据表中的位置； 0020 内存识别模块，用于依次识别内存数据表中所述模值指示位置上是否有信息； 0021 内存判断模块，用于当所述内存识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息； 0022 内存更改模块，当所述内存识别模块识别出所述位置上至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 0023 优选的，还包括：文件位置模块，用于提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。 0024 优选的，还包括：文件识别模块，用于依次识别。

15、文件数据表中所述模值指示位置上是否有信息。 0025 优选的，还包括：文件判断模块，用于当所述文件识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息。 0026 优选的，还包括：文件更改模块，用于当文件判断模块判断出所述位置中至少有一个位没有信息时，则在没有信息的空位置更新所述摘要信息。 0027 优选的，所述映射模块，包括：设置子模块，用于根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量和哈希数值的个数成比例关系；映射子模块，用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到哈希数值。。

16、0028 本发明实施例中所提供的一种话单去重方法及装置，通过对当前话单摘要信息的哈希函数处理，在对应的内存位置上查找信息位判断是否有信息，最终通过是否全部有信息来判断当前话单是否是重单，能够大大的节约话单占用的内存，快速地进行去重操作，提高整个系统的性能；同时本发明采用的内存数据库 (Memory DataBase， MDB) 作为内存保护介质当出现故障时，能够自动连接到备用 MDB 继续处理，从而很好的解决了系统出现问题时，无法话单去重的问题，采用的文件集群系统进行文件共享，在某个主机出现故障时，能够从另外的主机上运行查重进程，访问故障主机写出来的查。

17、重摘要信息文件，解决了当一个去重主机出现故障无法继续去重的问题。说明书 CN 103037344 A 5 3/7 页 6 附图说明 0029 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。 0030 图 1 为本发明实施例一揭示的一种话单去重方法流程图； 0031 图 2 为本发明实施例二揭示的另一种话单去重方法流程图； 0032 图 3 为本发明实施例三。

18、揭示的另一种话单去重装置结构示意图； 0033 图 4 为本发明实施例三揭示的内存数据表结构示意图； 0034 图 5 为本发明实施例三揭示的内存位置结构示意图； 0035 图 6 为本发明实施例四揭示的一种话单去重装置结构示意图； 0036 图 7 为本发明揭示的另一种话单去重装置结构示意图。具体实施方式 0037 为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步详细描述。 0038 需要说明的是，本发明所针对的话单可根据现实业务需求包含不同的信息，则话单的摘要信息也根据业务需要不同包含不同的信息，并不限定具体的话单信息。。

19、 0039 实施例一 0040 请参阅图 1，其为本发明实施例一揭示的一种话单去重方法流程图。如图 1 所示，具体包括以下步骤： 0041 步骤 101 ：对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值； 0042 步骤 102 ：提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置； 0043 步骤 103 ：依次识别内存数据表中所述模值指示位置上是否有信息； 0044 步骤 104 ：当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息； 00。

20、45 步骤 105 ：当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 0046 对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理得到哈希数值，可以具体为： 0047 优选的，所述步骤 101 包括：根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系； 0048 按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。 0049 例如，一个摘要信息中 MD5 值是 16 个字节，若是按照 16 个字节直接储存，则由于话单量的增加，需要的内存空间。

21、是十分庞大的，所以可以将一个 MD5 值拆分成比较小的多个数值，假如拆分成 4 个 4 字节的整数，然后将其在一个 4 字节地址的连续内存上映射 4 次即可，也可以根据实际需求映射成更多字节或者更少字节，只要能够将所述 16 个字节进行说明书 CN 103037344 A 6 4/7 页 7 拆分映射即可，在此不做具体限定，本发明采用哈希函数映射处理，将摘要信息映射成多个哈希数值，可以解决空间要求的问题，提高空间利用率。 0050 所述内存数据表是以 MDB 的数据结构进行存储。例如将用户配置信息、数据表信息、数据表映射信息和数据文件信息都保存在 MDB 。

22、表中，建立查重配置信息表，用户可以根据业务号，输入平时每日话单信息量及保存时间，查重程序启动后将按照用户配置重新计算，获取最优的执行配置信息。 0051 话单信息按照业务进行分类，并参考话单时间进行分表保存到内存数据表中，程序按照用户设置的保存时间，将该段时间切割成若干时间段，每段时间的信息保存在一张内存数据表中，则不同的内存数据表保存不同时间段摘要信息，在内存里保存的信息有一个时间窗口，超过时间窗口的摘要信息其命中率会下降，则将该内存数据表中的记录信息从内存中导出到文件，然后再内存中将表删除。而且在 MDB 故障时，客户端会发现故障并自动连接到备用。

23、 MDB 继续进行去重处理，主备切换时的数据完整的在 MDB 中保存。线性地址数据在内存中是很长一段的内存，为了保证去重的正确率，可以设计采用 64Kbit 大小的内存进行去重运算，但是在每次更新或者更新操作必定产生 8KB 的冗余信息，为了使得每次冗余信息比较小，每条记录的定义必须较小才可以满足需求，所以将 64Kbit 内存切割成若干个 12 字节为一块的内存便可以满足需求。当然可以根据现实需求设置内存大小，再将内存切割成小字节的内存块，具体小字节的大小也是根据需求设定，在此并不做具体限定； 0052 通过上述实施例可知：本发明提供的方法通过哈希函数映射。

24、处理，大大节约了话单占用的内存资源量，提高了话单查重速率，提高了空间利用率，同时也提高系统性能。 0053 实施二 0054 针对实施例一提供的方法，无法解决当话单查重时间超过了内存时间窗口的话单去重问题，本发明还提供了另外一种话单去重方法，请参阅图 2 所示的方法流程图，具体包括： 0055 步骤 201 ：对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值。 0056 步骤 202 ：提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。 0057 步骤 203 ：依次识别文。

25、件数据表中所述模值指示位置上是否有信息。 0058 步骤 204 ：当所述模值指示文件数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息。 0059 步骤 205 ：当所述模值指示文件数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 0060 优选的，所述文件数据表采用文件集群储存结构进行储存。 0061 例如：将所述文件数据表采用集群文件系统进行共享，可以在某个查重主机故障后，从另外的主机上运行查重进程，访问故障主机写出来的查重摘要信息文件，数据文件与表对应，表里的数据在被写出文件时，记录被重新组合成连续内存数据。

26、结构保存在文件里。在进行文件查重时，则根据地址，直接打开的文件里做偏移，得到要访问的数据，进行读写，为了减少磁盘读写 IO 的次数，使用 8K 大小的数据块为单位进行读写。 0062 优选的，通过话单摘要信息中的时间，判断所述时间是否在内存查重时间段内，如说明书 CN 103037344 A 7 5/7 页 8 果不在则进行文件去重。 0063 通过上述实施例二提供的方法，在话单去重时，如果话单摘要信息不在内存查重范围内，则可以通过文件数据表进行话单去重，由于文件数据表可以保存时间更久的文件，使得去重的范围更广，去重的命中性更高，更好的节约内存。 00。

27、64 实施例三 0065 为了更为详细的对本发明所提供的方案进行描述，下面针对具体的去重场景进行描述，请参阅实施例三所提供的另外一种话单去重方法流程图，具体包括： 0066 步骤301 ：对接收到的当前话单信息按照消息摘要算法Message DigestAlgorithm MD5 进行处理得到摘要信息 MD5 值，对所述 MD5 值进行哈希函数处理得到哈希数值，所述哈希数值表示 MD5 值映射后的数值。 0067 优选的，所述步骤 301 包括：根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量、哈希数值的个数成比例关系； 0068 按照设置。

28、的哈希数值的个数对摘要信息进行哈希函数取值处理，得到哈希数值。 0069 对所述 MD5 值进行哈希函数取值得到五个哈希数值。 0070 步骤 302A ：按照话单时间提取内存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置。 0071 优选的，按照话单时间提取内存数据表，若话单时间是 14:30，则在数据映射表中查找出数据表三的时间段是 (12:00-18:00)，则提取内存数据表 3，具体如图 4 所示。 0072 优选的，对所述 MD5 值进行哈希函数取值得到五个哈希数值进行取模运算得到 Hash1 2、。

29、Hash2 4、 Hash3 7、 Hash4 8、 Hash5 12，则表示所述摘要信息对应在内存数据表中的位置是第 2、 4、 7、 8、 12 位。具体如图 5 所示的内存位置表。 0073 步骤 303A ：依次识别内存数据表中所述模值指示位置上是否有信息。 0074 优选的，根据步骤 302A 确定出的内存位置，在对应位置上依次确定是否存在信息，如图 5 所示的，去重前内存位置 2 上存在信息，位置 4 和位置 7 上都没有信息，位置 8 和位置 12 上都有信息，图中内存位置上数字 1 表示此位置有信息，数字 0 表示此位置无信息，当然也可以是其他方式表。

30、示是否存在信息，图 5 仅仅是其中一种方式，对其他方式并不作具体限定。 0075 判断所述识别的位置上是否都有信息。 0076 步骤 304A ：当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 0077 在图 5 中去重前在位置 4 和 7 上都更新信息，则是将数字 0 修改为数字 1，更新之后具体如图 5 去重后内存所示。 0078 若检测的模值指示内存数据中的位置全部都有信息，则执行步骤 305A ：向客户端指示当前话单信息为重单信息。 0079 优选的，根据图 5 所示的，识别出位置 4 和位置 7 上都没有信。

31、息，则满足至少有一个位置没有信息，确定是新话单，则发生新话单信息给客户端。 0080 上述步骤 302A ：按照话单时间提取内存数据表，也可以是按照业务类型或者其他方式提取内存数据表并不做具体限定。 0081 优选的，所述本发明，还包括步骤 302B ：当所述话单时间不在内存时间范围内，则说明书 CN 103037344 A 8 6/7 页 9 提取文件数据表，根据文件数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在文件数据表中的位置。 0082 则还包括步骤 303B 为：依次识别文件数据表中所述模值指示位置上是否有信息。 008。

32、3 判断所述识别的位置上是否都有信息， 0084 则还包括步骤 304B 为：当所述模值指示内存数据表中的位置至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 0085 则还包括步骤 305B 为：当所述模值指示内存数据表中的位置全部都有信息时，则向客户端指示当前话单信息为重单信息。 0086 上述实施例中的数据表以MDB数据结构进行储存，以便当MDB出现故障时，客户端可以自动连接到备用的 MDB 继续处理；文件数据表以文件集群系统进行共享，以便可以在某个查重主机故障后，从另外一个主机上运行查重进程，访问故障主机写出来的查重摘要文件。 008。

33、7 通过上述实施例三可知，本发明提供的去重方法，能够同时满足内存去重和文件去重，扩大去重范围，满足更多业务需求，减少内存占用量，提高去重速率，能够进行查重扩展，提高整个查重系统性能。 0088 实施例四 0089 本发明还提供了另一种话单去重装置，具体如图 6 所示的另一种话单去重装置结构图，包括：映射模块 601、内存位置模块 602，内存识别模块 603A，内存判断模块 604 和内存更改模块 605。 0090 映射模块 601，用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值。 0091 内存位置模块 602，用于提取内。

34、存数据表，根据内存数据表大小对所述哈希数值进行取模运算得到模值，所述模值指示所述摘要信息在内存数据表中的位置。 0092 内存识别模块 603，用于依次识别内存数据表中所述模值指示位置上是否有信息。 0093 内存判断模块 604，用于当所述内存识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息。 0094 内存更改模块 605，当所述内存识别模块识别出所述位置上至少有一个位置没有信息时，则在没有信息的空位置更新所述摘要信息。 0095 优选的，所述映射模块 601 包含设置子模块 601A 和映射子模块 601B，具体的：设置子模块 60。

35、1A，用于根据去重错误率设置哈希数值的个数，所述去重错误率与内存大小、话单数量和哈希数值的个数成比例关系。 0096 映射子模块 601B，用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到哈希数值。优选的，所述设置子模块可以是设置子模块 601A ：由于内存大小与集合元素个数是影响错误率的关键因素，根据错误率要求在 10 亿分之一以下，采用内存大小为 64Kbit 和元素个数是 1524，则采用的 Hash 值个数不小于 5 个。 0097 优选的，所述装置还包括：文件位置模块 702B，用于提取文件数据表，根据文件数据表大小对所述哈希数值进。

36、行取模运算得到模值，所述模值指示摘要信息在文件数据表中的位置。 0098 则还包括：文件识别模块 703B，用于依次识别内存数据表中所述模值指示位置上说明书 CN 103037344 A 9 7/7 页 10 是否有信息。 0099 优选的，还包括：文件判断模块 704B，用于当所述文件识别模块识别出所述位置上全部都有信息时，则向客户端指示当前话单信息为重单信息。 0100 优选的，还包括：文件更改模块 705B，用于当所述文件识别模块识别出所述位置上至少有一个位没有信息时，则在没有信息的空位置更新所述摘要信息。 0101 优选的，所述装置还包括，内。

37、存储存模块，将所述内存数据表以 MDB 的数据结构进行储存，以便当 MDB 出现故障时，客户端可以自动连接到备用的 MDB 继续处理。 0102 优选的，所述装置还包括，文件储存模块，将文件数据表以文件集群系统进行共享，以便当某个查重主机故障后，系统可以从另外一个主机上运行查重进程，访问故障主机写出来的查重摘要文件。 0103 优选的，所述装置还可以同时包含内存位置模块 702A 和文件位置模块 702B，对应的将包含内存识别模块703A、文件识别模块703B、内存判断模块704A、文件判断模块704B、内存更改模块 705A、文件更改模块 705B、。

38、内存储存模块 706 和文件储存模块 707 和当话单摘要信息时间在内存去重时间范围内，则采用内存位置模块进行相应处理，若不在，则采用文件位置模块进行相应处理。 0104 当然，所述装置可以任意包含所述内存位置模块和所述文件位置模块任意一个，同时相对应的包含与各自对应的识别模块和判断模块以及储存模块。 0105 通过上述实施例四可知，本发明提供的话单去重装置能够通过对话单信息的摘要信息进行映射处理，在对应的内存数据表中识别对应的位置上是否有信息，以此完成话单去重，大大减少话单占用的内存，提高去重效率，提高系统性能。 0106 以上对本发明所提供的一种话单去重方法及。

39、装置进行了详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。说明书 CN 103037344 A 10 1/6 页 11 图 1 说明书附图 CN 103037344 A 11 2/6 页 12 图 2 说明书附图 CN 103037344 A 12 3/6 页 13 图 3 图 4 说明书附图 CN 103037344 A 13 4/6 页 14 图 5 说明书附图 CN 103037344 A 14 5/6 页 15 图 6 说明书附图 CN 103037344 A 15 6/6 页 16 图 7 说明书附图 CN 103037344 A 16 。

展开阅读全文