《一种话单去重方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种话单去重方法及装置.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103037344 A (43)申请公布日 2013.04.10 CN 103037344 A *CN103037344A* (21)申请号 201210520910.3 (22)申请日 2012.12.06 H04W 4/24(2009.01) H04W 24/04(2009.01) G06F 17/30(2006.01) (71)申请人 亚信联创科技 (中国) 有限公司 地址 100086 北京市海淀区中关村南大街 6 号中电信息大厦 4 层 (72)发明人 李小平 汪德奇 徐亮 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 王宝筠 (。
2、54) 发明名称 一种话单去重方法及装置 (57) 摘要 本发明实施例公开了一种话单去重方法及装 置, 具体方法是 : 对接收到的当前话单信息中的 摘要信息进行哈希函数取值处理得到哈希数值 ; 提取内存数据表, 根据内存数据表大小对所述哈 希数值进行取模运算得到模值, 所述模值指示所 述摘要信息在内存数据表中的位置 ; 依次识别内 存数据表中所述模值指示位置上是否有信息 ; 当 所述模值指示内存数据表中的位置全部都有信 息时, 则向客户端指示当前话单信息为重单信息 ; 当所述模值指示内存数据表中的位置至少有一个 位置没有信息时, 则在没有信息的空位置更新所 述摘要信息。此方法及装置能够减少话单。
3、内存占 用量, 提高去重效率。 (51)Int.Cl. 权利要求书 2 页 说明书 7 页 附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 7 页 附图 6 页 1/2 页 2 1. 一种话单去重方法, 其特征在于, 包括 : 对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值 ; 提取内存数据表, 根据内存数据表大小对所述哈希数值进行取模运算得到模值, 所述 模值指示所述摘要信息在内存数据表中的位置 ; 依次识别内存数据表中所述模值指示位置上是否有信息 ; 当所述模值指示内存数据表中的位置全部都有信息时, 则向客户端指示当。
4、前话单信息 为重单信息 ; 当所述模值指示内存数据表中的位置至少有一个位置没有信息时, 则在没有信息的空 位置更新所述摘要信息。 2.根据权利要求1所述的方法, 其特征在于, 所述内存数据表采用内存数据库MDB结构 进行存储。 3.根据权利要求1或者2所述的方法, 其特征在于, 在所述对接收到的当前话单信息中 的摘要信息值进行哈希函数取值处理得到哈希数值之后, 还包括 : 提取文件数据表, 根据文件数据表大小对所述哈希数值进行取模运算得到模值, 所述 模值指示所述摘要信息在文件数据表中的位置。 4. 根据权利要求 3 所述的方法, 其特征在于, 所述文件数据表采用文件集群储存结构 进行存储的。。
5、 5.根据权利要求1或者2所述的方法, 其特征在于, 所述对接收到的当前话单信息中的 摘要信息进行哈希函数取值处理得到哈希数值, 包括 : 根据去重错误率设置哈希数值的个数, 所述去重错误率与内存大小、 话单数量、 哈希数 值的个数成比例关系 ; 按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理, 得到哈希数值。 6. 一种话单去重装置, 其特征在于, 包括 : 映射模块, 用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈 希数值 ; 内存位置模块, 用于提取内存数据表, 根据内存数据表大小对所述哈希数值进行取模 运算得到模值, 所述模值指示所述摘要信息在内存数据表中的位。
6、置 ; 内存识别模块, 用于依次识别内存数据表中所述模值指示位置上是否有信息 ; 内存判断模块, 用于当所述内存识别模块识别出所述位置上全部都有信息时, 则向客 户端指示当前话单信息为重单信息 ; 内存更改模块, 当所述内存识别模块识别出所述位置上至少有一个位置没有信息时, 则在没有信息的空位置更新所述摘要信息。 7. 根据权利要求 6 所述的装置, 其特征在于, 还包括 : 文件位置模块, 用于提取文件数据表, 根据文件数据表大小对所述哈希数值进行取模 运算得到模值, 所述模值指示所述摘要信息在文件数据表中的位置。 8. 根据权利要求 7 所述的装置, 其特征在于, 还包括 : 文件识别模块。
7、, 用于依次识别文件数据表中所述模值指示位置上是否有信息。 9. 根据权利要求 7 所述的装置, 其特征在于, 还包括 : 文件判断模块, 用于当所述文件识别模块识别出所述位置上全部都有信息时, 则向客 权 利 要 求 书 CN 103037344 A 2 2/2 页 3 户端指示当前话单信息为重单信息。 10. 根据权利要求 7 所述的装置, 其特征在于, 还包括 : 文件更改模块, 用于当文件判断模块判断出所述位置中至少有一个位没有信息时, 则 在没有信息的空位置更新所述摘要信息。 11. 根据权利要求 6 或者 7 所述的装置, 其特征在于, 所述映射模块, 包括 : 设置子模块, 用于。
8、根据去重错误率设置哈希数值的个数, 所述去重错误率与内存大小、 话单数量和哈希数值的个数成比例关系 ; 映射子模块, 用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到 哈希数值。 权 利 要 求 书 CN 103037344 A 3 1/7 页 4 一种话单去重方法及装置 技术领域 0001 本发明涉及通信技术领域, 特别是涉及一种话单去重方法及装置。 背景技术 0002 随着通信技术的快速发展, 电信行业的业务量也越来越大, 同时对话单采集的要 求也就越来越高, 话单是指通信原始记录信息, 以固定电话为例, 话单主要记录以下信息 : 流水号、 用户标识、 主叫号码、 被叫号码、。
9、 起始时间、 结束时间、 通话时长、 通话性质、 费率、 费 用、 折扣等, 具体话单包含的信息, 可根据业务需求不同而不同。由于在话单采集过程中的 重复采集或者交换机本身故障等异常操作可能会产生重复话单, 如果不及时剔除, 将会导 致用户的费用统计有误, 引起客户投诉, 造成客源流失。 因此在电信行业的计费系统中必须 将重复话单剔除, 所以这种话单去重技术是现在电信行业中电信数据采集系统的一种关键 技术, 也是一个难点技术。 0003 现有的去重技术往往采用以下算法进行处理, 具体为 : 采用话单中具有唯一性标 识作用的主叫号码、 被叫号码、 通话起始时间、 通过时长等关键字段值中的一些信息。
10、作为摘 要信息, 并将摘要信息以内容的形式保存在数据结构里, 摘要信息一般为 16 字节的消息摘 要算法 (Message Digest Algorithm, MD5) 值, 保存的话单量十分庞大, 因此占用的内存也 是比较大 ; 当处理新话单时将新话单的摘要信息与已经记录的话单的摘要信息进行匹配对 比, 若对比结果相同则为重单, 返回信令指示为重单, 否则, 记录新话单。 0004 但是, 由于现在电信行业业务的快速发展, 业务数据量也是越来越庞大, 针对从海 量的话单信息中剔除重复话单需要耗费大量的系统资源并且处理时间冗长, 话单查重速度 根本无法满足业务需求, 经常成为影响系统性能的主要。
11、因素。 发明内容 0005 为了解决上述技术问题, 本发明提出了一种话单去重方法及装置, 针对海量的话 单信息, 能够快速的实现去重处理, 节约系统内存资源, 提高处理速度, 从而提高了系统性 能。 0006 本发明实施例公开了如下技术方案 : 0007 一种话单去重方法, 包括 : 0008 对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈希数值 ; 0009 提取内存数据表, 根据内存数据表大小对所述哈希数值进行取模运算得到模值, 所述模值指示所述摘要信息在内存数据表中的位置 ; 0010 依次识别内存数据表中所述模值指示位置上是否有信息 ; 0011 当所述模值指示内存数据表。
12、中的位置全部都有信息时, 则向客户端指示当前话单 信息为重单信息 ; 0012 当所述模值指示内存数据表中的位置至少有一个位置没有信息时, 则在没有信息 的空位置更新所述摘要信息。 说 明 书 CN 103037344 A 4 2/7 页 5 0013 优选的, 所述内存数据表采用内存数据库 MDB 结构进行存储。 0014 优选的, 在所述对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理 得到哈希数值之后, 还包括 : 提取文件数据表, 根据文件数据表大小对所述哈希数值进行取 模运算得到模值, 所述模值指示所述摘要信息在文件数据表中的位置。 0015 优选的, 所述文件数据表采用文件。
13、集群储存结构进行存储的。 0016 优选的, 所述对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到 哈希数值, 包括 : 根据去重错误率设置哈希数值的个数, 所述去重错误率与内存大小、 话单 数量、 哈希数值的个数成比例关系 ; 按照设置的哈希数值的个数对摘要信息进行哈希函数 取值处理, 得到哈希数值。 0017 还提供了, 一种话单去重装置, 包括 : 0018 映射模块, 用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得 到哈希数值 ; 0019 内存位置模块, 用于提取内存数据表, 根据内存数据表大小对所述哈希数值进行 取模运算得到模值, 所述模值指示所述摘要信息在。
14、内存数据表中的位置 ; 0020 内存识别模块, 用于依次识别内存数据表中所述模值指示位置上是否有信息 ; 0021 内存判断模块, 用于当所述内存识别模块识别出所述位置上全部都有信息时, 则 向客户端指示当前话单信息为重单信息 ; 0022 内存更改模块, 当所述内存识别模块识别出所述位置上至少有一个位置没有信息 时, 则在没有信息的空位置更新所述摘要信息。 0023 优选的, 还包括 : 文件位置模块, 用于提取文件数据表, 根据文件数据表大小对所 述哈希数值进行取模运算得到模值, 所述模值指示所述摘要信息在文件数据表中的位置。 0024 优选的, 还包括 : 文件识别模块, 用于依次识别。
15、文件数据表中所述模值指示位置上 是否有信息。 0025 优选的, 还包括 : 文件判断模块, 用于当所述文件识别模块识别出所述位置上全部 都有信息时, 则向客户端指示当前话单信息为重单信息。 0026 优选的, 还包括 : 文件更改模块, 用于当文件判断模块判断出所述位置中至少有一 个位没有信息时, 则在没有信息的空位置更新所述摘要信息。 0027 优选的, 所述映射模块, 包括 : 设置子模块, 用于根据去重错误率设置哈希数值的 个数, 所述去重错误率与内存大小、 话单数量和哈希数值的个数成比例关系 ; 映射子模块, 用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理得到哈希数值。 。
16、0028 本发明实施例中所提供的一种话单去重方法及装置, 通过对当前话单摘要信息的 哈希函数处理, 在对应的内存位置上查找信息位判断是否有信息, 最终通过是否全部有信 息来判断当前话单是否是重单, 能够大大的节约话单占用的内存, 快速地进行去重操作, 提 高整个系统的性能 ; 同时本发明采用的内存数据库 (Memory DataBase, MDB) 作为内存保护 介质当出现故障时, 能够自动连接到备用 MDB 继续处理, 从而很好的解决了系统出现问题 时, 无法话单去重的问题, 采用的文件集群系统进行文件共享, 在某个主机出现故障时, 能 够从另外的主机上运行查重进程, 访问故障主机写出来的查。
17、重摘要信息文件, 解决了当一 个去重主机出现故障无法继续去重的问题。 说 明 书 CN 103037344 A 5 3/7 页 6 附图说明 0029 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0030 图 1 为本发明实施例一揭示的一种话单去重方法流程图 ; 0031 图 2 为本发明实施例二揭示的另一种话单去重方法流程图 ; 0032 图 3 为本发明实施例三。
18、揭示的另一种话单去重装置结构示意图 ; 0033 图 4 为本发明实施例三揭示的内存数据表结构示意图 ; 0034 图 5 为本发明实施例三揭示的内存位置结构示意图 ; 0035 图 6 为本发明实施例四揭示的一种话单去重装置结构示意图 ; 0036 图 7 为本发明揭示的另一种话单去重装置结构示意图。 具体实施方式 0037 为了使本技术领域的人员更好地理解本发明实施例的方案, 下面结合附图和实施 方式对本发明实施例作进一步详细描述。 0038 需要说明的是, 本发明所针对的话单可根据现实业务需求包含不同的信息, 则话 单的摘要信息也根据业务需要不同包含不同的信息, 并不限定具体的话单信息。。
19、 0039 实施例一 0040 请参阅图 1, 其为本发明实施例一揭示的一种话单去重方法流程图。如图 1 所示, 具体包括以下步骤 : 0041 步骤 101 : 对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈 希数值 ; 0042 步骤 102 : 提取内存数据表, 根据内存数据表大小对所述哈希数值进行取模运算 得到模值, 所述模值指示所述摘要信息在内存数据表中的位置 ; 0043 步骤 103 : 依次识别内存数据表中所述模值指示位置上是否有信息 ; 0044 步骤 104 : 当所述模值指示内存数据表中的位置全部都有信息时, 则向客户端指 示当前话单信息为重单信息 ; 00。
20、45 步骤 105 : 当所述模值指示内存数据表中的位置至少有一个位置没有信息时, 则 在没有信息的空位置更新所述摘要信息。 0046 对接收到的当前话单信息中的摘要信息值进行哈希函数取值处理得到哈希数值, 可以具体为 : 0047 优选的, 所述步骤 101 包括 : 根据去重错误率设置哈希数值的个数, 所述去重错误 率与内存大小、 话单数量、 哈希数值的个数成比例关系 ; 0048 按照设置的哈希数值的个数对摘要信息进行哈希函数取值处理, 得到哈希数值。 0049 例如, 一个摘要信息中 MD5 值是 16 个字节, 若是按照 16 个字节直接储存, 则由于 话单量的增加, 需要的内存空间。
21、是十分庞大的, 所以可以将一个 MD5 值拆分成比较小的多 个数值, 假如拆分成 4 个 4 字节的整数, 然后将其在一个 4 字节地址的连续内存上映射 4 次 即可, 也可以根据实际需求映射成更多字节或者更少字节, 只要能够将所述 16 个字节进行 说 明 书 CN 103037344 A 6 4/7 页 7 拆分映射即可, 在此不做具体限定, 本发明采用哈希函数映射处理, 将摘要信息映射成多个 哈希数值, 可以解决空间要求的问题, 提高空间利用率。 0050 所述内存数据表是以 MDB 的数据结构进行存储。例如将用户配置信息、 数据表信 息、 数据表映射信息和数据文件信息都保存在 MDB 。
22、表中, 建立查重配置信息表, 用户可以根 据业务号, 输入平时每日话单信息量及保存时间, 查重程序启动后将按照用户配置重新计 算, 获取最优的执行配置信息。 0051 话单信息按照业务进行分类, 并参考话单时间进行分表保存到内存数据表中, 程 序按照用户设置的保存时间, 将该段时间切割成若干时间段, 每段时间的信息保存在一张 内存数据表中, 则不同的内存数据表保存不同时间段摘要信息, 在内存里保存的信息有一 个时间窗口, 超过时间窗口的摘要信息其命中率会下降, 则将该内存数据表中的记录信息 从内存中导出到文件, 然后再内存中将表删除。而且在 MDB 故障时, 客户端会发现故障并自 动连接到备用。
23、 MDB 继续进行去重处理, 主备切换时的数据完整的在 MDB 中保存。线性地址 数据在内存中是很长一段的内存, 为了保证去重的正确率, 可以设计采用 64Kbit 大小的内 存进行去重运算, 但是在每次更新或者更新操作必定产生 8KB 的冗余信息, 为了使得每次 冗余信息比较小, 每条记录的定义必须较小才可以满足需求, 所以将 64Kbit 内存切割成若 干个 12 字节为一块的内存便可以满足需求。当然可以根据现实需求设置内存大小, 再将内 存切割成小字节的内存块, 具体小字节的大小也是根据需求设定, 在此并不做具体限定 ; 0052 通过上述实施例可知 : 本发明提供的方法通过哈希函数映射。
24、处理, 大大节约了话 单占用的内存资源量, 提高了话单查重速率, 提高了空间利用率, 同时也提高系统性能。 0053 实施二 0054 针对实施例一提供的方法, 无法解决当话单查重时间超过了内存时间窗口的话单 去重问题, 本发明还提供了另外一种话单去重方法, 请参阅图 2 所示的方法流程图, 具体包 括 : 0055 步骤 201 : 对接收到的当前话单信息中的摘要信息进行哈希函数取值处理得到哈 希数值。 0056 步骤 202 : 提取文件数据表, 根据文件数据表大小对所述哈希数值进行取模运算 得到模值, 所述模值指示所述摘要信息在文件数据表中的位置。 0057 步骤 203 : 依次识别文。
25、件数据表中所述模值指示位置上是否有信息。 0058 步骤 204 : 当所述模值指示文件数据表中的位置全部都有信息时, 则向客户端指 示当前话单信息为重单信息。 0059 步骤 205 : 当所述模值指示文件数据表中的位置至少有一个位置没有信息时, 则 在没有信息的空位置更新所述摘要信息。 0060 优选的, 所述文件数据表采用文件集群储存结构进行储存。 0061 例如 : 将所述文件数据表采用集群文件系统进行共享, 可以在某个查重主机故障 后, 从另外的主机上运行查重进程, 访问故障主机写出来的查重摘要信息文件, 数据文件与 表对应, 表里的数据在被写出文件时, 记录被重新组合成连续内存数据。
26、结构保存在文件里。 在进行文件查重时, 则根据地址, 直接打开的文件里做偏移, 得到要访问的数据, 进行读写, 为了减少磁盘读写 IO 的次数, 使用 8K 大小的数据块为单位进行读写。 0062 优选的, 通过话单摘要信息中的时间, 判断所述时间是否在内存查重时间段内, 如 说 明 书 CN 103037344 A 7 5/7 页 8 果不在则进行文件去重。 0063 通过上述实施例二提供的方法, 在话单去重时, 如果话单摘要信息不在内存查重 范围内, 则可以通过文件数据表进行话单去重, 由于文件数据表可以保存时间更久的文件, 使得去重的范围更广, 去重的命中性更高, 更好的节约内存。 00。
27、64 实施例三 0065 为了更为详细的对本发明所提供的方案进行描述, 下面针对具体的去重场景进行 描述, 请参阅实施例三所提供的另外一种话单去重方法流程图, 具体包括 : 0066 步骤301 : 对接收到的当前话单信息按照消息摘要算法Message DigestAlgorithm MD5 进行处理得到摘要信息 MD5 值, 对所述 MD5 值进行哈希函数处理得到哈希数值, 所述哈 希数值表示 MD5 值映射后的数值。 0067 优选的, 所述步骤 301 包括 : 根据去重错误率设置哈希数值的个数, 所述去重错误 率与内存大小、 话单数量、 哈希数值的个数成比例关系 ; 0068 按照设置。
28、的哈希数值的个数对摘要信息进行哈希函数取值处理, 得到哈希数值。 0069 对所述 MD5 值进行哈希函数取值得到五个哈希数值。 0070 步骤 302A : 按照话单时间提取内存数据表, 根据内存数据表大小对所述哈希数值 进行取模运算得到模值, 所述模值指示所述摘要信息在内存数据表中的位置。 0071 优选的, 按照话单时间提取内存数据表, 若话单时间是 14:30, 则在数据映射表中 查找出数据表三的时间段是 (12:00-18:00), 则提取内存数据表 3, 具体如图 4 所示。 0072 优选的, 对所述 MD5 值进行哈希函数取值得到五个哈希数值进行取模运算得到 Hash1 2、 。
29、Hash2 4、 Hash3 7、 Hash4 8、 Hash5 12, 则表示所述摘要信息对应在内 存数据表中的位置是第 2、 4、 7、 8、 12 位。具体如图 5 所示的内存位置表。 0073 步骤 303A : 依次识别内存数据表中所述模值指示位置上是否有信息。 0074 优选的, 根据步骤 302A 确定出的内存位置, 在对应位置上依次确定是否存在信 息, 如图 5 所示的, 去重前内存位置 2 上存在信息, 位置 4 和位置 7 上都没有信息, 位置 8 和 位置 12 上都有信息, 图中内存位置上数字 1 表示此位置有信息, 数字 0 表示此位置无信息, 当然也可以是其他方式表。
30、示是否存在信息, 图 5 仅仅是其中一种方式, 对其他方式并不作 具体限定。 0075 判断所述识别的位置上是否都有信息。 0076 步骤 304A : 当所述模值指示内存数据表中的位置至少有一个位置没有信息时, 则 在没有信息的空位置更新所述摘要信息。 0077 在图 5 中去重前在位置 4 和 7 上都更新信息, 则是将数字 0 修改为数字 1, 更新之 后具体如图 5 去重后内存所示。 0078 若检测的模值指示内存数据中的位置全部都有信息, 则执行步骤 305A : 向客户端 指示当前话单信息为重单信息。 0079 优选的, 根据图 5 所示的, 识别出位置 4 和位置 7 上都没有信。
31、息, 则满足至少有一 个位置没有信息, 确定是新话单, 则发生新话单信息给客户端。 0080 上述步骤 302A : 按照话单时间提取内存数据表, 也可以是按照业务类型或者其他 方式提取内存数据表并不做具体限定。 0081 优选的, 所述本发明, 还包括步骤 302B : 当所述话单时间不在内存时间范围内, 则 说 明 书 CN 103037344 A 8 6/7 页 9 提取文件数据表, 根据文件数据表大小对所述哈希数值进行取模运算得到模值, 所述模值 指示所述摘要信息在文件数据表中的位置。 0082 则还包括步骤 303B 为 : 依次识别文件数据表中所述模值指示位置上是否有信息。 008。
32、3 判断所述识别的位置上是否都有信息, 0084 则还包括步骤 304B 为 : 当所述模值指示内存数据表中的位置至少有一个位置没 有信息时, 则在没有信息的空位置更新所述摘要信息。 0085 则还包括步骤 305B 为 : 当所述模值指示内存数据表中的位置全部都有信息时, 则 向客户端指示当前话单信息为重单信息。 0086 上述实施例中的数据表以MDB数据结构进行储存, 以便当MDB出现故障时, 客户端 可以自动连接到备用的 MDB 继续处理 ; 文件数据表以文件集群系统进行共享, 以便可以在 某个查重主机故障后, 从另外一个主机上运行查重进程, 访问故障主机写出来的查重摘要 文件。 008。
33、7 通过上述实施例三可知, 本发明提供的去重方法, 能够同时满足内存去重和文件 去重, 扩大去重范围, 满足更多业务需求, 减少内存占用量, 提高去重速率, 能够进行查重扩 展, 提高整个查重系统性能。 0088 实施例四 0089 本发明还提供了另一种话单去重装置, 具体如图 6 所示的另一种话单去重装置结 构图, 包括 : 映射模块 601、 内存位置模块 602, 内存识别模块 603A, 内存判断模块 604 和内 存更改模块 605。 0090 映射模块 601, 用于对接收到的当前话单信息中的摘要信息进行哈希函数取值处 理得到哈希数值。 0091 内存位置模块 602, 用于提取内。
34、存数据表, 根据内存数据表大小对所述哈希数值进 行取模运算得到模值, 所述模值指示所述摘要信息在内存数据表中的位置。 0092 内存识别模块 603, 用于依次识别内存数据表中所述模值指示位置上是否有信息。 0093 内存判断模块 604, 用于当所述内存识别模块识别出所述位置上全部都有信息时, 则向客户端指示当前话单信息为重单信息。 0094 内存更改模块 605, 当所述内存识别模块识别出所述位置上至少有一个位置没有 信息时, 则在没有信息的空位置更新所述摘要信息。 0095 优选的, 所述映射模块 601 包含设置子模块 601A 和映射子模块 601B, 具体的 : 设 置子模块 60。
35、1A, 用于根据去重错误率设置哈希数值的个数, 所述去重错误率与内存大小、 话 单数量和哈希数值的个数成比例关系。 0096 映射子模块 601B, 用于按照设置的哈希数值的个数对摘要信息进行哈希函数取值 处理得到哈希数值。优选的, 所述设置子模块可以是设置子模块 601A : 由于内存大小与集 合元素个数是影响错误率的关键因素, 根据错误率要求在 10 亿分之一以下, 采用内存大小 为 64Kbit 和元素个数是 1524, 则采用的 Hash 值个数不小于 5 个。 0097 优选的, 所述装置还包括 : 文件位置模块 702B, 用于提取文件数据表, 根据文件数 据表大小对所述哈希数值进。
36、行取模运算得到模值, 所述模值指示摘要信息在文件数据表中 的位置。 0098 则还包括 : 文件识别模块 703B, 用于依次识别内存数据表中所述模值指示位置上 说 明 书 CN 103037344 A 9 7/7 页 10 是否有信息。 0099 优选的, 还包括 : 文件判断模块 704B, 用于当所述文件识别模块识别出所述位置 上全部都有信息时, 则向客户端指示当前话单信息为重单信息。 0100 优选的, 还包括 : 文件更改模块 705B, 用于当所述文件识别模块识别出所述位置 上至少有一个位没有信息时, 则在没有信息的空位置更新所述摘要信息。 0101 优选的, 所述装置还包括, 内。
37、存储存模块, 将所述内存数据表以 MDB 的数据结构进 行储存, 以便当 MDB 出现故障时, 客户端可以自动连接到备用的 MDB 继续处理。 0102 优选的, 所述装置还包括, 文件储存模块, 将文件数据表以文件集群系统进行共 享, 以便当某个查重主机故障后, 系统可以从另外一个主机上运行查重进程, 访问故障主机 写出来的查重摘要文件。 0103 优选的, 所述装置还可以同时包含内存位置模块 702A 和文件位置模块 702B, 对应 的将包含内存识别模块703A、 文件识别模块703B、 内存判断模块704A、 文件判断模块704B、 内存更改模块 705A、 文件更改模块 705B、 。
38、内存储存模块 706 和文件储存模块 707 和当话单 摘要信息时间在内存去重时间范围内, 则采用内存位置模块进行相应处理, 若不在, 则采用 文件位置模块进行相应处理。 0104 当然, 所述装置可以任意包含所述内存位置模块和所述文件位置模块任意一个, 同时相对应的包含与各自对应的识别模块和判断模块以及储存模块。 0105 通过上述实施例四可知, 本发明提供的话单去重装置能够通过对话单信息的摘要 信息进行映射处理, 在对应的内存数据表中识别对应的位置上是否有信息, 以此完成话单 去重, 大大减少话单占用的内存, 提高去重效率, 提高系统性能。 0106 以上对本发明所提供的一种话单去重方法及。
39、装置进行了详细介绍, 本文中应用了 具体实施例对本发明的原理及实施方式进行了阐述, 以上实施例的说明只是用于帮助理解 本发明的方法及其核心思想 ; 同时, 对于本领域的一般技术人员, 依据本发明的思想, 在具 体实施方式及应用范围上均会有改变之处, 综上所述, 本说明书内容不应理解为对本发明 的限制。 说 明 书 CN 103037344 A 10 1/6 页 11 图 1 说 明 书 附 图 CN 103037344 A 11 2/6 页 12 图 2 说 明 书 附 图 CN 103037344 A 12 3/6 页 13 图 3 图 4 说 明 书 附 图 CN 103037344 A 13 4/6 页 14 图 5 说 明 书 附 图 CN 103037344 A 14 5/6 页 15 图 6 说 明 书 附 图 CN 103037344 A 15 6/6 页 16 图 7 说 明 书 附 图 CN 103037344 A 16 。