《一种对翻译需求的深度挖掘方法.pdf》由会员分享,可在线阅读,更多相关《一种对翻译需求的深度挖掘方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103678540 A (43)申请公布日 2014.03.26 CN 103678540 A (21)申请号 201310638833.6 (22)申请日 2013.11.30 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 武汉传神信息技术有限公司 地址 430073 湖北省武汉市东湖开发区光谷 软件园一期以西、 南湖南路以南、 光谷 软件园六期 2 幢 5 层 205 号 (72)发明人 江潮 (54) 发明名称 一种对翻译需求的深度挖掘方法 (57) 摘要 一种对翻译需求的深度挖掘方法, 包括 : 提取 若干已翻。
2、译文档, 根据所述已翻译文档中的翻译 信息, 建立文档信息集, 将所述文档信息集中的所 有记录按照所述客户进行合并, 得到事务数据库 ; 根据所述事务数据库中的每条记录, 进行关联计 算, 制定客户需求集与其子集的关联规则。 本发明 通过计算机数据处理挖掘输出的客户数据与业务 数据之间的关联规则, 具有很高的准确性, 计算机 的数据处理量也的到有效的降低。 (51)Int.Cl. 权利要求书 1 页 说明书 9 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书9页 附图1页 (10)申请公布号 CN 103678540 A CN 103678。
3、540 A 1/1 页 2 1. 一种对翻译需求的深度挖掘方法, 其特征在于, 包括 : 提取若干已翻译文档, 根据所述已翻译文档中的翻译信息, 建立文档信息集, 所述文档 信息集中的每条记录对应一篇所述已翻译文档 ; 所述文档信息集中的每条所述记录中包括如下特征 : 客户、 该客户所在地域、 对应的所 述已翻译文档的类别及该篇已翻译文档的翻译方向 ; 将所述文档信息集中的所有记录按照所述客户特征进行合并, 得到事务数据库 ; 所述 事务数据库中的每条记录中包含有将所述客户所在地域、 对应的所述已翻译文档的类别及 该篇已翻译文档的方向合并得到的客户需求集 ; 根据所述事务数据库中的每条记录, 。
4、进行关联计算, 得到客户需求集与其子集的关联 规则。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述关联计算包括 : 根据所述事务数据库中的记录, 递推出频繁k+1项集, 并计算频繁k+1项集中的子集与 该频繁 k+1 项集的关联程度, 结果满足置信度阀值要求, 输出所述关联规则。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述递推出频繁 k+1 项集的过程包括 : 所述事务数据库的每条记录的所述客户需求集中包括至少一个客户需求 ; 扫描事务数据库, 根据事务数据库中的记录中所述客户需求, 得到所述事务数据库中 所有的 1 项集 ; 计算每个所述 1 项集的支持度, 得到支。
5、持度不小于最小支持度阀值的频繁 1 项集 ; 通过频繁 k 项集与频繁 1 项集进行无重复合并, 生成支持度不小于最小支持度阀值的 频繁 k+1 项集。 4. 根据权利要求 3 所述的方法, 其特征在于, 还包括 : 每个所述 1 项集对应着有一布尔 数组, 该布尔数组长度为事务数据库的记录总数, 所述布尔数组的各个数位按照所述事务 数据库中的记录的顺序一一与所述事务数据库的记录对应 ; 若事务数据库中的某条记录包含该 1 项集中的项, 则将与该记录对应的数位上的逻辑 值记为 1 ; 否则, 记为 0 ; 计算所述所有1项集的支持度, 剔除支持度小于最小支持度阀值的所述1项集, 得到所 述频繁。
6、 1 项集 ; 其中, 布尔数组中 “1” 的个数与布尔数组的数位长度之比作为所述支持度。 5. 根据权利要求 4 的方法, 其特征在于, 还包括 : 所述 k+1 项集及其对应的布尔数组由 频繁 K 项集及其布尔数组和频繁 1 项集及其布尔数组进行无重复合并得到 ; 在所述无重复合并的过程中, 频繁 k 项集的布尔数组与频繁 1 项集的布尔数组上的相 同数位上的逻辑值进行逻辑与运算, 得到候选频繁 k+1 项集的布尔数组 ; 计算所述所有候选频繁 k+1 项集的支持度 ; 剔除支持度小于最小支持度阀值的所述 k+1 项集, 得到所述频繁 k+1 项集。 6. 根据权利要求 1 所述的方法, 。
7、其特征在于, 所述已翻译文档的类别按照所述已翻译 文档的语种、 行业、 学科领域进行分类。 权 利 要 求 书 CN 103678540 A 2 1/9 页 3 一种对翻译需求的深度挖掘方法 技术领域 0001 本发明涉及一种翻译技术领域, 具体而言, 涉及一种对翻译需求的深度挖掘方法。 背景技术 0002 数据挖掘 (Data Mining, DM) , 又称数据库中的知识发现 (Knowledge Discover in Database, KDD) , 是目前人工智能和数据库领域研究的热点问题。 数据挖掘是指利用计算机 的数据处理能力, 从大量不完全、 有噪声的、 模糊的、 随机的实际应。
8、用数据中, 提取隐含在其 中的有着特定关系的信息、 知识和规则的过程。 挖掘出的信息和知识, 不是要求发现放之四 海而皆准的真理, 也不是要去发现崭新的自然科学定理和纯数学公式, 更不是什么机器定 理证明。 实际上, 所有发现的知识都是相对的, 是有特定前提和约束条件, 面向特定领域的, 同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。 0003 由于在同一行业同一地域的同类企业具有高度相似的外贸特性, 其所需的翻译需 求也往往具有高度的相关性。根据对大量客户的翻译需求统计, 在一定的时域和地域范围 内, 客户的翻译需求具有很高的相似性, 即翻译需求往往随着地域、 时间在翻译方向。
9、、 行业、 学科领域会呈现出很大的关联性。但就对于单独的企业来说, 其并未意识到其所需要的翻 译需求, 通过挖掘客户需求的关联关系, 可以扩大用户的需求, 扩展用户的对外业务, 增加 翻译平台的业务量。 0004 找到这些业务需求的数据往往需要长时间去对需求进行调查统计, 效率非常低, 并且通过调查统计得到的数据之间的关系准确性很低。 发明内容 0005 本发明旨在提供一种对翻译需求的深度挖掘方法, 解决了数据之间的关系准确性 很低, 效率低的问题。 0006 本发明公开了一种对翻译需求的深度挖掘方法, 包括 : 0007 提取若干已翻译文档, 根据所述已翻译文档中的翻译信息, 建立文档信息集。
10、, 所述 文档信息集中的每条记录对应一篇所述已翻译文档 ; 0008 所述文档信息集中的每条所述记录中包括如下特征 : 客户、 该客户所在地域、 对应 的所述已翻译文档的类别及该篇已翻译文档的翻译方向 ; 0009 将所述文档信息集中的所有记录按照所述客户进行合并, 得到事务数据库 ; 所述 事务数据库中的每条记录中包含有将所述客户所在地域、 对应的所述已翻译文档的类别及 该篇已翻译文档的方向合并得到的客户需求集 ; 0010 根据所述事务数据库中的每条记录, 进行关联计算, 制定客户需求集与其子集的 关联规则 ; 0011 按照所述关联规则, 向具有所述客户需求集的 X 子集的客户推广该客户。
11、需求集中 业务。 0012 优选地, 所述关联计算包括 : 说 明 书 CN 103678540 A 3 2/9 页 4 0013 根据所述事务数据库中的记录, 递推出频繁k+1项集, 并计算频繁k+1项集中的子 集与该频繁 k+1 项集的关联程度, 结果满足置信度阀值要求, 输出所述关联规则。 0014 优选地, 所述递推出频繁 k+1 项集的过程包 : 0015 所述事务数据库的每条记录的所述客户需求集中包括至少一个客户需求 ; 0016 扫描事务数据库, 根据事务数据库中的记录中所述客户需求, 得到所述事务数据 库中所有的 1 项集 ; 0017 计算每个所述 1 项集的支持度, 得到支。
12、持度不小于最小支持度阀值的频繁 1 项 集 ; 0018 通过频繁 k 项集与频繁 1 项集进行无重复合并, 生成支持度不小于最小支持度阀 值的频繁 k+1 项集。 0019 优选地, 还包括 : 每个所述 1 项集对应着有一布尔数组, 该布尔数组长度为事务数 据库的记录总数, 所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所 述事务数据库的记录对应 ; 0020 若事务数据库中的某条记录包含该 1 项集中的项, 则将与该记录对应的数位上的 逻辑值记为 1 ; 否则, 记为 0 ; 0021 计算所述所有1项集的支持度, 剔除支持度小于最小支持度阀值的所述1项集, 得 到所述频繁。
13、 1 项集。 0022 其中, 布尔数组中 “1” 的个数与布尔数组的数位长度之比作为所述支持度。 0023 优选地, 还包括 : 所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和 频繁 1 项集及其布尔数组进行无重复合并得到 ; 0024 在所述无重复合并的过程中, 频繁 k 项集的布尔数组与频繁 1 项集的布尔数组上 的相同数位上的逻辑值进行逻辑与运算, 得到候选频繁 k+1 项集的布尔数组 ; 0025 计算所述所有候选频繁 k+1 项集的支持度 ; 剔除支持度小于最小支持度阀值的所 述 k+1 项集, 得到所述频繁 k+1 项集。 0026 优选地, 所述已翻译文档的类别按照。
14、所述已翻译文档的语种、 行业、 学科领域进行 分类。 0027 本发明中的翻译能力之间的关联规则的挖掘方法, 具有以下优点 : 0028 1、 通过对客户需求进行关联计算, 提高了数据的准确性, 可以用于向客户提供其 关联的业务 ; 0029 2、 本发明对频繁项集搜索和检出的方法, 只需在生成 1 项集表时扫描 1 次事务数 据库, 相比大部分其他关联规则算法的多次读取事务数据库而言, 大为减少了由于读取 事务数据库而产生的 IO 开销 ; 生成频繁项集时不用先产生候选项, 频繁 k 项集由频繁 1 项 集和频繁 k-1 项集直接生成, 相较于同样只需一次扫描事务数据库但需将事务数据库压缩 。
15、到频繁模式树的 FP-growth 方法而言, 有更少的内存消耗 ; 0030 3、 本方法中通过采用布尔数组来进行频繁项集的挖掘, 最大的计算消耗为 “逻辑 与” 运算, 符合计算机的最底层的计算处理模式, 由此设计出的软件不但运算速度快, 对于 cpu 和内存的消耗也最为节省。 附图说明 说 明 书 CN 103678540 A 4 3/9 页 5 0031 此处所说明的附图用来提供对本发明的进一步理解, 构成本申请的一部分, 本发 明的示意性实施例及其说明用于解释本发明, 并不构成对本发明的不当限定。在附图中 : 0032 图 1 示出了实施例的流程图。 具体实施方式 0033 下面将参。
16、考附图并结合实施例, 来详细说明本发明。 0034 本发明公开了一种对翻译需求的深度挖掘方法, 包括 : 0035 提取若干已翻译文档, 根据所述已翻译文档中的翻译信息, 建立文档信息集, 所述 文档信息集中的每条记录对应一篇所述已翻译文档 ; 0036 所述文档信息集中的每条所述记录中包括如下特征 : 客户、 该客户所在地域、 对应 的所述已翻译文档的类别及该篇已翻译文档的方向 ; 0037 将所述文档信息集中的所有记录按照所述客户进行合并, 得到事务数据库 ; 所述 事务数据库中的每条记录中包含有将所述客户所在地域、 对应的所述已翻译文档的类别及 该篇已翻译文档的方向合并得到的客户需求集 。
17、; 0038 根据所述事务数据库中的每条记录, 进行关联计算, 制定客户需求集与其子集的 关联规则 ; 0039 按照所述关联规则, 向具有所述客户需求集的 X 子集的客户推广该客户需求集中 业务。 0040 优选地, 所述关联计算包括 : 0041 根据所述事务数据库中的记录, 递推出频繁k+1项集, 并计算频繁k+1项集中的子 集与该频繁 k+1 项集的关联程度, 结果满足置信度阀值要求, 输出所述关联规则。 0042 优选地, 所述递推出频繁 k+1 项集的过程包 : 0043 所述事务数据库的每条记录的所述客户需求集中包括至少一个客户需求 ; 0044 扫描事务数据库, 根据事务数据库。
18、中的记录中所述客户需求, 得到所述事务数据 库中所有的 1 项集 ; 0045 计算每个所述 1 项集的支持度, 得到支持度不小于最小支持度阀值的频繁 1 项 集 ; 0046 通过频繁 k 项集与频繁 1 项集进行无重复合并, 生成支持度不小于最小支持度阀 值的频繁 k+1 项集。 0047 优选地, 还包括 : 每个所述 1 项集对应着有一布尔数组, 该布尔数组长度为事务数 据库的记录总数, 所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所 述事务数据库的记录对应 ; 0048 若事务数据库中的某条记录包含该 1 项集中的项, 则将与该记录对应的数位上的 逻辑值记为 1 ; 。
19、否则, 记为 0 ; 0049 计算所述所有1项集的支持度, 剔除支持度小于最小支持度阀值的所述1项集, 得 到所述频繁 1 项集。 0050 其中, 布尔数组中 “1” 的个数与布尔数组的数位长度之比作为所述支持度。 0051 优选地, 还包括 : 所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和 频繁 1 项集及其布尔数组进行无重复合并得到 ; 说 明 书 CN 103678540 A 5 4/9 页 6 0052 在所述无重复合并的过程中, 频繁 k 项集的布尔数组与频繁 1 项集的布尔数组上 的相同数位上的逻辑值进行逻辑与运算, 得到候选频繁 k+1 项集的布尔数组 ; 00。
20、53 计算所述所有候选频繁 k+1 项集的支持度 ; 剔除支持度小于最小支持度阀值的所 述 k+1 项集, 得到所述频繁 k+1 项集。 0054 优选地, 所述已翻译文档的类别按照所述已翻译文档的语种、 行业、 学科领域进行 分类。 。 0055 进一步的, 本发明还提供了一个优选地实施例 : 0056 以云翻译平台的中的已翻译文档为基础, 建立文档需求信息表, 如表 1 ; 0057 表 1 如下 : 0058 0059 T0006C003BJBENCN(英中) T0007C003BJCENCN(英中) T0008C004BJACNEN(中英) T0009C004BJBENCN(英中) T。
21、0010C004BJDENCN(英中) T0011C005BJACNEN(中英) T0012C005BJCENCN(英中) T0013C006BJBENCN(英中) T0014C006BJCENCN(英中) 说 明 书 CN 103678540 A 6 5/9 页 7 T0015C007BJACNEN(中英) T0016C007BJCENCN(英中) T0017C008BJACNEN(中英) T0018C008BJBENCN(英中) T0019C008BJCENCN(英中) T0020C008BJECNEN(中英) T0021C009BJAENCN(英中) T0022C009BJBENCN(英。
22、中) T0023C009BJCENCN(英中) 0060 比如上表第一行表示, 文档 T0001 所属类别为 “A” , 翻译方向为 “中英” , 其所属客 户为 C001, 所在地为北京。 0061 对客户文档需求信息表中的需求信息项按客户进行合并处理, 从而得到最终进行 关联规则分析的事务数据库 D。事务数据库 2 项, 包括 : 客户编号、 客户需求信息项。 0062 表 2 : 事务数据库 D 0063 客户编号客户需求项 C001A.CNEN.BJ、 B.ENCN.BJ、 E.CNEN.BJ C002B.ENCN.BJ、 D.ENCN.BJ C003B.ENCN.BJ、 C.ENCN。
23、.BJ C004A.CNEN.BJ、 B.ENCN.BJ、 D.ENCN.BJ C005A.CNEN.BJ、 C.ENCN.BJ C006B.ENCN.BJ、 C.ENCN.BJ C007A.CNEN.BJ、 C.ENCN.BJ C008A.CNEN.BJ、 B.ENCN.BJ、 C.ENCN.BJ、 E.CNEN.BJ C009A.CNEN.BJ、 B.ENCN.BJ、 C.ENCN.BJ 0064 扫描事务数据库 D, 以 D 为基础建立一个需求项表, 如表 3, 该表含 3 项, 第一项为 需求项序号 ; 第二项为需求项名称 ; 第 3 项为一个布尔数组, 数组长度为事务数据库 D 的记。
24、 说 明 书 CN 103678540 A 7 6/9 页 8 录数, 该布尔数组按如下方法取值, 若其对应的需求项存在于事务数据库 D 的第 i 个记录 中, 则将该数组的第 i 个元素赋值为真值 1, 否则为 0。 0065 表 3 : 需求项表 0066 序号需求项名称布尔数组 1A.CNEN.BJ100110111 2B.ENCN.BJ111101011 3C.ENCN.BJ001011111 4D.ENCN.BJ010100000 5E.CNEN.BJ100000010 0067 通过表 3 计算出频繁 1 项集 : 将每个需求项所对应的布尔数组中的真值个数大于 支持数 (此处设最小。
25、支持数为 2) 的 1 项集统计出来, 得到频繁 1 项集表。 0068 表 4 : 频繁 1 项集表 0069 序号需求项名称布尔数组支持数 1A.CNEN.BJ1001101116 2B.ENCN.BJ1111010117 3C.ENCN.BJ0010111116 4D.ENCN.BJ0101000002 5E.CNEN.BJ1000000102 0070 通过将表 4 频繁 1 项集表中的第 i 个记录和第 j 个记录的布尔数组的对应元素进 行 “与” 运算, 得到的新布尔数组, 若该布尔数组中真值的个数大于支持数, 则由第 i 个记录 和第 j 个记录中的需求项所构成的 2 项集为频繁。
26、项集。从而得到频繁 2 项集, 如下表 : 0071 表 5 : 频繁 2 项集表 0072 序号需求项名称布尔数组支持数 1、 1001000114 2、 0000101114 3、 1000000102 说 明 书 CN 103678540 A 8 7/9 页 9 4、 0010010114 5、 0101000002 6、 1000000102 0073 分析频繁 k 项集表中的第 i 个记录和频繁 1 项集中的第 j 个记录中, 若其需求项 名称合并后为 k+1 项集, 且该 k+1 项集未曾被合并过, 则将该 k+1 项集标识为 “已合并” , 对 该频繁 k 项集表中的第 i 个记。
27、录和频繁 1 项集中的第 j 个记录的布尔数组进行 “与” 运算, 得到新的布尔数组中真值的个数若大于支持数, 则该 k+1 项集为频繁项集。 0074 表 7 : 通过频繁 2 项集和频繁 1 项集所得到的频繁 3 项集表 0075 序号需求项名称布尔数组支持数 1、 、 0000000112 2、 、 1000000102 0076 通过频繁 3 项集和频繁 1 项集, 得到的频繁 4 项集为空, 对频繁项集的检索终止。 得到所以的频繁项集如下 : 0077 序号需求项名称布尔数组支持数 1A.CNEN.BJ1001101116 说 明 书 CN 103678540 A 9 8/9 页 1。
28、0 0078 0079 通过关联度计算公式计算子集 A、 B、 C、 AB、 AC、 BC 分别与项集 A、 B、 C 的关联程 度, 与置信度阀值相比 ; 说 明 书 CN 103678540 A 10 9/9 页 11 0080 计算如下 : 0081 support_count(L)/support_count (S), 将结果与 min_conf 相比 ; 0082 其中, min_conf 是最小置信度阀值, support_count(L) 是频繁项集 L 的支持度, support_count (S) 是频繁项集 S 支持度的最终取值。 0083 结果大于 1, 输出关联规则 S 关联 L ; 0084 具有 S 需求的客户, 可能同时具有 L 需求项的需求 ; 0085 按照所述关联规则, 向作为具有所述客户需求项的子集的客户推广该客户需求项 中业务。 0086 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的任何修 改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 103678540 A 11 1/1 页 12 图 1 说 明 书 附 图 CN 103678540 A 12 。