一种实现协同翻译的方法.pdf

摘要
申请专利号：	CN201010506580.3	申请日：	2010.10.14
公开号：	CN101968804A	公开日：	2011.02.09
当前法律状态：	授权	有效性：	有权
法律详情：	专利权质押合同登记的注销IPC(主分类):G06F 17/30授权公告日:20120502申请日:20101014登记号:2015990000215出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行解除日:20161011\|\|\|专利权质押合同登记的注销IPC(主分类):G06F 17/30授权公告日:20120502申请日:20101014登记号:2014990000303出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行解除日:20150319\|\|\|专利权质押合同登记的生效IPC(主分类):G06F 17/30登记号:2015990000215登记生效日:20150320出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行发明名称:一种实现协同翻译的方法申请日:20101014授权公告日:20120502\|\|\|专利权质押合同登记的生效IPC(主分类):G06F 17/30登记号:2014990000303登记生效日:20140428出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行发明名称:一种实现协同翻译的方法申请日:20101014授权公告日:20120502\|\|\|专利权质押合同登记的注销IPC(主分类):G06F 17/30授权公告日:20120502申请日:20101014登记号:2012990000671出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行解除日:20140425\|\|\|专利权质押合同登记的生效IPC(主分类):G06F 17/30登记号:2012990000671登记生效日:20121105出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行发明名称:一种实现协同翻译的方法申请日:20101014授权公告日:20120502\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20101014\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	传神联合（北京）信息技术有限公司
发明人：	江潮
地址：	100085 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间
优先权：
专利代理机构：	北京康盛知识产权代理有限公司 11331	代理人：	张良
PDF下载：	PDF下载

内容摘要

本发明公开了一种实现协同翻译的方法，将稿件转化为超文本标记语言HTML文件；解析所述HTML文件，创建翻译数据库文件TransIDB，所述HTML文件放置在所述TransIDB中，将所述TransIDB上传到服务器；本地终端下载所述TransIDB，建立本地翻译数据库；在所述TransIDB下，对所述HTML文件进行处理，并将改动的内容同步到服务器。本发明在脱离微软的Sharepoint程序的情况下，实现了office文档之间的同步操作，从而实现翻译和审校的同步工作。

权利要求书

1：一种实现协同翻译的方法，包括：将稿件转化为超文本标记语言 HTML 文件；解析所述 HTML 文件，创建翻译数据库文件 TransIDB，所述 HTML 文件放置在所述 TransIDB 中，将所述 TransIDB 上传到服务器；本地终端下载所述 TransIDB，建立本地翻译数据库；在所述 TransIDB 下，对所述 HTML 文件进行处理，并将改动的内容同步到服务器。
2：如权利要求 1 所述的实现协同翻译的方法，其特征在于，本地终端下载所述 TransIDB，建立本地翻译数据库具体包括：创建 TransIDB 并上传到所述服务器，下载稿件的同时从所述服务器下载对应的 TransIDB 到所述本地终端，建立本地翻译数据库，每个稿件生成一个单独的 TransIDB。
3：如权利要求 1 所述的实现协同翻译的方法，其特征在于：所述 TransIDB 和所述 HTML 文件相对应。
4：如权利要求 1 所述的实现协同翻译的方法，其特征在于，解析所述 HTML 文件的步骤包括：拆解文件中的翻译单元，定义翻译单元，确定翻译单元的标志。
5：如权利要求 1 所述的实现协同翻译的方法，其特征在于：所述翻译数据库的翻译单元列表包括源文件数据表和翻译数据表。
6：如权利要求 1 所述的实现协同翻译的方法，其特征在于：对所述 HTML 文件中的文本内容进行同步并更新后，将定稿后的 HTML 文件还原为 office 文档。
7：如权利要求 6 所述的实现协同翻译的方法，其特征在于，还原过程包括：读取源文件数据表，在临时目录中还原生成 HTML 文件和图片文件；读取翻译数据表，将所述 HTML 文件置于临时目录中；启动 office 程序，打开主文件，将定稿后的 HTML 文件变为 office 格式文件。
8：如权利要求 1 至 7 任一项所述的实现协同翻译的方法，其特征在于：对所述 HTML 文件中的文本内容进行断句或者分段处理。

说明书

一种实现协同翻译的方法
    【技术领域】
     本发明涉及一种数据协同处理方法，具体说，涉及一种实现协同翻译的方法。背景技术
     协同办公是指利用网络、计算机、信息化等手段，实现多人沟通、共享、协同一起办公。随着企业对协同办公要求的提高，许多文件要求实时更新，如今基于 OFFICE 文档即时同步的，仅见于微软的 Sharepoint 程序，由于其不提供开放源码，加之其服务器架构昂贵，使得很多需要远程即时同步 OFFICE 文档的需求无法满足。发明内容
     本发明所解决的技术问题是提供一种实现协同翻译的方法，实现了不同终端下 office 文档之间的同步操作。
     技术方案如下：
     一种实现协同翻译的方法，包括：
     将稿件转化为超文本标记语言 HTML 文件；
     解析所述 HTML 文件，创建翻译数据库文件 TransIDB，所述 HTML 文件放置在所述 TransIDB 中，将所述 TransIDB 上传到服务器；
     本地终端下载所述 TransIDB，建立本地翻译数据库；
     在所述 TransIDB 下，对所述 HTML 文件进行处理，并将改动的内容同步到服务器。
     进一步，本地终端下载所述 TransIDB，建立本地翻译数据库具体包括：创建 TransIDB 并上传到所述服务器，下载稿件的同时从所述服务器下载对应的 TransIDB 到所述本地终端，建立本地翻译数据库，每个稿件生成一个单独的 TransIDB。
     进一步：所述 TransIDB 和所述 HTML 文件相对应。
     进一步，解析所述 HTML 文件的步骤包括：拆解文件中的翻译单元，定义翻译单元，确定翻译单元的标志。
     进一步：所述翻译数据库包括源文件数据表和翻译数据表。
     进一步：对所述 HTML 文件中的文本内容进行同步并更新后，将定稿后的 HTML 文件还原为 office 文档。
     进一步，还原过程包括：
     读取源文件数据表，在临时目录中还原生成 HTML 文件和图片文件；
     读取翻译数据表，将所述 HTML 文件置于临时目录中；
     启动 office 程序，打开主文件，将定稿后的 HTML 文件变为 office 格式文件。
     进一步：对所述 HTML 文件中的文本内容进行断句或者分段处理。
     本发明技术方案带来的技术效果包括：
     1、在脱离微软的 Sharepoint 程序的情况下，本发明实现了 office 文档之间的同步操作，从而实现翻译和审校的同步工作。2、多个译员可以协同办公，共同处理同一篇稿件。附图说明
     图 1 是本发明中的主流程图；图 2 是本发明中 ppt 文件生成的 html 文件目录结构示意图。具体实施方式
     本发明利用翻译数据库文件 (TransIDB)，实现不同客户端中 office 文档的同步。每个客户端都需要将翻译数据库文件 TransIDB 下载到本地，以便于进行 office 文档的同步。不同地的客户端对同一 office 原稿要使用完全相同的 TransIDB，以中间文件数据库的记录为同步单位，同步已翻译的记录。
     当然，基于其他类文字处理或者办公软件，利用本发明也可以实现的内容同步。
     下面参考附图，对本发明技术方案做详细描述。
     步骤 101 ：需要将 office 文档转化为超文本标记语言 (HTML， Hyper Text Mark-up Language) 文件。生成的 HTML 文件包括图片文件、样式文件等。
     如图 2 所示，是本发明中 ppt 文件生成的 html 文件目录结构示意图。以如下的一个两页的 ppt 文件《演示稿件 .ppt》为例，使用 PowerPoint 打开《演示稿件 .ppt》，另存为 HTML 文件后生成的 HTML 文件目录。其中，幻灯片文件是需要翻译的文件，图片文件、脚本文件、主文件为不需要翻译的文件，其他文件中包括模板、备注等信息，可根据需要翻译。
     步骤 102 ：解析 HTML 文件。
     《演示稿件 .ppt》为例，需要解析的是幻灯片文件，解析方式如下：
     1、定义翻译单元。
     在幻灯片中，每个图形或表格作为一个翻译单元。
     2、确定翻译单元的标志。
     一个图形或者表格中的文本内容一般在标签 xx 中，因此 ppt 稿件的每个翻译单元就是一组 xx 标记。
     如：
     (1) 普通图形翻译单元

     第一段；
     ；
     第二段

     (2) 表格中翻译单元




     第一格

     3、拆解文件中的翻译单元。
     根据上述逻辑，将一个幻灯片 HTML 文件中所有翻译单元分析出来，并保存为数据库记录或链表记录。用户也可根据在软件中的控制需要，在每组翻译单元前后加一些自定义控制标签。
     步骤 103 ：进行断句或者分段处理，具体来说，是对 HTML 文件中的文本内容进行断句或者分段处理。
     断句不是必须的，断句的主要目的是由于在计算机辅助翻译领域中，最小的翻译单位是 “句” ，且提供给用户的翻译帮助主要为语料，即原文 - 译文句对。但单纯的协同工作或翻译则不限于必须以句为单位。
     步骤 104 ：生成翻译数据库 TransIDB 并分发给译员。
     将 TransIDB 文件上传到服务器并分发给译员。上传到服务器再分发并不是唯一形式，也可通过其他方式如电子邮件直接分发给译员。
     翻译数据库的内容包括：
     (1)office 稿件转化为 HTML 后生成的所有文件；
     (2) 对幻灯片 HTML 文件解析后的翻译单元列表。
     考虑到用户之间 office 版本的不统一性，如果由各翻译用户自行创建 TransIDB，可能造成数据的不一致，导致无法交互。因此，建议由专人统一创建 TransIDB，并上传到服务器，使用者从服务器下载对应的 TransIDB 建立本地翻译数据库。
     用户软件通过使用 TransIDB 来进行翻译。
     翻译数据库 TransIDB 包括源文件数据表和翻译数据表，优选的源文件数据表和翻译数据表的结构如下：
     (1) 源文件数据表
     原封不动的保存所有文件 (HTML 文件、图片文件、脚本文件、主文件、样式文件等 )。
     如表 1 所示，是本发明中源文件数据表。图片文件、
     表1
     序号文件名文件内容文件类型5CN 101968804 A说master03.xml明书二进制文件流二进制文件流二进制文件流其他文件图片文件样式文件4/5 页1 2 3
     master03_image009.gif master03_stylesheet.css2、翻译数据表
     将每张幻灯片表中解析出的非翻译单元部分和翻译单元部分按顺序保存入本表中，每个翻译单元占单独一条记录。每张幻灯片表中连续的非翻译单元部分可合占一条记录。
     如表 2 所示，是本发明中翻译数据表。
     表2
     步骤 105 ：数据同步。
     用户在使用软件对分发的翻译数据库 TransIDB 进行翻译时，数据同步开始工作。用户软件提取 TransIDB 内的翻译数据表中的翻译单元，在屏蔽 HTML 标签后，将原文的文字部分呈现出来，供用户进行翻译。翻译的译文文字部分，在恢复被屏蔽的 HTML 标签后，填入译文字段，同时将该条已翻译的记录同步到服务器翻译数据库，并通过服务器分发给其他译员或审校。
     这样，就将复杂的 office 文档内容的同步问题化简为数据库记录的同步。
     步骤 106 ：生成译后稿，即将最后的文本文件还原为 office 文档。
     当使用者翻译完成后，需要将翻译数据库 TransIDB 中的数据记录还原为 office 文档。因为翻译数据库中不但有翻译内容，也有保存图片等资源的源文件数据表，在生成译后稿时，这些都要还原才能共同组成 office 文档类型的译后稿。
     还原过程如下：
     (1) 读取源文件数据表，在临时目录中还原生成各种 HTML 文件和图片文件等。
     (2) 读取翻译数据表，将每一个幻灯片 HTML 文件的记录的译文字段连接后生成译
     后幻灯片 HTML 文件，同样置于临时目录中。
     (3) 启动 office 程序，打开图 2 示例中的主文件，然后将译后幻灯片 HTML 文件另存为相应 office 格式文件。
     这样，就完成了译后稿的生成。

资源描述

《一种实现协同翻译的方法.pdf》由会员分享，可在线阅读，更多相关《一种实现协同翻译的方法.pdf（9页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN101968804A43申请公布日20110209CN101968804ACN101968804A21申请号201010506580322申请日20101014G06F17/3020060171申请人传神联合（北京）信息技术有限公司地址100085北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间72发明人江潮74专利代理机构北京康盛知识产权代理有限公司11331代理人张良54发明名称一种实现协同翻译的方法57摘要本发明公开了一种实现协同翻译的方法，将稿件转化为超文本标记语言HTML文件；解析所述HTML文件，创建翻译数据库文件TRANSIDB，所述HTM。

2、L文件放置在所述TRANSIDB中，将所述TRANSIDB上传到服务器；本地终端下载所述TRANSIDB，建立本地翻译数据库；在所述TRANSIDB下，对所述HTML文件进行处理，并将改动的内容同步到服务器。本发明在脱离微软的SHAREPOINT程序的情况下，实现了OFFICE文档之间的同步操作，从而实现翻译和审校的同步工作。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图2页CN101968804A1/1页21一种实现协同翻译的方法，包括将稿件转化为超文本标记语言HTML文件；解析所述HTML文件，创建翻译数据库文件TRANSIDB，所述HTML文件。

3、放置在所述TRANSIDB中，将所述TRANSIDB上传到服务器；本地终端下载所述TRANSIDB，建立本地翻译数据库；在所述TRANSIDB下，对所述HTML文件进行处理，并将改动的内容同步到服务器。2如权利要求1所述的实现协同翻译的方法，其特征在于，本地终端下载所述TRANSIDB，建立本地翻译数据库具体包括创建TRANSIDB并上传到所述服务器，下载稿件的同时从所述服务器下载对应的TRANSIDB到所述本地终端，建立本地翻译数据库，每个稿件生成一个单独的TRANSIDB。3如权利要求1所述的实现协同翻译的方法，其特征在于所述TRANSIDB和所述HTML文件相对应。4如权利要求1所述的实。

4、现协同翻译的方法，其特征在于，解析所述HTML文件的步骤包括拆解文件中的翻译单元，定义翻译单元，确定翻译单元的标志。5如权利要求1所述的实现协同翻译的方法，其特征在于所述翻译数据库的翻译单元列表包括源文件数据表和翻译数据表。6如权利要求1所述的实现协同翻译的方法，其特征在于对所述HTML文件中的文本内容进行同步并更新后，将定稿后的HTML文件还原为OFFICE文档。7如权利要求6所述的实现协同翻译的方法，其特征在于，还原过程包括读取源文件数据表，在临时目录中还原生成HTML文件和图片文件；读取翻译数据表，将所述HTML文件置于临时目录中；启动OFFICE程序，打开主文件，将定稿后的HTML文件。

5、变为OFFICE格式文件。8如权利要求1至7任一项所述的实现协同翻译的方法，其特征在于对所述HTML文件中的文本内容进行断句或者分段处理。权利要求书CN101968804A1/5页3一种实现协同翻译的方法技术领域0001本发明涉及一种数据协同处理方法，具体说，涉及一种实现协同翻译的方法。背景技术0002协同办公是指利用网络、计算机、信息化等手段，实现多人沟通、共享、协同一起办公。随着企业对协同办公要求的提高，许多文件要求实时更新，如今基于OFFICE文档即时同步的，仅见于微软的SHAREPOINT程序，由于其不提供开放源码，加之其服务器架构昂贵，使得很多需要远程即时同步OFFICE文档的需求无。

6、法满足。发明内容0003本发明所解决的技术问题是提供一种实现协同翻译的方法，实现了不同终端下OFFICE文档之间的同步操作。0004技术方案如下0005一种实现协同翻译的方法，包括0006将稿件转化为超文本标记语言HTML文件；0007解析所述HTML文件，创建翻译数据库文件TRANSIDB，所述HTML文件放置在所述TRANSIDB中，将所述TRANSIDB上传到服务器；0008本地终端下载所述TRANSIDB，建立本地翻译数据库；0009在所述TRANSIDB下，对所述HTML文件进行处理，并将改动的内容同步到服务器。0010进一步，本地终端下载所述TRANSIDB，建立本地翻译数据库具体。

7、包括创建TRANSIDB并上传到所述服务器，下载稿件的同时从所述服务器下载对应的TRANSIDB到所述本地终端，建立本地翻译数据库，每个稿件生成一个单独的TRANSIDB。0011进一步所述TRANSIDB和所述HTML文件相对应。0012进一步，解析所述HTML文件的步骤包括拆解文件中的翻译单元，定义翻译单元，确定翻译单元的标志。0013进一步所述翻译数据库包括源文件数据表和翻译数据表。0014进一步对所述HTML文件中的文本内容进行同步并更新后，将定稿后的HTML文件还原为OFFICE文档。0015进一步，还原过程包括0016读取源文件数据表，在临时目录中还原生成HTML文件和图片文件；0。

8、017读取翻译数据表，将所述HTML文件置于临时目录中；0018启动OFFICE程序，打开主文件，将定稿后的HTML文件变为OFFICE格式文件。0019进一步对所述HTML文件中的文本内容进行断句或者分段处理。0020本发明技术方案带来的技术效果包括00211、在脱离微软的SHAREPOINT程序的情况下，本发明实现了OFFICE文档之间的同步操作，从而实现翻译和审校的同步工作。说明书CN101968804A2/5页400222、多个译员可以协同办公，共同处理同一篇稿件。附图说明0023图1是本发明中的主流程图；0024图2是本发明中PPT文件生成的HTML文件目录结构示意图。具体实施方式0。

9、025本发明利用翻译数据库文件TRANSIDB，实现不同客户端中OFFICE文档的同步。每个客户端都需要将翻译数据库文件TRANSIDB下载到本地，以便于进行OFFICE文档的同步。不同地的客户端对同一OFFICE原稿要使用完全相同的TRANSIDB，以中间文件数据库的记录为同步单位，同步已翻译的记录。0026当然，基于其他类文字处理或者办公软件，利用本发明也可以实现的内容同步。0027下面参考附图，对本发明技术方案做详细描述。0028步骤101需要将OFFICE文档转化为超文本标记语言HTML，HYPERTEXTMARKUPLANGUAGE文件。0029生成的HTML文件包括图片文件、样式文。

10、件等。0030如图2所示，是本发明中PPT文件生成的HTML文件目录结构示意图。以如下的一个两页的PPT文件演示稿件PPT为例，使用POWERPOINT打开演示稿件PPT，另存为HTML文件后生成的HTML文件目录。其中，幻灯片文件是需要翻译的文件，图片文件、脚本文件、主文件为不需要翻译的文件，其他文件中包括模板、备注等信息，可根据需要翻译。0031步骤102解析HTML文件。0032演示稿件PPT为例，需要解析的是幻灯片文件，解析方式如下00331、定义翻译单元。0034在幻灯片中，每个图形或表格作为一个翻译单元。00352、确定翻译单元的标志。0036一个图形或者表格中的文本内容一般在标签。

11、XX中，因此PPT稿件的每个翻译单元就是一组XX标记。0037如00381普通图形翻译单元00390040第一段13；004113；0042第二段004300442表格中翻译单元0045004600470048说明书CN101968804A3/5页500490050第一格0055005600573、拆解文件中的翻译单元。0058根据上述逻辑，将一个幻灯片HTML文件中所有翻译单元分析出来，并保存为数据库记录或链表记录。用户也可根据在软件中的控制需要，在每组翻译单元前后加一些自定义控制标签。0059步骤103进行断句或者分段处理，具体来说，是对HTML文件中的文本内容进行断句或者分段处理。006。

12、0断句不是必须的，断句的主要目的是由于在计算机辅助翻译领域中，最小的翻译单位是“句”，且提供给用户的翻译帮助主要为语料，即原文译文句对。但单纯的协同工作或翻译则不限于必须以句为单位。0061步骤104生成翻译数据库TRANSIDB并分发给译员。0062将TRANSIDB文件上传到服务器并分发给译员。上传到服务器再分发并不是唯一形式，也可通过其他方式如电子邮件直接分发给译员。0063翻译数据库的内容包括00641OFFICE稿件转化为HTML后生成的所有文件；00652对幻灯片HTML文件解析后的翻译单元列表。0066考虑到用户之间OFFICE版本的不统一性，如果由各翻译用户自行创建TRANSI。

13、DB，可能造成数据的不一致，导致无法交互。因此，建议由专人统一创建TRANSIDB，并上传到服务器，使用者从服务器下载对应的TRANSIDB建立本地翻译数据库。0067用户软件通过使用TRANSIDB来进行翻译。0068翻译数据库TRANSIDB包括源文件数据表和翻译数据表，优选的源文件数据表和翻译数据表的结构如下00691源文件数据表0070原封不动的保存所有文件HTML文件、图片文件、脚本文件、主文件、样式文件等。0071如表1所示，是本发明中源文件数据表。图片文件、0072表10073序号文件名文件内容文件类型说明书CN101968804A4/5页61MASTER03XML二进制文件流其。

14、他文件2MASTER03_IMAGE009GIF二进制文件流图片文件3MASTER03_STYLESHEETCSS二进制文件流样式文件00742、翻译数据表0075将每张幻灯片表中解析出的非翻译单元部分和翻译单元部分按顺序保存入本表中，每个翻译单元占单独一条记录。每张幻灯片表中连续的非翻译单元部分可合占一条记录。0076如表2所示，是本发明中翻译数据表。0077表2007800790080步骤105数据同步。0081用户在使用软件对分发的翻译数据库TRANSIDB进行翻译时，数据同步开始工作。用户软件提取TRANSIDB内的翻译数据表中的翻译单元，在屏蔽HTML标签后，将原文的文字部分呈现出来。

15、，供用户进行翻译。翻译的译文文字部分，在恢复被屏蔽的HTML标签后，填入译文字段，同时将该条已翻译的记录同步到服务器翻译数据库，并通过服务器分发给其他译员或审校。0082这样，就将复杂的OFFICE文档内容的同步问题化简为数据库记录的同步。0083步骤106生成译后稿，即将最后的文本文件还原为OFFICE文档。0084当使用者翻译完成后，需要将翻译数据库TRANSIDB中的数据记录还原为OFFICE文档。因为翻译数据库中不但有翻译内容，也有保存图片等资源的源文件数据表，在生成译后稿时，这些都要还原才能共同组成OFFICE文档类型的译后稿。0085还原过程如下00861读取源文件数据表，在临时目录中还原生成各种HTML文件和图片文件等。00872读取翻译数据表，将每一个幻灯片HTML文件的记录的译文字段连接后生成译说明书CN101968804A5/5页7后幻灯片HTML文件，同样置于临时目录中。00883启动OFFICE程序，打开图2示例中的主文件，然后将译后幻灯片HTML文件另存为相应OFFICE格式文件。0089这样，就完成了译后稿的生成。说明书CN101968804A1/2页8图1说明书附图CN101968804A2/2页9图2说明书附图。

展开阅读全文