一种实现协同翻译的方法 【技术领域】
本发明涉及一种数据协同处理方法, 具体说, 涉及一种实现协同翻译的方法。背景技术
协同办公是指利用网络、 计算机、 信息化等手段, 实现多人沟通、 共享、 协同一起办 公。随着企业对协同办公要求的提高, 许多文件要求实时更新, 如今基于 OFFICE 文档即时 同步的, 仅见于微软的 Sharepoint 程序, 由于其不提供开放源码, 加之其服务器架构昂贵, 使得很多需要远程即时同步 OFFICE 文档的需求无法满足。发明内容
本发明所解决的技术问题是提供一种实现协同翻译的方法, 实现了不同终端下 office 文档之间的同步操作。
技术方案如下 :
一种实现协同翻译的方法, 包括 :
将稿件转化为超文本标记语言 HTML 文件 ;
解析所述 HTML 文件, 创建翻译数据库文件 TransIDB, 所述 HTML 文件放置在所述 TransIDB 中, 将所述 TransIDB 上传到服务器 ;
本地终端下载所述 TransIDB, 建立本地翻译数据库 ;
在所述 TransIDB 下, 对所述 HTML 文件进行处理, 并将改动的内容同步到服务器。
进 一 步, 本 地 终 端 下 载 所 述 TransIDB, 建立本地翻译数据库具体包括 : 创建 TransIDB 并上传到所述服务器, 下载稿件的同时从所述服务器下载对应的 TransIDB 到所 述本地终端, 建立本地翻译数据库, 每个稿件生成一个单独的 TransIDB。
进一步 : 所述 TransIDB 和所述 HTML 文件相对应。
进一步, 解析所述 HTML 文件的步骤包括 : 拆解文件中的翻译单元, 定义翻译单元, 确定翻译单元的标志。
进一步 : 所述翻译数据库包括源文件数据表和翻译数据表。
进一步 : 对所述 HTML 文件中的文本内容进行同步并更新后, 将定稿后的 HTML 文件 还原为 office 文档。
进一步, 还原过程包括 :
读取源文件数据表, 在临时目录中还原生成 HTML 文件和图片文件 ;
读取翻译数据表, 将所述 HTML 文件置于临时目录中 ;
启动 office 程序, 打开主文件, 将定稿后的 HTML 文件变为 office 格式文件。
进一步 : 对所述 HTML 文件中的文本内容进行断句或者分段处理。
本发明技术方案带来的技术效果包括 :
1、 在脱离微软的 Sharepoint 程序的情况下, 本发明实现了 office 文档之间的同 步操作, 从而实现翻译和审校的同步工作。2、 多个译员可以协同办公, 共同处理同一篇稿件。附图说明
图 1 是本发明中的主流程图 ; 图 2 是本发明中 ppt 文件生成的 html 文件目录结构示意图。具体实施方式
本发明利用翻译数据库文件 (TransIDB), 实现不同客户端中 office 文档的同步。 每个客户端都需要将翻译数据库文件 TransIDB 下载到本地, 以便于进行 office 文档的同 步。 不同地的客户端对同一 office 原稿要使用完全相同的 TransIDB, 以中间文件数据库的 记录为同步单位, 同步已翻译的记录。
当然, 基于其他类文字处理或者办公软件, 利用本发明也可以实现的内容同步。
下面参考附图, 对本发明技术方案做详细描述。
步骤 101 : 需要将 office 文档转化为超文本标记语言 (HTML, Hyper Text Mark-up Language) 文件。 生成的 HTML 文件包括图片文件、 样式文件等。
如图 2 所示, 是本发明中 ppt 文件生成的 html 文件目录结构示意图。以如下的一 个两页的 ppt 文件 《演示稿件 .ppt》 为例, 使用 PowerPoint 打开 《演示稿件 .ppt》 , 另存为 HTML 文件后生成的 HTML 文件目录。 其中, 幻灯片文件是需要翻译的文件, 图片文件、 脚本文 件、 主文件为不需要翻译的文件, 其他文件中包括模板、 备注等信息, 可根据需要翻译。
步骤 102 : 解析 HTML 文件。
《演示稿件 .ppt》 为例, 需要解析的是幻灯片文件, 解析方式如下 :
1、 定义翻译单元。
在幻灯片中, 每个图形或表格作为一个翻译单元。
2、 确定翻译单元的标志。
一个图形或者表格中的文本内容一般在标签 xx 中, 因此 ppt 稿件的每个翻译单元就是一组 xx 标记。
如:
(1) 普通图形翻译单元
第一段
;
; 第二段 (2) 表格中翻译单元
第一格 3、 拆解文件中的翻译单元。
根据上述逻辑, 将一个幻灯片 HTML 文件中所有翻译单元分析出来, 并保存为数据 库记录或链表记录。用户也可根据在软件中的控制需要, 在每组翻译单元前后加一些自定 义控制标签。
步骤 103 : 进行断句或者分段处理, 具体来说, 是对 HTML 文件中的文本内容进行断 句或者分段处理。
断句不是必须的, 断句的主要目的是由于在计算机辅助翻译领域中, 最小的翻译 单位是 “句” , 且提供给用户的翻译帮助主要为语料, 即原文 - 译文句对。但单纯的协同工作 或翻译则不限于必须以句为单位。
步骤 104 : 生成翻译数据库 TransIDB 并分发给译员。
将 TransIDB 文件上传到服务器并分发给译员。上传到服务器再分发并不是唯一 形式, 也可通过其他方式如电子邮件直接分发给译员。
翻译数据库的内容包括 :
(1)office 稿件转化为 HTML 后生成的所有文件 ;
(2) 对幻灯片 HTML 文件解析后的翻译单元列表。
考虑到用户之间 office 版本的不统一性, 如果由各翻译用户自行创建 TransIDB, 可能造成数据的不一致, 导致无法交互。因此, 建议由专人统一创建 TransIDB, 并上传到服 务器, 使用者从服务器下载对应的 TransIDB 建立本地翻译数据库。
用户软件通过使用 TransIDB 来进行翻译。
翻译数据库 TransIDB 包括源文件数据表和翻译数据表, 优选的源文件数据表和 翻译数据表的结构如下 :
(1) 源文件数据表
原封不动的保存所有文件 (HTML 文件、 图片文件、 脚本文件、 主文件、 样式文件 等 )。
如表 1 所示, 是本发明中源文件数据表。图片文件、
表1
序号文件名文件内容文件类型5CN 101968804 A说master03.xml明书二进制文件流 二进制文件流 二进制文件流 其他文件 图片文件 样式文件4/5 页1 2 3
master03_image009.gif master03_stylesheet.css2、 翻译数据表
将每张幻灯片表中解析出的非翻译单元部分和翻译单元部分按顺序保存入本表 中, 每个翻译单元占单独一条记录。每张幻灯片表中连续的非翻译单元部分可合占一条记 录。
如表 2 所示, 是本发明中翻译数据表。
表2
步骤 105 : 数据同步。
用户在使用软件对分发的翻译数据库 TransIDB 进行翻译时, 数据同步开始工作。 用户软件提取 TransIDB 内的翻译数据表中的翻译单元, 在屏蔽 HTML 标签后, 将原文的文字 部分呈现出来, 供用户进行翻译。翻译的译文文字部分, 在恢复被屏蔽的 HTML 标签后, 填入 译文字段, 同时将该条已翻译的记录同步到服务器翻译数据库, 并通过服务器分发给其他 译员或审校。
这样, 就将复杂的 office 文档内容的同步问题化简为数据库记录的同步。
步骤 106 : 生成译后稿, 即将最后的文本文件还原为 office 文档。
当使用者翻译完成后, 需要将翻译数据库 TransIDB 中的数据记录还原为 office 文档。 因为翻译数据库中不但有翻译内容, 也有保存图片等资源的源文件数据表, 在生成译 后稿时, 这些都要还原才能共同组成 office 文档类型的译后稿。
还原过程如下 :
(1) 读取源文件数据表, 在临时目录中还原生成各种 HTML 文件和图片文件等。
(2) 读取翻译数据表, 将每一个幻灯片 HTML 文件的记录的译文字段连接后生成译
后幻灯片 HTML 文件, 同样置于临时目录中。
(3) 启动 office 程序, 打开图 2 示例中的主文件, 然后将译后幻灯片 HTML 文件另 存为相应 office 格式文件。
这样, 就完成了译后稿的生成。