多语文档分离的方法和系统 【技术领域】
本发明涉及数据处理领域, 尤其涉及一种多语文档分离技术。背景技术 在日常文档处理过程中, 通常会遇到一个文档中同时存在多语种内容, 如在一个 文档中同时存在中文、 英文和日文。 如果需要将这种多语种文档中的不同语种分开, 目前都 是通过人工一点点进行操作, 非常浪费人力资源和时间。
发明内容 本发明的目的是提供一种多语文档分离的方法和系统, 该发明不仅可以将多语种 文档中的不同语种语言按照语种类别分离开, 而且操作简单, 大大节省了人力资源和时间。
本发明的目的是通过以下技术方案实现的 :
本发明提供一种多语文档分离的方法, 其包括 :
对文档字符进行扫描 ;
根据字符属性信息为当前扫描字符确定语种标识 ;
将当前扫描字符的语种标识与需分离语种标识进行比较, 并当二者相同时, 记录 当前扫描字符为句首字符 ; 将扫描到的下一个字符与句尾符号进行比较, 并当二者相同时, 记录其为句尾字符 ; 将自句首字符至句尾字符的所有字符定位为当前句, 并为当前句分配 存放指针 ;
根据所述存放指针, 将当前句写入到与该语种标识对应的文件中。
其中, 更优选的, 所述根据字符属性信息为当前扫描字符确定语种标识的过程包 括:
提取当前扫描字符的字符属性信息 ;
根据预设的字符属性信息与语种标识之间的映射关系, 为当前扫描字符分配相应 的语种标识。
其中, 更优选的, 所述多语文档分离的方法还包括 :
判断文档中的字符是否全部被扫描, 若是, 则结束扫描过程 ; 否则, 继续扫描。
其中, 更优选的, 在根据字符属性信息为当前扫描字符确定语种标识的过程之前, 还包括 :
获取用户选择的需分离语种标识 ;
获取用户选择的文档的链接地址 ;
获取用户的开始指令, 并根据所述文档的链接地址打开对应的文档。
其中, 更优选的, 所述多语文档分离的方法还包括 :
根据授权的用户身份标识库, 对登录用户的身份进行验证。
本发明还提供一种多语文档分离的系统, 其包括 :
扫描单元, 用于对文档字符进行扫描 ;
语种确定单元, 用于根据字符属性信息为当前扫描字符确定语种标识 ;
语句定位单元, 用于将所述语种确定单元所确定的语种标识与需分离语种标识进 行比较, 并当二者相同时, 记录当前扫描字符为句首字符 ; 将扫描到的下一个字符与句尾符 号进行比较, 并当二者相同时, 记录其为句尾字符, 将自句首字符至句尾字符的所有字符定 位为当前句, 并为当前句分配存放指针 ;
语种分离单元, 用于根据所述语句定位单元确定的存放指针, 将当前句写入到与 该语种标识对应的文件中。
其中, 更优选的, 所述多语文档分离的系统还包括 :
文档扫描控制单元, 用于判断文档中的字符是否全部被扫描, 若是, 则通知所述扫 描单元结束扫描 ; 否则, 不操作。
其中, 更优选的, 所述多语文档分离的系统还包括 :
信息获取单元, 用于获取用户选择的需分离语种标识, 以及获取用户选择的文档 的链接地址 ;
指令获取单元, 用于获取用户的开始指令, 并根据所述文档的链接地址打开对应 的文档。
其中, 更优选的, 所述多语文档分离的系统还包括 :
人机交互界面, 所述交互界面设置有 :
用户添加按钮, 用于添加用户所选择的需分离语种标识, 以及添加用户所选择的 文档的链接地址 ;
指令操作按钮, 用于用户发送指令。
其中, 更优选的, 所述多语文档分离的系统还包括 :
登录单元, 用于获取用户的登录信息, 并根据所述登录信息发送身份验证请求给 服务器, 并当服务器通过验证后, 允许所述用户登录所述人机交互界面。
由上述本发明提供的技术方案可以看出, 本发明通过提取与需分离语种标识相同 的字符所在的语句, 能够实现对 WORD 文档中的多语混杂内容进行分离, 不仅方便了用户操 作, 而且能够大大节约人力资源和时间。 附图说明
图 1 为本发明第一实施例中提供的多语文档分离的方法的流程图 ; 图 2 为本发明第二实施例中提供的多语文档分离的系统的结构原理图。具体实施方式
下面结合附图对本发明实施例进行详细描述。
本发明第一实施例提供了一种多语文档分离的方法, 在实施该方法之前, 需要在 服务器数据库中保存被授权用户身份标识信息, 在客户端设置字符属性信息与语种标识之 间的映射关系。以及, 完成如下系统登录和获取用户添加的需分离语种标识和需分离文档 的链接地址的过程 :
一、 系统登录
在登录过程中, 客户端接收到用户输入的登录信息后, 根据该登录信息构造身份验证请求, 该请求可以是 HTTP(HyperText Transfer Protocol, 超文本传送协议 ) 请求, 也可以是其它协议请求, 该请求中携带有用户身份标识信息 ; 服务器接收到用户身份验证 请求, 根据该请求中携带的用户身份标识信息查找数据库, 若发现该用户是被授权用户, 则 给客户端返回通过验证的信息 ; 客户端接到该通知后, 允许用户登录到客户端的操作界面 ; 否则, 通知用户无权使用该功能。
二、 获取用户添加的需分离语种标识和需分离文档的链接地址
系统登录通过后, 客户端呈现给用户一个人机交互操作界面, 该客户端操作界面 中设置有文档添加和语种标识添加栏, 还设置有指令按钮, 该按钮包括 : 开始, 暂停和停止。 通过该操作界面, 用户可以添加需分离语种标识和需分离文档的链接地址, 添加完成后, 客 户端会获取到需分离语种标识和需分离文档的链接地址。获取到开始指令后, 就会执行上 述第一实施例的具体流程。
第一实施例的具体实现流程如图 1 所示, 包括 :
步骤 S101, 打开需分离文档, 记录需分离语种 ;
获取开始指令后, 根据需分离文档的链接地址打开对应的文档, 并记录需分离语 种标识以备用。 步骤 S102, 执行字符扫描。
步骤 S103, 确定当前扫描字符的语种标识。
提取当前扫描字符的字符属性信息 ; 根据预设的字符属性信息与语种标识之间的 映射关系, 为当前扫描字符分配相应的语种标识。例如, 如果字符属性信息是 a, b, c...z, 则认为其是英文语种, 于是为其分配一个英语语种标识。
步骤 S104, 将当前字符语种标识与需分离语种标识进行比较, 若相同, 则执行步骤 S105 ; 若不相同, 则执行步骤 S102。
步骤 S105 ; 记录当前字符为句首字符。
步骤 S106, 继续向后扫描字符。
步骤 S107, 判断扫描到的当前字符是否与句尾符号相同, 若相同, 则执行步骤 S108 ; 否则, 转入步骤 S106。
步骤 S108, 记录当前字符为句尾字符, 分配存放指针。
上述存放指针包括 : 待存放文档的路径信息, 句首字符和句尾字符在待存放文档 中的存放位置。
步骤 S109, 复制自句首字符至句尾字符整句字符, 根据存放指针将其写入到与需 分离语种标识对应的独立文档中。
如果该独立文档不存在, 则新创建一个 ; 如果存在, 则直接将整句字符写入到其 中。
步骤 S110, 判断扫描是否到达文档结束位置, 若是, 则执行步骤 S111, 即结束扫 描; 否则, 继续步骤 S102。
本发明第二实施例提供了一种多语文档分离的系统, 为方便用户操作, 上述多语 文档分离的系统设置了登录界面和人机交互界面。在登录界面上, 可以输入用户的身份信 息。在该交互界面上设置有 : 用户添加按钮和指令操作按钮。用户添加按钮, 用于添加用户 所选择的需分离语种标识, 以及添加用户所选择的文档的链接地址 ; 指令操作按钮, 用于用
户发送指令。这些指令按钮包括 : 开始按钮、 暂停按钮和结束按钮。该多语文档分离的系统 的内部结构原理参见图 2, 其包括如下功能单元 :
扫描单元 21、 语种确定单元 22、 语句定位单元 23、 语种分离单元 24、 文档扫描控制 单元 25、 信息获取单元 26、 指令获取单元 27、 登录单元 28 和数据库 29。
登录单元 28, 用于获取用户的登录信息, 并根据所述登录信息发送身份验证请求 给服务器, 并当服务器通过验证后, 允许所述用户登录人机交互界面。
信息获取单元 26, 用于获取用户选择的需分离语种标识, 以及获取用户选择的文 档的链接地址。
指令获取单元 27, 用于获取用户的开始指令, 并根据所述文档的链接地址打开对 应的文档, 随后触及扫描单元 21 启动。
用户点击指令按钮后, 指令获取单元 27 可以获取到指令信息, 这些指令包括 : 开 始指令、 暂停指令和结束指令。
扫描单元 21, 用于对文档字符进行扫描, 并将扫描到的字符信息传输给语种确定 单元 22。
语种确定单元 22, 用于根据字符属性信息为当前扫描字符确定语种标识。语种确 定单元 22 将扫描单元 21 扫描到的字符信息与设定的字符属性信息匹配, 若匹配到, 则会调 取数据库 29 中字符属性信息与语种标识之间的映射关系, 根据该映射关系为当前扫描字 符确定一个语种标识, 并将该确定的语种标识传输给语句定位单元 23。 语句定位单元 23, 用于将所述语种确定单元 22 所确定的语种标识与需分离语种 标识进行比较, 并当二者相同时, 记录当前扫描字符为句首字符 ; 将扫描到的下一个字符与 句尾符号进行比较, 并当二者相同时, 记录其为句尾字符, 将自句首字符至句尾字符的所有 字符定位为当前句, 并为当前句分配一个存放指针。
语种分离单元 24, 用于根据所述语句定位单元 22 确定的存放指针, 将当前句写入 到与该语种标识对应的文件中。
文档扫描控制单元 25, 用于判断文档中的字符是否全部被扫描, 若是, 则通知所述 扫描单元结束扫描 ; 否则, 不操作。
上述实施例中, 如果获取到用户选择了多个文档, 则按照此方法依次对这些文档 循环进行处理。
由上述本发明提供的技术方案可以看出, 通过提取与需分离语种标识相同的字符 所在的语句, 能够实现对 WORD 文档中的多语混杂内容进行分离, 不仅方便了用户操作, 而 且能够大大节约人力资源和时间。
以上所述, 仅为本发明较佳的具体实施方式, 但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此, 本发明的保护范围应该以权利要求的保护范围 为准。