多语文档分离的方法和系统.pdf

摘要
申请专利号：	CN201010285962.8	申请日：	2010.09.19
公开号：	CN101996164A	公开日：	2011.03.30
当前法律状态：	授权	有效性：	有权
法律详情：	专利权质押合同登记的注销IPC(主分类):G06F 17/22授权公告日:20120704申请日:20100919登记号:2015990000215出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行解除日:20161011\|\|\|专利权质押合同登记的注销IPC(主分类):G06F 17/22授权公告日:20120704申请日:20100919登记号:2014990000303出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行解除日:20150319\|\|\|专利权质押合同登记的生效IPC(主分类):G06F 17/22登记号:2015990000215登记生效日:20150320出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行发明名称:多语文档分离的方法和系统申请日:20100919授权公告日:20120704\|\|\|专利权质押合同登记的生效IPC(主分类):G06F 17/22登记号:2014990000303登记生效日:20140428出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行发明名称:多语文档分离的方法和系统申请日:20100919授权公告日:20120704\|\|\|专利权质押合同登记的注销IPC(主分类):G06F 17/22授权公告日:20120704申请日:20100919登记号:2012990000671出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行解除日:20140425\|\|\|专利权质押合同登记的生效IPC(主分类):G06F 17/22登记号:2012990000671登记生效日:20121105出质人:传神联合(北京)信息技术有限公司质权人:招商银行股份有限公司武汉光谷科技支行发明名称:多语文档分离的方法和系统申请日:20100919授权公告日:20120704\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G06F 17/22申请日:20100919\|\|\|公开
IPC分类号：	G06F17/22	主分类号：	G06F17/22
申请人：	传神联合（北京）信息技术有限公司
发明人：	赵国伟
地址：	100086 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明提供一种多语文档分离的方法和系统，其主要原理是：对文档字符进行扫描；根据字符属性信息为当前扫描字符确定语种标识；将当前扫描字符的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符；将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；根据所述存放指针，将当前句写入到与该语种标识对应的文件中。通过本发明，能够实现对WORD文档中的多语混杂内容进行分离，不仅方便了用户操作，而且能够大大节约人力资源和时间。

权利要求书

1：一种多语文档分离的方法，其特征在于，所述多语文档分离的方法包括：对文档字符进行扫描；根据字符属性信息为当前扫描字符确定语种标识；将当前扫描字符的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符；将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；根据所述存放指针，将当前句写入到与该语种标识对应的文件中。
2：根据权利要求 1 所述的多语文档分离的方法，其特征在于，所述根据字符属性信息为当前扫描字符确定语种标识的过程包括：提取当前扫描字符的字符属性信息；根据预设的字符属性信息与语种标识之间的映射关系，为当前扫描字符分配相应的语种标识。
3：根据权利要求 1 或 2 所述的多语文档分离的方法，其特征在于，所述多语文档分离的方法还包括：判断文档中的字符是否全部被扫描，若是，则结束扫描过程；否则，继续扫描。
4：根据权利要求 3 所述的多语文档分离的方法，其特征在于，在根据字符属性信息为当前扫描字符确定语种标识的过程之前，还包括：获取用户选择的需分离语种标识；获取用户选择的文档的链接地址；获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。
5：根据权利要求 4 所述的多语文档分离的方法，其特征在于，所述多语文档分离的方法还包括：根据授权的用户身份标识库，对登录用户的身份进行验证。
6：一种多语文档分离的系统，其特征在于，所述多语文档分离的系统包括：扫描单元，用于对文档字符进行扫描；语种确定单元，用于根据字符属性信息为当前扫描字符确定语种标识；语句定位单元，用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符，将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；语种分离单元，用于根据所述语句定位单元确定的存放指针，将当前句写入到与该语种标识对应的文件中。
7：根据权利要求 6 所述的多语文档分离的系统，其特征在于，所述多语文档分离的系统还包括：文档扫描控制单元，用于判断文档中的字符是否全部被扫描，若是，则通知所述扫描单元结束扫描；否则，不操作。
8：根据权利要求 6 或 7 所述的多语文档分离的系统，其特征在于，所述多语文档分离的系统还包括： 2 信息获取单元，用于获取用户选择的需分离语种标识，以及获取用户选择的文档的链接地址；指令获取单元，用于获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。
9：根据权利要求 8 所述的多语文档分离的系统，其特征在于，所述多语文档分离的系统还包括：人机交互界面，所述交互界面设置有：用户添加按钮，用于添加用户所选择的需分离语种标识，以及添加用户所选择的文档的链接地址；指令操作按钮，用于用户发送指令。
10：根据权利要求 9 所述的多语文档分离的系统，其特征在于，所述多语文档分离的系统还包括：登录单元，用于获取用户的登录信息，并根据所述登录信息发送身份验证请求给服务器，并当服务器通过验证后，允许所述用户登录所述人机交互界面。

说明书

多语文档分离的方法和系统
    【技术领域】
     本发明涉及数据处理领域，尤其涉及一种多语文档分离技术。背景技术在日常文档处理过程中，通常会遇到一个文档中同时存在多语种内容，如在一个文档中同时存在中文、英文和日文。如果需要将这种多语种文档中的不同语种分开，目前都是通过人工一点点进行操作，非常浪费人力资源和时间。
     发明内容本发明的目的是提供一种多语文档分离的方法和系统，该发明不仅可以将多语种文档中的不同语种语言按照语种类别分离开，而且操作简单，大大节省了人力资源和时间。
     本发明的目的是通过以下技术方案实现的：
     本发明提供一种多语文档分离的方法，其包括：
     对文档字符进行扫描；
     根据字符属性信息为当前扫描字符确定语种标识；
     将当前扫描字符的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符；将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；
     根据所述存放指针，将当前句写入到与该语种标识对应的文件中。
     其中，更优选的，所述根据字符属性信息为当前扫描字符确定语种标识的过程包括：
     提取当前扫描字符的字符属性信息；
     根据预设的字符属性信息与语种标识之间的映射关系，为当前扫描字符分配相应的语种标识。
     其中，更优选的，所述多语文档分离的方法还包括：
     判断文档中的字符是否全部被扫描，若是，则结束扫描过程；否则，继续扫描。
     其中，更优选的，在根据字符属性信息为当前扫描字符确定语种标识的过程之前，还包括：
     获取用户选择的需分离语种标识；
     获取用户选择的文档的链接地址；
     获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。
     其中，更优选的，所述多语文档分离的方法还包括：
     根据授权的用户身份标识库，对登录用户的身份进行验证。
     本发明还提供一种多语文档分离的系统，其包括：
     扫描单元，用于对文档字符进行扫描；
     语种确定单元，用于根据字符属性信息为当前扫描字符确定语种标识；
     语句定位单元，用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符，将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；
     语种分离单元，用于根据所述语句定位单元确定的存放指针，将当前句写入到与该语种标识对应的文件中。
     其中，更优选的，所述多语文档分离的系统还包括：
     文档扫描控制单元，用于判断文档中的字符是否全部被扫描，若是，则通知所述扫描单元结束扫描；否则，不操作。
     其中，更优选的，所述多语文档分离的系统还包括：
     信息获取单元，用于获取用户选择的需分离语种标识，以及获取用户选择的文档的链接地址；
     指令获取单元，用于获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。
     其中，更优选的，所述多语文档分离的系统还包括：
     人机交互界面，所述交互界面设置有：
     用户添加按钮，用于添加用户所选择的需分离语种标识，以及添加用户所选择的文档的链接地址；
     指令操作按钮，用于用户发送指令。
     其中，更优选的，所述多语文档分离的系统还包括：
     登录单元，用于获取用户的登录信息，并根据所述登录信息发送身份验证请求给服务器，并当服务器通过验证后，允许所述用户登录所述人机交互界面。
     由上述本发明提供的技术方案可以看出，本发明通过提取与需分离语种标识相同的字符所在的语句，能够实现对 WORD 文档中的多语混杂内容进行分离，不仅方便了用户操作，而且能够大大节约人力资源和时间。附图说明
     图 1 为本发明第一实施例中提供的多语文档分离的方法的流程图；图 2 为本发明第二实施例中提供的多语文档分离的系统的结构原理图。具体实施方式
     下面结合附图对本发明实施例进行详细描述。
     本发明第一实施例提供了一种多语文档分离的方法，在实施该方法之前，需要在服务器数据库中保存被授权用户身份标识信息，在客户端设置字符属性信息与语种标识之间的映射关系。以及，完成如下系统登录和获取用户添加的需分离语种标识和需分离文档的链接地址的过程：
     一、系统登录
     在登录过程中，客户端接收到用户输入的登录信息后，根据该登录信息构造身份验证请求，该请求可以是 HTTP(HyperText Transfer Protocol，超文本传送协议 ) 请求，也可以是其它协议请求，该请求中携带有用户身份标识信息；服务器接收到用户身份验证请求，根据该请求中携带的用户身份标识信息查找数据库，若发现该用户是被授权用户，则给客户端返回通过验证的信息；客户端接到该通知后，允许用户登录到客户端的操作界面；否则，通知用户无权使用该功能。
     二、获取用户添加的需分离语种标识和需分离文档的链接地址
     系统登录通过后，客户端呈现给用户一个人机交互操作界面，该客户端操作界面中设置有文档添加和语种标识添加栏，还设置有指令按钮，该按钮包括：开始，暂停和停止。通过该操作界面，用户可以添加需分离语种标识和需分离文档的链接地址，添加完成后，客户端会获取到需分离语种标识和需分离文档的链接地址。获取到开始指令后，就会执行上述第一实施例的具体流程。
     第一实施例的具体实现流程如图 1 所示，包括：
     步骤 S101，打开需分离文档，记录需分离语种；
     获取开始指令后，根据需分离文档的链接地址打开对应的文档，并记录需分离语种标识以备用。步骤 S102，执行字符扫描。
     步骤 S103，确定当前扫描字符的语种标识。
     提取当前扫描字符的字符属性信息；根据预设的字符属性信息与语种标识之间的映射关系，为当前扫描字符分配相应的语种标识。例如，如果字符属性信息是 a， b， c...z，则认为其是英文语种，于是为其分配一个英语语种标识。
     步骤 S104，将当前字符语种标识与需分离语种标识进行比较，若相同，则执行步骤 S105 ；若不相同，则执行步骤 S102。
     步骤 S105 ；记录当前字符为句首字符。
     步骤 S106，继续向后扫描字符。
     步骤 S107，判断扫描到的当前字符是否与句尾符号相同，若相同，则执行步骤 S108 ；否则，转入步骤 S106。
     步骤 S108，记录当前字符为句尾字符，分配存放指针。
     上述存放指针包括：待存放文档的路径信息，句首字符和句尾字符在待存放文档中的存放位置。
     步骤 S109，复制自句首字符至句尾字符整句字符，根据存放指针将其写入到与需分离语种标识对应的独立文档中。
     如果该独立文档不存在，则新创建一个；如果存在，则直接将整句字符写入到其中。
     步骤 S110，判断扫描是否到达文档结束位置，若是，则执行步骤 S111，即结束扫描；否则，继续步骤 S102。
     本发明第二实施例提供了一种多语文档分离的系统，为方便用户操作，上述多语文档分离的系统设置了登录界面和人机交互界面。在登录界面上，可以输入用户的身份信息。在该交互界面上设置有：用户添加按钮和指令操作按钮。用户添加按钮，用于添加用户所选择的需分离语种标识，以及添加用户所选择的文档的链接地址；指令操作按钮，用于用
     户发送指令。这些指令按钮包括：开始按钮、暂停按钮和结束按钮。该多语文档分离的系统的内部结构原理参见图 2，其包括如下功能单元：
     扫描单元 21、语种确定单元 22、语句定位单元 23、语种分离单元 24、文档扫描控制单元 25、信息获取单元 26、指令获取单元 27、登录单元 28 和数据库 29。
     登录单元 28，用于获取用户的登录信息，并根据所述登录信息发送身份验证请求给服务器，并当服务器通过验证后，允许所述用户登录人机交互界面。
     信息获取单元 26，用于获取用户选择的需分离语种标识，以及获取用户选择的文档的链接地址。
     指令获取单元 27，用于获取用户的开始指令，并根据所述文档的链接地址打开对应的文档，随后触及扫描单元 21 启动。
     用户点击指令按钮后，指令获取单元 27 可以获取到指令信息，这些指令包括：开始指令、暂停指令和结束指令。
     扫描单元 21，用于对文档字符进行扫描，并将扫描到的字符信息传输给语种确定单元 22。
     语种确定单元 22，用于根据字符属性信息为当前扫描字符确定语种标识。语种确定单元 22 将扫描单元 21 扫描到的字符信息与设定的字符属性信息匹配，若匹配到，则会调取数据库 29 中字符属性信息与语种标识之间的映射关系，根据该映射关系为当前扫描字符确定一个语种标识，并将该确定的语种标识传输给语句定位单元 23。语句定位单元 23，用于将所述语种确定单元 22 所确定的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符，将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配一个存放指针。
     语种分离单元 24，用于根据所述语句定位单元 22 确定的存放指针，将当前句写入到与该语种标识对应的文件中。
     文档扫描控制单元 25，用于判断文档中的字符是否全部被扫描，若是，则通知所述扫描单元结束扫描；否则，不操作。
     上述实施例中，如果获取到用户选择了多个文档，则按照此方法依次对这些文档循环进行处理。
     由上述本发明提供的技术方案可以看出，通过提取与需分离语种标识相同的字符所在的语句，能够实现对 WORD 文档中的多语混杂内容进行分离，不仅方便了用户操作，而且能够大大节约人力资源和时间。
     以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

资源描述

《多语文档分离的方法和系统.pdf》由会员分享，可在线阅读，更多相关《多语文档分离的方法和系统.pdf（9页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN101996164A43申请公布日20110330CN101996164ACN101996164A21申请号201010285962822申请日20100919G06F17/2220060171申请人传神联合（北京）信息技术有限公司地址100086北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间72发明人赵国伟54发明名称多语文档分离的方法和系统57摘要本发明提供一种多语文档分离的方法和系统，其主要原理是对文档字符进行扫描；根据字符属性信息为当前扫描字符确定语种标识；将当前扫描字符的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首。

2、字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符；将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；根据所述存放指针，将当前句写入到与该语种标识对应的文件中。通过本发明，能够实现对WORD文档中的多语混杂内容进行分离，不仅方便了用户操作，而且能够大大节约人力资源和时间。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书4页附图2页CN101996169A1/2页21一种多语文档分离的方法，其特征在于，所述多语文档分离的方法包括对文档字符进行扫描；根据字符属性信息为当前扫描字符确定语种标识；将当前扫描字符的语种标识。

3、与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符；将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；根据所述存放指针，将当前句写入到与该语种标识对应的文件中。2根据权利要求1所述的多语文档分离的方法，其特征在于，所述根据字符属性信息为当前扫描字符确定语种标识的过程包括提取当前扫描字符的字符属性信息；根据预设的字符属性信息与语种标识之间的映射关系，为当前扫描字符分配相应的语种标识。3根据权利要求1或2所述的多语文档分离的方法，其特征在于，所述多语文档分离的方法还包括判断文档中的字符是。

4、否全部被扫描，若是，则结束扫描过程；否则，继续扫描。4根据权利要求3所述的多语文档分离的方法，其特征在于，在根据字符属性信息为当前扫描字符确定语种标识的过程之前，还包括获取用户选择的需分离语种标识；获取用户选择的文档的链接地址；获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。5根据权利要求4所述的多语文档分离的方法，其特征在于，所述多语文档分离的方法还包括根据授权的用户身份标识库，对登录用户的身份进行验证。6一种多语文档分离的系统，其特征在于，所述多语文档分离的系统包括扫描单元，用于对文档字符进行扫描；语种确定单元，用于根据字符属性信息为当前扫描字符确定语种标识；语句定位单元，用于。

5、将所述语种确定单元所确定的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符，将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；语种分离单元，用于根据所述语句定位单元确定的存放指针，将当前句写入到与该语种标识对应的文件中。7根据权利要求6所述的多语文档分离的系统，其特征在于，所述多语文档分离的系统还包括文档扫描控制单元，用于判断文档中的字符是否全部被扫描，若是，则通知所述扫描单元结束扫描；否则，不操作。8根据权利要求6或7所述的多语文档分离的系统，其特征在于，所述多语文档分离。

6、的系统还包括权利要求书CN101996164ACN101996169A2/2页3信息获取单元，用于获取用户选择的需分离语种标识，以及获取用户选择的文档的链接地址；指令获取单元，用于获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。9根据权利要求8所述的多语文档分离的系统，其特征在于，所述多语文档分离的系统还包括人机交互界面，所述交互界面设置有用户添加按钮，用于添加用户所选择的需分离语种标识，以及添加用户所选择的文档的链接地址；指令操作按钮，用于用户发送指令。10根据权利要求9所述的多语文档分离的系统，其特征在于，所述多语文档分离的系统还包括登录单元，用于获取用户的登录信息，并根据所述。

7、登录信息发送身份验证请求给服务器，并当服务器通过验证后，允许所述用户登录所述人机交互界面。权利要求书CN101996164ACN101996169A1/4页4多语文档分离的方法和系统技术领域0001本发明涉及数据处理领域，尤其涉及一种多语文档分离技术。背景技术0002在日常文档处理过程中，通常会遇到一个文档中同时存在多语种内容，如在一个文档中同时存在中文、英文和日文。如果需要将这种多语种文档中的不同语种分开，目前都是通过人工一点点进行操作，非常浪费人力资源和时间。发明内容0003本发明的目的是提供一种多语文档分离的方法和系统，该发明不仅可以将多语种文档中的不同语种语言按照语种类别分离开，而且操。

8、作简单，大大节省了人力资源和时间。0004本发明的目的是通过以下技术方案实现的0005本发明提供一种多语文档分离的方法，其包括0006对文档字符进行扫描；0007根据字符属性信息为当前扫描字符确定语种标识；0008将当前扫描字符的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符；将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；0009根据所述存放指针，将当前句写入到与该语种标识对应的文件中。0010其中，更优选的，所述根据字符属性信息为当前扫描字符确定语种标识的过程包括0。

9、011提取当前扫描字符的字符属性信息；0012根据预设的字符属性信息与语种标识之间的映射关系，为当前扫描字符分配相应的语种标识。0013其中，更优选的，所述多语文档分离的方法还包括0014判断文档中的字符是否全部被扫描，若是，则结束扫描过程；否则，继续扫描。0015其中，更优选的，在根据字符属性信息为当前扫描字符确定语种标识的过程之前，还包括0016获取用户选择的需分离语种标识；0017获取用户选择的文档的链接地址；0018获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。0019其中，更优选的，所述多语文档分离的方法还包括0020根据授权的用户身份标识库，对登录用户的身份进行验证。。

10、0021本发明还提供一种多语文档分离的系统，其包括0022扫描单元，用于对文档字符进行扫描；说明书CN101996164ACN101996169A2/4页50023语种确定单元，用于根据字符属性信息为当前扫描字符确定语种标识；0024语句定位单元，用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符，将自句首字符至句尾字符的所有字符定位为当前句，并为当前句分配存放指针；0025语种分离单元，用于根据所述语句定位单元确定的存放指针，将当前句写入到与该语种标识对应的文件中。

11、。0026其中，更优选的，所述多语文档分离的系统还包括0027文档扫描控制单元，用于判断文档中的字符是否全部被扫描，若是，则通知所述扫描单元结束扫描；否则，不操作。0028其中，更优选的，所述多语文档分离的系统还包括0029信息获取单元，用于获取用户选择的需分离语种标识，以及获取用户选择的文档的链接地址；0030指令获取单元，用于获取用户的开始指令，并根据所述文档的链接地址打开对应的文档。0031其中，更优选的，所述多语文档分离的系统还包括0032人机交互界面，所述交互界面设置有0033用户添加按钮，用于添加用户所选择的需分离语种标识，以及添加用户所选择的文档的链接地址；0034指令操作按钮，。

12、用于用户发送指令。0035其中，更优选的，所述多语文档分离的系统还包括0036登录单元，用于获取用户的登录信息，并根据所述登录信息发送身份验证请求给服务器，并当服务器通过验证后，允许所述用户登录所述人机交互界面。0037由上述本发明提供的技术方案可以看出，本发明通过提取与需分离语种标识相同的字符所在的语句，能够实现对WORD文档中的多语混杂内容进行分离，不仅方便了用户操作，而且能够大大节约人力资源和时间。附图说明0038图1为本发明第一实施例中提供的多语文档分离的方法的流程图；0039图2为本发明第二实施例中提供的多语文档分离的系统的结构原理图。具体实施方式0040下面结合附图对本发明实施例进。

13、行详细描述。0041本发明第一实施例提供了一种多语文档分离的方法，在实施该方法之前，需要在服务器数据库中保存被授权用户身份标识信息，在客户端设置字符属性信息与语种标识之间的映射关系。以及，完成如下系统登录和获取用户添加的需分离语种标识和需分离文档的链接地址的过程0042一、系统登录0043在登录过程中，客户端接收到用户输入的登录信息后，根据该登录信息构造身份说明书CN101996164ACN101996169A3/4页6验证请求，该请求可以是HTTPHYPERTEXTTRANSFERPROTOCOL，超文本传送协议请求，也可以是其它协议请求，该请求中携带有用户身份标识信息；服务器接收到用户身份。

14、验证请求，根据该请求中携带的用户身份标识信息查找数据库，若发现该用户是被授权用户，则给客户端返回通过验证的信息；客户端接到该通知后，允许用户登录到客户端的操作界面；否则，通知用户无权使用该功能。0044二、获取用户添加的需分离语种标识和需分离文档的链接地址0045系统登录通过后，客户端呈现给用户一个人机交互操作界面，该客户端操作界面中设置有文档添加和语种标识添加栏，还设置有指令按钮，该按钮包括开始，暂停和停止。通过该操作界面，用户可以添加需分离语种标识和需分离文档的链接地址，添加完成后，客户端会获取到需分离语种标识和需分离文档的链接地址。获取到开始指令后，就会执行上述第一实施例的具体流程。00。

15、46第一实施例的具体实现流程如图1所示，包括0047步骤S101，打开需分离文档，记录需分离语种；0048获取开始指令后，根据需分离文档的链接地址打开对应的文档，并记录需分离语种标识以备用。0049步骤S102，执行字符扫描。0050步骤S103，确定当前扫描字符的语种标识。0051提取当前扫描字符的字符属性信息；根据预设的字符属性信息与语种标识之间的映射关系，为当前扫描字符分配相应的语种标识。例如，如果字符属性信息是A，B，CZ，则认为其是英文语种，于是为其分配一个英语语种标识。0052步骤S104，将当前字符语种标识与需分离语种标识进行比较，若相同，则执行步骤S105；若不相同，则执行步骤。

16、S102。0053步骤S105；记录当前字符为句首字符。0054步骤S106，继续向后扫描字符。0055步骤S107，判断扫描到的当前字符是否与句尾符号相同，若相同，则执行步骤S108；否则，转入步骤S106。0056步骤S108，记录当前字符为句尾字符，分配存放指针。0057上述存放指针包括待存放文档的路径信息，句首字符和句尾字符在待存放文档中的存放位置。0058步骤S109，复制自句首字符至句尾字符整句字符，根据存放指针将其写入到与需分离语种标识对应的独立文档中。0059如果该独立文档不存在，则新创建一个；如果存在，则直接将整句字符写入到其中。0060步骤S110，判断扫描是否到达文档结束。

17、位置，若是，则执行步骤S111，即结束扫描；否则，继续步骤S102。0061本发明第二实施例提供了一种多语文档分离的系统，为方便用户操作，上述多语文档分离的系统设置了登录界面和人机交互界面。在登录界面上，可以输入用户的身份信息。在该交互界面上设置有用户添加按钮和指令操作按钮。用户添加按钮，用于添加用户所选择的需分离语种标识，以及添加用户所选择的文档的链接地址；指令操作按钮，用于用说明书CN101996164ACN101996169A4/4页7户发送指令。这些指令按钮包括开始按钮、暂停按钮和结束按钮。该多语文档分离的系统的内部结构原理参见图2，其包括如下功能单元0062扫描单元21、语种确定单元。

18、22、语句定位单元23、语种分离单元24、文档扫描控制单元25、信息获取单元26、指令获取单元27、登录单元28和数据库29。0063登录单元28，用于获取用户的登录信息，并根据所述登录信息发送身份验证请求给服务器，并当服务器通过验证后，允许所述用户登录人机交互界面。0064信息获取单元26，用于获取用户选择的需分离语种标识，以及获取用户选择的文档的链接地址。0065指令获取单元27，用于获取用户的开始指令，并根据所述文档的链接地址打开对应的文档，随后触及扫描单元21启动。0066用户点击指令按钮后，指令获取单元27可以获取到指令信息，这些指令包括开始指令、暂停指令和结束指令。0067扫描单元。

19、21，用于对文档字符进行扫描，并将扫描到的字符信息传输给语种确定单元22。0068语种确定单元22，用于根据字符属性信息为当前扫描字符确定语种标识。语种确定单元22将扫描单元21扫描到的字符信息与设定的字符属性信息匹配，若匹配到，则会调取数据库29中字符属性信息与语种标识之间的映射关系，根据该映射关系为当前扫描字符确定一个语种标识，并将该确定的语种标识传输给语句定位单元23。0069语句定位单元23，用于将所述语种确定单元22所确定的语种标识与需分离语种标识进行比较，并当二者相同时，记录当前扫描字符为句首字符；将扫描到的下一个字符与句尾符号进行比较，并当二者相同时，记录其为句尾字符，将自句首字。

20、符至句尾字符的所有字符定位为当前句，并为当前句分配一个存放指针。0070语种分离单元24，用于根据所述语句定位单元22确定的存放指针，将当前句写入到与该语种标识对应的文件中。0071文档扫描控制单元25，用于判断文档中的字符是否全部被扫描，若是，则通知所述扫描单元结束扫描；否则，不操作。0072上述实施例中，如果获取到用户选择了多个文档，则按照此方法依次对这些文档循环进行处理。0073由上述本发明提供的技术方案可以看出，通过提取与需分离语种标识相同的字符所在的语句，能够实现对WORD文档中的多语混杂内容进行分离，不仅方便了用户操作，而且能够大大节约人力资源和时间。0074以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。说明书CN101996164ACN101996169A1/2页8图1说明书附图CN101996164ACN101996169A2/2页9图2说明书附图CN101996164A。

展开阅读全文