1、10申请公布号CN101996164A43申请公布日20110330CN101996164ACN101996164A21申请号201010285962822申请日20100919G06F17/2220060171申请人传神联合(北京)信息技术有限公司地址100086北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间72发明人赵国伟54发明名称多语文档分离的方法和系统57摘要本发明提供一种多语文档分离的方法和系统,其主要原理是对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首
2、字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。通过本发明,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书4页附图2页CN101996169A1/2页21一种多语文档分离的方法,其特征在于,所述多语文档分离的方法包括对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识
3、与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。2根据权利要求1所述的多语文档分离的方法,其特征在于,所述根据字符属性信息为当前扫描字符确定语种标识的过程包括提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识。3根据权利要求1或2所述的多语文档分离的方法,其特征在于,所述多语文档分离的方法还包括判断文档中的字符是
4、否全部被扫描,若是,则结束扫描过程;否则,继续扫描。4根据权利要求3所述的多语文档分离的方法,其特征在于,在根据字符属性信息为当前扫描字符确定语种标识的过程之前,还包括获取用户选择的需分离语种标识;获取用户选择的文档的链接地址;获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。5根据权利要求4所述的多语文档分离的方法,其特征在于,所述多语文档分离的方法还包括根据授权的用户身份标识库,对登录用户的身份进行验证。6一种多语文档分离的系统,其特征在于,所述多语文档分离的系统包括扫描单元,用于对文档字符进行扫描;语种确定单元,用于根据字符属性信息为当前扫描字符确定语种标识;语句定位单元,用于
5、将所述语种确定单元所确定的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与该语种标识对应的文件中。7根据权利要求6所述的多语文档分离的系统,其特征在于,所述多语文档分离的系统还包括文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单元结束扫描;否则,不操作。8根据权利要求6或7所述的多语文档分离的系统,其特征在于,所述多语文档分离
6、的系统还包括权利要求书CN101996164ACN101996169A2/2页3信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选择的文档的链接地址;指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。9根据权利要求8所述的多语文档分离的系统,其特征在于,所述多语文档分离的系统还包括人机交互界面,所述交互界面设置有用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加用户所选择的文档的链接地址;指令操作按钮,用于用户发送指令。10根据权利要求9所述的多语文档分离的系统,其特征在于,所述多语文档分离的系统还包括登录单元,用于获取用户的登录信息,并根据所述
7、登录信息发送身份验证请求给服务器,并当服务器通过验证后,允许所述用户登录所述人机交互界面。权利要求书CN101996164ACN101996169A1/4页4多语文档分离的方法和系统技术领域0001本发明涉及数据处理领域,尤其涉及一种多语文档分离技术。背景技术0002在日常文档处理过程中,通常会遇到一个文档中同时存在多语种内容,如在一个文档中同时存在中文、英文和日文。如果需要将这种多语种文档中的不同语种分开,目前都是通过人工一点点进行操作,非常浪费人力资源和时间。发明内容0003本发明的目的是提供一种多语文档分离的方法和系统,该发明不仅可以将多语种文档中的不同语种语言按照语种类别分离开,而且操
8、作简单,大大节省了人力资源和时间。0004本发明的目的是通过以下技术方案实现的0005本发明提供一种多语文档分离的方法,其包括0006对文档字符进行扫描;0007根据字符属性信息为当前扫描字符确定语种标识;0008将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;0009根据所述存放指针,将当前句写入到与该语种标识对应的文件中。0010其中,更优选的,所述根据字符属性信息为当前扫描字符确定语种标识的过程包括0
9、011提取当前扫描字符的字符属性信息;0012根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识。0013其中,更优选的,所述多语文档分离的方法还包括0014判断文档中的字符是否全部被扫描,若是,则结束扫描过程;否则,继续扫描。0015其中,更优选的,在根据字符属性信息为当前扫描字符确定语种标识的过程之前,还包括0016获取用户选择的需分离语种标识;0017获取用户选择的文档的链接地址;0018获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。0019其中,更优选的,所述多语文档分离的方法还包括0020根据授权的用户身份标识库,对登录用户的身份进行验证。
10、0021本发明还提供一种多语文档分离的系统,其包括0022扫描单元,用于对文档字符进行扫描;说明书CN101996164ACN101996169A2/4页50023语种确定单元,用于根据字符属性信息为当前扫描字符确定语种标识;0024语句定位单元,用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;0025语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与该语种标识对应的文件中
11、。0026其中,更优选的,所述多语文档分离的系统还包括0027文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单元结束扫描;否则,不操作。0028其中,更优选的,所述多语文档分离的系统还包括0029信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选择的文档的链接地址;0030指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。0031其中,更优选的,所述多语文档分离的系统还包括0032人机交互界面,所述交互界面设置有0033用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加用户所选择的文档的链接地址;0034指令操作按钮,
12、用于用户发送指令。0035其中,更优选的,所述多语文档分离的系统还包括0036登录单元,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给服务器,并当服务器通过验证后,允许所述用户登录所述人机交互界面。0037由上述本发明提供的技术方案可以看出,本发明通过提取与需分离语种标识相同的字符所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。附图说明0038图1为本发明第一实施例中提供的多语文档分离的方法的流程图;0039图2为本发明第二实施例中提供的多语文档分离的系统的结构原理图。具体实施方式0040下面结合附图对本发明实施例进
13、行详细描述。0041本发明第一实施例提供了一种多语文档分离的方法,在实施该方法之前,需要在服务器数据库中保存被授权用户身份标识信息,在客户端设置字符属性信息与语种标识之间的映射关系。以及,完成如下系统登录和获取用户添加的需分离语种标识和需分离文档的链接地址的过程0042一、系统登录0043在登录过程中,客户端接收到用户输入的登录信息后,根据该登录信息构造身份说明书CN101996164ACN101996169A3/4页6验证请求,该请求可以是HTTPHYPERTEXTTRANSFERPROTOCOL,超文本传送协议请求,也可以是其它协议请求,该请求中携带有用户身份标识信息;服务器接收到用户身份
14、验证请求,根据该请求中携带的用户身份标识信息查找数据库,若发现该用户是被授权用户,则给客户端返回通过验证的信息;客户端接到该通知后,允许用户登录到客户端的操作界面;否则,通知用户无权使用该功能。0044二、获取用户添加的需分离语种标识和需分离文档的链接地址0045系统登录通过后,客户端呈现给用户一个人机交互操作界面,该客户端操作界面中设置有文档添加和语种标识添加栏,还设置有指令按钮,该按钮包括开始,暂停和停止。通过该操作界面,用户可以添加需分离语种标识和需分离文档的链接地址,添加完成后,客户端会获取到需分离语种标识和需分离文档的链接地址。获取到开始指令后,就会执行上述第一实施例的具体流程。00
15、46第一实施例的具体实现流程如图1所示,包括0047步骤S101,打开需分离文档,记录需分离语种;0048获取开始指令后,根据需分离文档的链接地址打开对应的文档,并记录需分离语种标识以备用。0049步骤S102,执行字符扫描。0050步骤S103,确定当前扫描字符的语种标识。0051提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识。例如,如果字符属性信息是A,B,CZ,则认为其是英文语种,于是为其分配一个英语语种标识。0052步骤S104,将当前字符语种标识与需分离语种标识进行比较,若相同,则执行步骤S105;若不相同,则执行步骤
16、S102。0053步骤S105;记录当前字符为句首字符。0054步骤S106,继续向后扫描字符。0055步骤S107,判断扫描到的当前字符是否与句尾符号相同,若相同,则执行步骤S108;否则,转入步骤S106。0056步骤S108,记录当前字符为句尾字符,分配存放指针。0057上述存放指针包括待存放文档的路径信息,句首字符和句尾字符在待存放文档中的存放位置。0058步骤S109,复制自句首字符至句尾字符整句字符,根据存放指针将其写入到与需分离语种标识对应的独立文档中。0059如果该独立文档不存在,则新创建一个;如果存在,则直接将整句字符写入到其中。0060步骤S110,判断扫描是否到达文档结束
17、位置,若是,则执行步骤S111,即结束扫描;否则,继续步骤S102。0061本发明第二实施例提供了一种多语文档分离的系统,为方便用户操作,上述多语文档分离的系统设置了登录界面和人机交互界面。在登录界面上,可以输入用户的身份信息。在该交互界面上设置有用户添加按钮和指令操作按钮。用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加用户所选择的文档的链接地址;指令操作按钮,用于用说明书CN101996164ACN101996169A4/4页7户发送指令。这些指令按钮包括开始按钮、暂停按钮和结束按钮。该多语文档分离的系统的内部结构原理参见图2,其包括如下功能单元0062扫描单元21、语种确定单元
18、22、语句定位单元23、语种分离单元24、文档扫描控制单元25、信息获取单元26、指令获取单元27、登录单元28和数据库29。0063登录单元28,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给服务器,并当服务器通过验证后,允许所述用户登录人机交互界面。0064信息获取单元26,用于获取用户选择的需分离语种标识,以及获取用户选择的文档的链接地址。0065指令获取单元27,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档,随后触及扫描单元21启动。0066用户点击指令按钮后,指令获取单元27可以获取到指令信息,这些指令包括开始指令、暂停指令和结束指令。0067扫描单元
19、21,用于对文档字符进行扫描,并将扫描到的字符信息传输给语种确定单元22。0068语种确定单元22,用于根据字符属性信息为当前扫描字符确定语种标识。语种确定单元22将扫描单元21扫描到的字符信息与设定的字符属性信息匹配,若匹配到,则会调取数据库29中字符属性信息与语种标识之间的映射关系,根据该映射关系为当前扫描字符确定一个语种标识,并将该确定的语种标识传输给语句定位单元23。0069语句定位单元23,用于将所述语种确定单元22所确定的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符,将自句首字
20、符至句尾字符的所有字符定位为当前句,并为当前句分配一个存放指针。0070语种分离单元24,用于根据所述语句定位单元22确定的存放指针,将当前句写入到与该语种标识对应的文件中。0071文档扫描控制单元25,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单元结束扫描;否则,不操作。0072上述实施例中,如果获取到用户选择了多个文档,则按照此方法依次对这些文档循环进行处理。0073由上述本发明提供的技术方案可以看出,通过提取与需分离语种标识相同的字符所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。0074以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。说明书CN101996164ACN101996169A1/2页8图1说明书附图CN101996164ACN101996169A2/2页9图2说明书附图CN101996164A
copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1