页面中文本乱码的识别方法及装置.pdf

摘要
申请专利号：	CN201310737443.4	申请日：	2013.12.27
公开号：	CN104750663A	公开日：	2015.07.01
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/22申请日:20131227\|\|\|公开
IPC分类号：	G06F17/22	主分类号：	G06F17/22
申请人：	阿里巴巴集团控股有限公司
发明人：	丁世远
地址：	英属开曼群岛大开曼资本大厦一座四层847号邮箱
优先权：
专利代理机构：	北京鸿德海业知识产权代理事务所(普通合伙)11412	代理人：	倪志华
PDF下载：	PDF下载

内容摘要

本申请提供一种页面中文本乱码的识别方法及装置。本申请实施例通过获取页面中待识别的第一文本的第一编码格式，进而根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为具有所述第二编码格式的第二文本，再根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本，使得能够根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，无需操作人员参与识别过程，操作简单，而且正确率高，从而提高了文本乱码的识别的效率和可靠性。

权利要求书

权利要求书
1.  一种页面中文本乱码的识别方法，其特征在于，包括：
获取页面中待识别的第一文本的第一编码格式；
根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式；
根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本；
根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。

2.  根据权利要求1所述的方法，其特征在于，所述第二编码格式包括Unicode编码格式。

3.  根据权利要求1所述的方法，其特征在于，所述根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，包括：
对所述第三文本和所述第一文本进行比较；
若所述第三文本与所述第一文本不一致，确定所述第一文本中存在乱码；或者
若所述第三文本与所述第一文本一致，确定所述第一文本中不存在乱码。

4.  根据权利要求3所述的方法，其特征在于，所述对所述第三文本和所述第一文本进行比较，包括：
提取所述第三文本的特征信息和所述第一文本的特征信息；
对所述第三文本的特征信息和所述第一文本的特征信息进行比较；
若所述第三文本的特征信息与所述第一文本的特征信息不相同，说明所述第三文本与所述第一文本不一致；或者
若所述第三文本的特征信息与所述第一文本的特征信息相同，说明所述第三文本与所述第一文本一致。

5.  根据权利要求1～4任一权利要求所述的方法，其特征在于，所述特征信息包括MD5值。

6.  一种页面中文本乱码的识别装置，其特征在于，包括：
获取单元，用于获取页面中待识别的第一文本的第一编码格式；
转换单元，用于根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式；
所述转换单元，还用于根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本；
确定单元，用于根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。

7.  根据权利要求6所述的装置，其特征在于，所述第二编码格式包括Unicode编码格式。

8.  根据权利要求6所述的装置，其特征在于，所述确定单元，具体用于
对所述第三文本和所述第一文本进行比较；
若所述第三文本与所述第一文本不一致，确定所述第一文本中存在乱码；或者
若所述第三文本与所述第一文本一致，确定所述第一文本中不存在乱码。

9.  根据权利要求8所述的装置，其特征在于，所述确定单元，具体用于
提取所述第三文本的特征信息和所述第一文本的特征信息；
对所述第三文本的特征信息和所述第一文本的特征信息进行比较；
若所述第三文本的特征信息与所述第一文本的特征信息不相同，说明所述第三文本与所述第一文本不一致；或者
若所述第三文本的特征信息与所述第一文本的特征信息相同，说明所述第三文本与所述第一文本一致。

10.  根据权利要求6～9任一权利要求所述的装置，其特征在于，所述特征信息包括MD5值。

说明书

说明书页面中文本乱码的识别方法及装置
【技术领域】
本申请涉及万维网（World Wide Web，Web）页面处理技术，尤其涉及一种页面中文本乱码的识别方法及装置。
【背景技术】
万维网（World Wide Web，Web）页面可以包括由一个或者多个超文本标记语言（HyperText Markup Language，HTML）标签组成的一个显示区块，称为页面元素，例如，文本、标签、超链接、按钮、输入框、下拉框等。由于Web页面的解析等原因，Web页面中的文本会出现乱码现象。现有技术中，需要由操作人员逐一对Web页面进行查看，以发现该Web页面中的文本是否出现乱码现象。
然而，现有文本乱码的识别操作时间长，而且容易出错，从而导致了文本乱码的识别的效率和可靠性的降低。
【发明内容】
本申请的多个方面提供一种页面中文本乱码的识别方法及装置，用以提高文本乱码的识别的效率和可靠性。
本申请的一方面，提供一种页面中文本乱码的识别方法，包括：
获取页面中待识别的第一文本的第一编码格式；
根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式；
根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本；
根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二编码格式包括Unicode编码格式。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，包括：
对所述第三文本和所述第一文本进行比较；
若所述第三文本与所述第一文本不一致，确定所述第一文本中存在乱码；或者
若所述第三文本与所述第一文本一致，确定所述第一文本中不存在乱码。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述第三文本和所述第一文本进行比较，包括：
提取所述第三文本的特征信息和所述第一文本的特征信息；
对所述第三文本的特征信息和所述第一文本的特征信息进行比较；
若所述第三文本的特征信息与所述第一文本的特征信息不相同，说明所述第三文本与所述第一文本不一致；或者
若所述第三文本的特征信息与所述第一文本的特征信息相同，说明所述第三文本与所述第一文本一致。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特征信息包括MD5值。
本申请的另一方面，提供一种页面中文本乱码的识别装置，包括：
获取单元，用于获取页面中待识别的第一文本的第一编码格式；
转换单元，用于根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式；
所述转换单元，还用于根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本；
确定单元，用于根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二编码格式包括Unicode编码格式。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述确定单元，具体用于
对所述第三文本和所述第一文本进行比较；
若所述第三文本与所述第一文本不一致，确定所述第一文本中存在乱码；或者
若所述第三文本与所述第一文本一致，确定所述第一文本中不存在乱码。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述确定单元，具体用于
提取所述第三文本的特征信息和所述第一文本的特征信息；
对所述第三文本的特征信息和所述第一文本的特征信息进行比较；
若所述第三文本的特征信息与所述第一文本的特征信息不相同，说明所述第三文本与所述第一文本不一致；或者
若所述第三文本的特征信息与所述第一文本的特征信息相同，说明所述第三文本与所述第一文本一致。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特征信息包括MD5值。
由上述技术方案可知，本申请实施例通过获取页面中待识别的第一文本的第一编码格式，进而根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为具有所述第二编码格式的第二文本，再根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本，使得能够根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，无需操作人员参与识别过程，操作简单，而且正确率高，从而提高了文本乱码的识别的效率和可靠性。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的页面中文本乱码的识别方法的流程示意图；
图2为本申请另一实施例提供的页面中文本乱码的识别装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。
可以理解的是，本申请所涉及的页面，可以是基于超文本标记语言（HyperText Markup Language，HTML）编写的网页（Web Page），也可以称为Web页面。
需要说明的是，本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理（Personal Digital Assistant，PDA）、无线手持装置、无线上网本、个人电脑、便携电脑、个人电脑（Personal Computer，PC）、MP3播放器、MP4播放器等。
另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
图1为本申请一实施例提供的页面中文本乱码的识别方法的流程示意图，如图1所示。
101、获取页面中待识别的第一文本的第一编码格式。
其中，所述第一编码格式可以为现有技术中所有可选的文本编码方式，例如，GBK编码方式、UTF-8编码方式或GB2312编码方式等，本实施例对此不进行特别限定。
GBK是汉字编码标准之一，全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，还可以称为汉字国际扩展码，英文名称为Chinese Internal Code Specification）。
UTF是“UCS Transformation Format”的缩写，可以翻译成Unicode字符集转换格式。
可选地，在本实施例的一个可能的实现方式中，在101中，具体可以根据页面的相关信息，获取所述页面中待识别的第一文本的第一编码格式。
例如，可以根据页面的META标签即“<meta http-equiv="Content-Type"content="text/html;charset=gb2312">”，获取该页面中待识别的第一文本的第一编码格式为GB2312编码格式。
或者，再例如，可以根据页面的级联样式表（Cascading Style Sheet，CSS）文件中的定义即“@charset"UTF-8"”，获取该页面中待识别的第一文本的第一编码格式为UTF-8编码格式。
或者，再例如，可以根据页面所属的网站，获取该页面中待识别的第一文本的第一编码格式。如，百度使用的编码方式为GB2312编码方式，Google使用的编码方式为UTF-8编码方式等。
102、根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式。
可选地，在本实施例的一个可能的实现方式中，所述第二编码格式可以包括但不限于Unicode编码格式。Unicode的中文可以翻译为万国码、国际码、统一码或单一码，它为每一个字符而非字形定义唯一的代码（即一个整数），例如，唯一的二进制编码。
在转换的过程中，如果所述第一文本中的某个字符有对应的第二编码格式所对应的字符，那么则可以将该字符转换为对应的第二编码格式所对应的字符；如果所述第一文本中的某个字符没有对应的第二编码格式所对应的字符，那么则可以执行原预先配置的操作，例如，丢弃该字符，或者补充一预设的替代字符，本实施例对此不进行特别限定。
103、根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本。
在转换的过程中，如果所述第二文本中的某个字符有对应的第一编码格式所对应的字符，那么则可以将该字符转换为对应的第一编码格式所对应的字符；如果所述第二文本中的某个字符没有对应的第一编码格式所对应的字符，那么则可以执行原预先配置的操作，例如，丢弃该字符，或者补充一预设的替代字符，本实施例对此不进行特别限定。
104、根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。
可选地，在本实施例的一个可能的实现方式中，在104中，具体可以对所述第三文本和所述第一文本进行比较。若所述第三文本与所述第一文本不一致，则可以确定所述第一文本中存在乱码；或者若所述第三文本与所述第一文本一致，则可以确定所述第一文本中不存在乱码。
具体地，比较两个文本即所述第三文本和所述第一文本，可以采用很多方法。
例如，可以直接对两个文本进行字符的匹配，逐个判断两个文本中的字符是否一致。
或者，再例如，提取所述第三文本的特征信息和所述第一文本的特征信息，例如，消息摘要算法第五版（Message Digest Algorithm，MD5）值；进而，对所述第三文本的特征信息和所述第一文本的特征信息进行比较；若所述第三文本的特征信息与所述第一文本的特征信息不相同，则可以说明所述第三文本与所述第一文本不一致；或者若所述第三文本的特征信息与所述第一文本的特征信息相同，则可以说明所述第三文本与所述第一文本一致。
需要说明的是，101～104的执行主体可以是识别装置，例如，Web页面编辑器，可以位于本地的客户端中，以进行离线识别，或者还可以位于网络侧的服务器中，以进行在线识别，本实施例对此不进行限定。
可以理解的是，所述客户端可以是安装在终端上的应用程序，或者还可以是浏览器的一个网页，只要能够实现页面处理的客观存在形式都可以，本实施例对此不进行限定。
现有的识别方法，需要由操作人员逐一对Web页面进行查看，以发现该Web页面中的文本是否出现乱码现象。然而，人工查看页面是否乱码容易带来两个问题。
第一、效率很低，特别是稍大型的网站，子页面就有几十万个，操作人员无法一一查看；
第二、人工识别容易漏掉页面中的乱码，例如，在页面中乱码很少、文字很多的情况，操作人员很难肉眼发现。
采用本实施例提供的技术方案，无需操作人员参与，操作简单，而且正确率高。
本实施例中，通过获取页面中待识别的第一文本的第一编码格式，进而根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为具有所述第二编码格式的第二文本，再根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本，使得能够根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，无需操作人员参与识别过程，操作简单，而且正确率高，从而提高了文本乱码的识别的效率和可靠性。
另外，采用本申请提供的技术方案，能够自动对页面中的文本所出现的乱码进行识别，实时性好。
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
图2为本申请另一实施例提供的页面中文本乱码的识别装置的结构示意图，如图2所示。本实施例的页面中文本乱码的识别装置可以包括获取单元 21、转换单元22和确定单元23。其中，获取单元21，用于获取页面中待识别的第一文本的第一编码格式；转换单元22，用于根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式；所述转换单元22，还用于根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本；确定单元23，用于根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。
其中，所述第一编码格式可以为现有技术中所有可选的文本编码方式，例如，GBK编码方式、UTF-8编码方式或GB2312编码方式等，本实施例对此不进行特别限定。
GBK是汉字编码标准之一，全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，还可以称为汉字国际扩展码，英文名称为Chinese Internal Code Specification）。
UTF是“UCS Transformation Format”的缩写，可以翻译成Unicode字符集转换格式。
可选地，在本实施例的一个可能的实现方式中，所述获取单元21具体可以根据页面的相关信息，获取所述页面中待识别的第一文本的第一编码格式。
例如，所述获取单元21可以根据页面的META标签即“<meta http-equiv="Content-Type"content="text/html;charset=gb2312">”，获取该页面中待识别的第一文本的第一编码格式为GB2312编码格式。
或者，再例如，所述获取单元21可以根据页面的级联样式表（Cascading Style Sheet，CSS）文件中的定义即“@charset"UTF-8"”，获取该页面中待识别的第一文本的第一编码格式为UTF-8编码格式。
或者，再例如，所述获取单元21可以根据页面所属的网站，获取该页面中待识别的第一文本的第一编码格式。如，百度使用的编码方式为GB2312编码方式，Google使用的编码方式为UTF-8编码方式等。
可选地，在本实施例的一个可能的实现方式中，所述第二编码格式可以包括但不限于Unicode编码格式。Unicode的中文可以翻译为万国码、国际码、统一码或单一码，它为每一个字符而非字形定义唯一的代码（即一个整数），例如，唯一的二进制编码。
具体地，所述转换单元22在执行第一次转换的过程中，如果所述第一文本中的某个字符有对应的第二编码格式所对应的字符，那么则可以将该字符转换为对应的第二编码格式所对应的字符；如果所述第一文本中的某个字符没有对应的第二编码格式所对应的字符，那么则可以执行原预先配置的操作，例如，丢弃该字符，或者补充一预设的替代字符，本实施例对此不进行特别限定。
具体地，所述转换单元22在执行第二次转换的过程中，如果所述第二文本中的某个字符有对应的第一编码格式所对应的字符，那么则可以将该字符转换为对应的第一编码格式所对应的字符；如果所述第二文本中的某个字符没有对应的第一编码格式所对应的字符，那么则可以执行员预先配置的操作，例如，丢弃该字符，或者补充一预设的替代字符，本实施例对此不进行特别限定。
可选地，在本实施例的一个可能的实现方式中，所述确定单元23具体可以用于对所述第三文本和所述第一文本进行比较；若所述第三文本与所述第一文本不一致，则可以确定所述第一文本中存在乱码；或者若所述第三文本与所述第一文本一致，则可以确定所述第一文本中不存在乱码。
具体地，所述确定单元23比较两个文本即所述第三文本和所述第一文本，可以采用很多方法。
例如，所述确定单元23可以直接对两个文本进行字符的匹配，逐个判断两个文本中的字符是否一致。
或者，再例如，所述确定单元23提取所述第三文本的特征信息和所述第一文本的特征信息，例如，消息摘要算法第五版（Message Digest Algorithm，MD5）值；进而，对所述第三文本的特征信息和所述第一文本的特征信息进行比较；若所述第三文本的特征信息与所述第一文本的特征信息不相同，则可以说明所述第三文本与所述第一文本不一致；或者若所述第三文本的特征信息与所述第一文本的特征信息相同，则可以说明所述第三文本与所述第一文本一致。
需要说明的是，本实施例提供的页面中文本乱码的识别装置，例如，Web页面编辑器，可以位于本地的客户端中，以进行离线识别，或者还可以位于网络侧的服务器中，以进行在线识别，本实施例对此不进行限定。
可以理解的是，所述客户端可以是安装在终端上的应用程序，或者还可以是浏览器的一个网页，只要能够实现页面处理的客观存在形式都可以，本实施例对此不进行限定。
现有的识别装置，需要由操作人员逐一对Web页面进行查看，以发现该Web页面中的文本是否出现乱码现象。然而，人工查看页面是否乱码容易带来两个问题。
第一、效率很低，特别是稍大型的网站，子页面就有几十万个，操作人员无法一一查看；
第二、人工识别容易漏掉页面中的乱码，例如，在页面中乱码很少、文字很多的情况，操作人员很难肉眼发现。
采用本实施例提供的技术方案，无需操作人员参与，操作简单，而且正确率高。
本实施例中，通过获取单元获取页面中待识别的第一文本的第一编码格式，进而由转换单元根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为具有所述第二编码格式的第二文本，再根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本，使得确定单元能够根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，无需操作人员参与识别过程，操作简单，而且正确率高，从而提高了文本乱码的识别的效率和可靠性。
另外，采用本申请提供的技术方案，能够自动对页面中的文本所出现的乱码进行识别，实时性好。
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。