文本分析方法及文本分析器.pdf

摘要
申请专利号：	CN201210581448.8	申请日：	2012.12.27
公开号：	CN103077164A	公开日：	2013.05.01
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/27申请日:20121227\|\|\|公开
IPC分类号：	G06F17/27	主分类号：	G06F17/27
申请人：	新浪网技术(中国)有限公司
发明人：	戴明洋
地址：	100080 北京市海淀区北四环西路58号理想国际大厦20层
优先权：
专利代理机构：	北京市京大律师事务所 11321	代理人：	黄启行;方晓明
PDF下载：	PDF下载

内容摘要

本发明公开了一种文本分析方法及文本分析器。该方法包括：对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。应用本发明，可以提高实体词的文本分析准确率。

权利要求书

权利要求书一种文本分析方法，包括：
对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；
按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；
根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；
根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；
确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。
根据权利要求1所述的方法，其中，所述分词模型的预先构建包括：
采集语料；
对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；
通过条件随机场CRF算法，对特征字串采用分类标签方式进行训练，得到分词模型。
根据权利要求2所述的方法，其中，所述词性标注模型的预先构建包括：
基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；
将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型。
根据权利要求3所述的方法，其中，所述字符特征包括：汉字、英文字符、数字、时间以及符号；
所述对切分得到的字符按照预先设置的字符特征进行特征标注包括：
对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串；
所述对合并得到的词按照预先设置的字符特征进行特征标注，包括：
以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。
根据权利要求3所述的方法，其中，所述对实体词进行词性标注包括：
按照实体词的词性，分别标注实体词中的每个单元词，每个单元词的词性与实体词的词性相同。
根据权利要求1所述的方法，其中，所述方法进一步包括：
如果词性标注结果中不包含实体词词性标注，则直接输出词性标注结果作为文本分析结果。
一种文本分析器，其特征在于，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，
分词模型模块，用于预先构建分词模型并存储构建的分词模型；
词性标注模型模块，用于预先构建词性标注模型并存储构建的词性标注模型；
特征字串生成模块，用于对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词处理模块；
分词处理模块，用于根据分词模型模块中预先构建的分词模型，对接收的特征字串进行分词处理，得到包含字序的分词结果，输出至特征词串生成模块；
特征词串生成模块，用于根据接收的分词结果中的字序，进行合并处理，并对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；
词性标注模块，用于根据词性标注模型模块中预先构建的词性标注模型，对接收的特征词串进行词性标注，输出词性标注结果至实体词合并模块；
实体词合并模块，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果并输出；如果否，将词性标注结果作为文本分析结果输出。
根据权利要求7所述的文本分析器，其特征在于，所述分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元，其中，
语料采集单元，用于采集语料；
特征字串生成单元，用于对语料采集单元采集的语料，以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词训练单元；
分词训练单元，通过CRF算法，对接收的特征字串采用分类标签方式进行训练，得到分词模型，输出至分词模型存储单元；
分词模型存储单元，用于存储分词训练单元训练得到的分词模型。
根据权利要求7所述的文本分析器，其特征在于，所述词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型存储单元，其中，
特征词串生成单元，用于基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；
词性标注模型单元，用于将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型，输出至词性标注模型存储单元；
词性标注模型存储单元，用于存储词性标注模型单元形成的词性标注模型。
根据权利要求7至9任一项所述的文本分析器，其特征在于，所述实体词合并模块包括：判断单元以及实体词合并单元，其中，
判断单元，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，将词性标注结果输出至实体词合并单元；否则，将接收的词性标注结果输出；
实体词合并单元，用于按照相邻相同规则，合并接收的词性标注结果中包含实体词词性标注的实体词并输出。

说明书

说明书文本分析方法及文本分析器
技术领域
本发明涉及数据挖掘技术，尤其涉及一种文本分析方法及文本分析器。
背景技术
目前，在自然语言处理技术中，对文本进行词法分析是其他中文信息处理的基础，例如，目前广泛应用的搜索引擎、机器翻译、语音合成、自动分类、自动摘要、自动校对等，都需要基于词法分析技术。对语句或文本进行词法分析的目的有两个：分词及词性标注，分词就是将字与字之间紧密相连的文本序列按词进行划分，从而将文本序列转化为词语序列；词性标注在分词的基础上，根据句子的上下文信息，给划分的词语进行词性标记，例如，将词语标记为动词、名词、副词或形容词等。其中，词是最小的能够独立活动的有意义的语言成分，在汉语中，词与词之间不存在分隔符，词本身也缺乏明显的形态标记，因此，中文信息处理就是如何将汉语的字串分割为合理的词语序列，即分词。
现有的文本分析器，基于规则或基于统计的算法，采用一体化的分词及词性标注，可以对输入的文本实现分词、词性标注、实体识别等功能，即对文本进行分词、词性标注、实体识别等功能处理。
现有技术中，在进行一体化的分词及词性标注时，均是在标注语料时，对分词信息及词性标注信息进行联合标注，即对分词语料与词性标注语料，采用同一份标注，也就是说，在每个字上，既标注分词信息又标注词性标注信息，在进行一体化处理后，将处理结果（文本分析结果）输出。
但现有对文本采用一体化的分词及词性标注进行分析时，采用统一的分词策略对文本进行分词及词性标注后，没有考虑实体词和非实体词对于分词的差异，即在实际应用中，对于常用的文本分析器，要求对非实体词采用小粒度分割，而对于实体词，例如，人名、地名、机构名，应该以大粒度进行分词和词性标注，举例来说，对于非实体词人民大众，进行小粒度的分词及词性标注后，得到的结果为：人民n；大众n，其中，n表示名词；而对于实体词，例如，人名、地名、机构名等，需要得到粗粒度的分词及词性标注结果，举例来说，对于实体词人民大会堂，期望得到粗粒度的分词及词性标注结果为：人民大会堂nt，其中，nt表示机构名，而非期望得到小粒度的分词及词性标注结果为：人民n；大会堂n，因为，对于实体词，小粒度的分词及词性标注结果（人民n；大会堂n）显然与实际应用（人民大会堂nt）不相一致。
由上述可见，现有的文本分析方法，采用统一的策略对文本进行分析，没有区分实体词与非实体词，使得实体词的文本分析准确率较低。
发明内容
本发明的实施例提供一种文本分析方法，提高实体词的文本分析准确率。
本发明的实施例还提供一种文本分析器，提高实体词的文本分析准确率。
为达到上述目的，本发明实施例提供的一种文本分析方法，包括：
对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；
按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；
根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；
根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；
确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。
其中，所述分词模型的预先构建包括：
采集语料；
对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；
通过条件随机场CRF算法，对特征字串采用分类标签方式进行训练，得到分词模型。
其中，所述词性标注模型的预先构建包括：
基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；
将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型。
其中，所述字符特征包括：汉字、英文字符、数字、时间以及符号；
所述对切分得到的字符按照预先设置的字符特征进行特征标注包括：
对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串；
所述对合并得到的词按照预先设置的字符特征进行特征标注，包括：
以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。
其中，所述对实体词进行词性标注包括：
按照实体词的词性，分别标注实体词中的每个单元词，每个单元词的词性与实体词的词性相同。
其中，所述方法进一步包括：
如果词性标注结果中不包含实体词词性标注，则直接输出词性标注结果作为文本分析结果。
一种文本分析器，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，
分词模型模块，用于预先构建分词模型并存储构建的分词模型；
词性标注模型模块，用于预先构建词性标注模型并存储构建的词性标注模型；
特征字串生成模块，用于对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词处理模块；
分词处理模块，用于根据分词模型模块中预先构建的分词模型，对接收的特征字串进行分词处理，得到包含字序的分词结果，输出至特征词串生成模块；
特征词串生成模块，用于根据接收的分词结果中的字序，进行合并处理，并对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；
词性标注模块，用于根据词性标注模型模块中预先构建的词性标注模型，对接收的特征词串进行词性标注，输出词性标注结果至实体词合并模块；
实体词合并模块，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果并输出；如果否，将词性标注结果作为文本分析结果输出。
较佳地，所述分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元，其中，
语料采集单元，用于采集语料；
特征字串生成单元，用于对语料采集单元采集的语料，以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词训练单元；
分词训练单元，通过CRF算法，对接收的特征字串采用分类标签方式进行训练，得到分词模型，输出至分词模型存储单元；
分词模型存储单元，用于存储分词训练单元训练得到的分词模型。
较佳地，所述词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型存储单元，其中，
特征词串生成单元，用于基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；
词性标注模型单元，用于将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型，输出至词性标注模型存储单元；
词性标注模型存储单元，用于存储词性标注模型单元形成的词性标注模型。
较佳地，所述实体词合并模块包括：判断单元以及实体词合并单元，其中，
判断单元，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，将词性标注结果输出至实体词合并单元；否则，将接收的词性标注结果输出；
实体词合并单元，用于按照相邻相同规则，合并接收的词性标注结果中包含实体词词性标注的实体词并输出。
由上述技术方案可见，本发明实施例提供的一种文本分析方法及文本分析器，对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。这样，通过对分词及词性标注的实体词进行合并处理，从而可以进行粗粒度的分词及词性标注，使输出结果更符合应用需求，提高了实体词的文本分析准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案，以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，以下描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员而言，还可以根据这些附图所示实施例得到其它的实施例及其附图。
图1为本发明实施例文本分析方法流程示意图。
图2为本发明实施例文本分析器结构示意图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。
现有的文本分析方法，采用统一的策略对文本进行分析，没有区分实体词与非实体词，即对实体词以及非实体词均采用小粒度进行分词及词性标注，而在实际应用中，对于实体词，进行分词及词性标注的结果不能满足应用需求，使得进行分词及词性标注的结果的准确性较低，实体词的文本分析准确率较低。
本发明实施例中，考虑到分词及词性标注的准确性，对前述提及的应用来说，具有十分重要的作用。例如，对于包括字、词、句子或段落的原始文本，互联网应用中数据对分词及词性标注的一般要求是，对于非实体词，需要得到小粒度的分词及词性标注结果，而对于实体词，例如，人名、地名、机构名等，需要得到粗粒度的分词及词性标注结果，举例来说，对于实体词人民大会堂，期望得到粗粒度的分词及词性标注结果为：人民大会堂nt，其中，nt表示机构名，而非期望得到小粒度的分词及词性标注结果为：人民n；大会堂n。
基于上述分析和考虑，通过训练以及条件随机场（CRF，ConditionalRandom Fields）的方法，分别生成分词的语料库及词性标注的语料库，并对实体词与非实体词的分词及词性标注分别进行相关处理，训练出相关的分词模型及词性标注模型，从而对于文本中的非实体词，可以进行小粒度的分词及词性标注，对于文本中的实体词，可以进行粗粒度的分词及词性标注，提高实体词的分词与词性标注的性能，提升输出的对实体词进行分词与词性标注的结果的准确性。
图1为本发明实施例文本分析方法流程示意图。本发明实施例中，采用CRF进行分词及词性标注的概率与路径分析，参见图1，该流程包括：
步骤101，预先构建分词模型以及词性标注模型；
本步骤中，构建分词模型包括：
A11，采集语料；
本步骤中，语料为文本集合，由于在统计自然语言处理中，实际上不可能观测到大规模的语言实例，因而，可以简单地用文本集合作为替代，并将文本集合中的上下文关系作为实际语言的上下文关系。
较佳地，采集公开的6个月的人民日报语料。
A12，对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；
本步骤中，字符特征包括：汉字（HAN）、英文字符（ALPHA）、数字（NUM）、时间（TIME）、符号（SIG）以及其他（OTHER）。
特征字串包括：切分得到的字符及其字符特征。例如，语料人民大会堂，经过切分后，得到切分字：人；民；大；会；堂。五个切分字的字符特征均为汉字，因而，其特征字串表示为：人HAN；民HAN；大HAN；会HAN；堂HAN。
对切分得到的字符按照预先设置的字符特征进行特征标注包括：
对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串。
A13，通过CRF算法，对特征字串采用分类标签（6Tag）方式进行训练，得到分词模型。
本步骤中，分词模型的训练方式采用6Tag方式，B表示词的开头，即词首，E表示词的最后一个字，即词尾；M表示词中间最靠近词尾E的字，M1、M2分别表示词中间的第一及第二个字。
其中，实体词（人名、地名、机构）按照小粒度的成词规律进行标注，小粒度成词标注是指以切分得到的字符及字符特征对文本进行标注，即以字符为单位，对文本中的实体词和非实体词分别进行字符特征标注。举例来说，对于文本中包含的机构“人民大会堂”，进行训练得到的分词模型中，标注为“人HAN B；民HAN E；大HAN B；会HAN M；堂HAN E；”，而非标注为“人HAN B；民HAN M1；大HAN M2；会HAN M；堂HANE；”；对于文本中包含的人名，进行训练得到的分词模型中，按照名与姓分开标注，例如，人名“刘德华”标注为“刘HAN B；德HAN B；华HANE”，关于文本中的非实体词标注，以切分得到的字符及字符特征进行标注，详细可参见相关技术文献，在此不再赘述。
本发明实施例中，分词模型以CRF为分类器，以字符特征为特征，利用CRF算法，采用6Tag方式进行训练，能够给出小粒度的实体词与非实体词分词结果。
关于CRF算法、采用6Tag方式进行训练的详细流程，具体可参见相关技术文献，在此不再赘述。
构建词性标注模型包括：
A21，基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；
本步骤中，根据分词模型中的分词结果，进行特征提取，形成词。例如，对于分词模型中的“人HAN B；民HAN E；大HAN B；会HAN M；堂HAN E；”，进行特征提取后，形成词“人民；大会堂”，对于“人民”以及“大会堂”，词最后一个字“民”、“堂”的字符特征均为汉字，则形成的特征词串为“人民HAN；大会堂HAN”。
A22，将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型。
本步骤中，词性库中存储有43种词性，例如，名词（n）、动词（vn）、机构名（nt）、地名（ns）等。
本发明实施例中，每一词在不同的语境中，具有不同的词性，通过提取实体词以及非实体词的特征值，通过CRF算法训练，可以确定每一词的词性，其中，对于非实体词，其词性标注与现有技术相同，而对于实体词，按照实体词的属性，分别标注其中的每个单元词，每个单元词的词性与实体词的词性相同，例如，均为机构词性（nt）。例如，对于非实体词“人民大众”，词性标注为“人民HAN n；大众HAN n”，对于实体词“人民大会堂”，词性标注为“人民HAN nt；大会堂HAN nt”，再例如，实体词“中国国际广播电台”，词性标注为“中国HAN nt；国际HAN nt；广播HANnt；电台HAN nt”，而非采用非实体词的词性标注“中国HAN ns；国际HANn；广播HAN vn；电台HAN n”。
关于提取实体词以及非实体词的特征值，通过CRF算法训练的详细处理流程，具体可参见相关技术文献，在此不再赘述。
在本发明实施例的文本分析方法中，步骤101只需执行一次，而非在每次进行文本分析时，都需要执行。
步骤102，对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；
本步骤中，对用户输入的文本进行预处理，即以字符为单位，对预先获取的文本进行切分处理，得到字符，计算其字符特征，并以字符为单位，对文本中的实体词和非实体词分别进行字符特征标注。
切分得到的字符及其字符特征组成特征字串，例如，对于输入的文本“人民大会堂”，特征字串为“人HAN；民HAN；大HAN；会HAN；堂HAN”。
步骤103，按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；
本步骤中，通过预先存储的分词模型，对形成的特征字串进行分词处理。例如，对于特征字串“人HAN；民HAN；大HAN；会HAN；堂HAN”，按照构建的分词模型，进行分词处理，得到分词结果为“人HAN B；民HANE；大HAN B；会HAN M；堂HAN E”，其中，人为词的词首，民为词的词尾；大为另一词的词首，会为该另一词的词中，堂为该另一词的词尾。
步骤104，根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；
本步骤中，根据接收的分词结果中的字序，合并分词结果，得到合并的词，并按照预先设置的字符特征进行特征标注，形成特征词串。也就是说，根据分词结果中的字序，对分词结果进行再次预处理，其中，对合并得到的词按照预先设置的字符特征进行特征标注，包括：以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。例如，将分词结果“人HANB；民HAN E；大HAN B；会HAN M；堂HAN E”进行合并处理，得到词，并以合并得到的词的最后一个字符的字符特征作为该词的字符特征，将词与字符特征结合，形成特征词串，即“人民HAN；大会堂HAN”。
步骤105，根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；
本步骤中，将特征词串通过词性标注模型进行词性标注，得到词性标注结果。
本发明实施例中，对特征词串“人民HAN；大会堂HAN”进行词性标注后，得到词性标注结果“人民HAN nt；大会堂HAN nt”；再例如，对于特征词串“人民HAN；大众HAN”进行词性标注后，得到词性标注结果“人民HAN n；大众HAN n”。
步骤106，确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。
本步骤中，确定词性标注结果中是否包含实体词词性标注，如果包含实体词词性标注，对包含的实体词词性标注，按照相邻相同规则合并词性标注结果中的实体词，然后输出；如果不包含实体词词性标注，则直接输出词性标注结果。例如，对于词性标注结果“人民HAN n；大众HAN n”，不包含有实体词词性标注，将该结果直接输出；而对于词性标注结果“人民HAN nt；大会堂HAN nt”，包含有实体词（机构）词性标注nt，按照相邻相同规则，合并包含实体词词性标注的实体词，即合并为“人民大会堂HAN nt”。这样，通过对具有“相邻相同”实体词属性词进行合并，即可完成对实体词的识别，而对于非实体词，则保留原标注状态，即对实体词进行平滑处理。
在对实体词完成平滑处理之后，可将其作为分词结果输出，即可完成对非实体词的小粒度分词，而对实体词的大粒度分词。
关于按照相邻相同规则进行合并的详细描述，具体可参见相关技术文献，在此不再赘述。
由上述可见，本发明实施例的文本分析方法，通过在训练分词模型时，在语料中考虑对实体词的处理，并通过在词性标注模型中，对实体词中各单元词采用该实体词的标注方式，在词性标注中为单元实体词进行识别工作，并在平滑处理中，通过相邻相同规则合并词性标注中的单元实体词，最终完成对实体词的识别，从而可以有效提高实体词识别的准确率，提高实体词的分词与词性标注的性能，提升输出结果中对实体词进行分词与词性标注的准确性；同时，融合分词、词性标注、实体识别，在分词阶段与词性标注阶段，实体词与非实体词均采用小粒度标注，与现有技术不同的是，在词性标注的模型训练阶段，以每个实体词的属性来标注其内部各单元词，而不是以各单元词固有的词性进行标注，可以有效利用并改善了文本分析器对非实体词与实体词不同粒度的要求。
图2为本发明实施例文本分析器结构示意图。参见图2，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，
分词模型模块，用于预先构建分词模型并存储构建的分词模型；
词性标注模型模块，用于预先构建词性标注模型并存储构建的词性标注模型；
特征字串生成模块，用于对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词处理模块；
本发明实施例中，字符特征包括：汉字（HAN）、英文字符（ALPHA）、数字（NUM）、时间（TIME）、符号（SIG）以及其他（OTHER）。
分词处理模块，用于根据分词模型模块中预先构建的分词模型，对接收的特征字串进行分词处理，得到包含字序的分词结果，输出至特征词串生成模块；
特征词串生成模块，用于根据接收的分词结果中的字序，进行合并处理，并对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；
词性标注模块，用于根据词性标注模型模块中预先构建的词性标注模型，对接收的特征词串进行词性标注，输出词性标注结果至实体词合并模块；
实体词合并模块，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果并输出；如果否，将词性标注结果作为文本分析结果输出。
其中，分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元（图中未示出），其中，
语料采集单元，用于采集语料；
本发明实施例中，语料采集单元采集公开的6个月的人民日报语料。
特征字串生成单元，用于对语料采集单元采集的语料，以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词训练单元；
分词训练单元，通过CRF算法，对接收的特征字串采用分类标签（6Tag）方式进行训练，得到分词模型，输出至分词模型存储单元；
分词模型存储单元，用于存储分词训练单元训练得到的分词模型。
词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型存储单元（图中未示出），其中，
特征词串生成单元，用于基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；
词性标注模型单元，将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型，输出至词性标注模型存储单元；
词性标注模型存储单元，用于存储词性标注模型单元形成的词性标注模型。
实体词合并模块包括：判断单元以及实体词合并单元（图中未示出），其中，
判断单元，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，将词性标注结果输出至实体词合并单元；否则，将接收的词性标注结果输出；
本发明实施例中，将接收的词性标注结果输出，以向用户返回词性标注结果。
实体词合并单元，用于按照相邻相同规则，合并接收的词性标注结果中包含实体词词性标注的实体词并输出。
显然，本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也包含这些改动和变型在内。

资源描述

《文本分析方法及文本分析器.pdf》由会员分享，可在线阅读，更多相关《文本分析方法及文本分析器.pdf（12页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103077164 A(43)申请公布日 2013.05.01CN103077164A*CN103077164A*(21)申请号 201210581448.8(22)申请日 2012.12.27G06F 17/27(2006.01)(71)申请人新浪网技术(中国)有限公司地址 100080 北京市海淀区北四环西路58号理想国际大厦20层(72)发明人戴明洋(74)专利代理机构北京市京大律师事务所 11321代理人黄启行方晓明(54) 发明名称文本分析方法及文本分析器(57) 摘要本发明公开了一种文本分析方法及文本分析器。该方法包括：对获取的文本以字符为单位进行切分处。

2、理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。应用本发明，可以提高实体词的文本分析准确率。(51)Int.Cl.权利要求书2页说明书8页附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书。

3、2页说明书8页附图1页(10)申请公布号 CN 103077164 ACN 103077164 A1/2页21.一种文本分析方法，包括：对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析。

4、结果。2.根据权利要求1所述的方法，其中，所述分词模型的预先构建包括：采集语料；对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；通过条件随机场CRF算法，对特征字串采用分类标签方式进行训练，得到分词模型。3.根据权利要求2所述的方法，其中，所述词性标注模型的预先构建包括：基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型。4.根据权利要求。

5、3所述的方法，其中，所述字符特征包括：汉字、英文字符、数字、时间以及符号；所述对切分得到的字符按照预先设置的字符特征进行特征标注包括：对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串；所述对合并得到的词按照预先设置的字符特征进行特征标注，包括：以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。5.根据权利要求3所述的方法，其中，所述对实体词进行词性标注包括：按照实体词的词性，分别标注实体词中的每个单元词，每个单元词的词性与实体词的词性相同。6.根据权利要求1所述的方法，其中，所述方法进一步包括。

6、：如果词性标注结果中不包含实体词词性标注，则直接输出词性标注结果作为文本分析结果。7.一种文本分析器，其特征在于，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，分词模型模块，用于预先构建分词模型并存储构建的分词模型；词性标注模型模块，用于预先构建词性标注模型并存储构建的词性标注模型；权利要求书CN 103077164 A2/2页3特征字串生成模块，用于对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词处理模块；分词处理模块，用于根据。

7、分词模型模块中预先构建的分词模型，对接收的特征字串进行分词处理，得到包含字序的分词结果，输出至特征词串生成模块；特征词串生成模块，用于根据接收的分词结果中的字序，进行合并处理，并对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；词性标注模块，用于根据词性标注模型模块中预先构建的词性标注模型，对接收的特征词串进行词性标注，输出词性标注结果至实体词合并模块；实体词合并模块，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果并输出；如果否，将词性标注结果作为文本分析结果输出。8.根据权利要求7所述。

8、的文本分析器，其特征在于，所述分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元，其中，语料采集单元，用于采集语料；特征字串生成单元，用于对语料采集单元采集的语料，以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词训练单元；分词训练单元，通过CRF算法，对接收的特征字串采用分类标签方式进行训练，得到分词模型，输出至分词模型存储单元；分词模型存储单元，用于存储分词训练单元训练得到的分词模型。9.根据权利要求7所述的文本分析器，其特征在于，所述词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型。

9、存储单元，其中，特征词串生成单元，用于基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；词性标注模型单元，用于将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型，输出至词性标注模型存储单元；词性标注模型存储单元，用于存储词性标注模型单元形成的词性标注模型。10.根据权利要求7至9任一项所述的文本分析器，其特征在于，所述实体词合并模块包括：判断单元以及实体词合并单元，其中，判断单元，用于判断接收的词性标注结果中是否包含实体词词性标注，如果。

10、是，将词性标注结果输出至实体词合并单元；否则，将接收的词性标注结果输出；实体词合并单元，用于按照相邻相同规则，合并接收的词性标注结果中包含实体词词性标注的实体词并输出。权利要求书CN 103077164 A1/8页4文本分析方法及文本分析器技术领域0001 本发明涉及数据挖掘技术，尤其涉及一种文本分析方法及文本分析器。背景技术0002 目前，在自然语言处理技术中，对文本进行词法分析是其他中文信息处理的基础，例如，目前广泛应用的搜索引擎、机器翻译、语音合成、自动分类、自动摘要、自动校对等，都需要基于词法分析技术。对语句或文本进行词法分析的目的有两个：分词及词性标注，分词就是将字与字之间紧。

11、密相连的文本序列按词进行划分，从而将文本序列转化为词语序列；词性标注在分词的基础上，根据句子的上下文信息，给划分的词语进行词性标记，例如，将词语标记为动词、名词、副词或形容词等。其中，词是最小的能够独立活动的有意义的语言成分，在汉语中，词与词之间不存在分隔符，词本身也缺乏明显的形态标记，因此，中文信息处理就是如何将汉语的字串分割为合理的词语序列，即分词。0003 现有的文本分析器，基于规则或基于统计的算法，采用一体化的分词及词性标注，可以对输入的文本实现分词、词性标注、实体识别等功能，即对文本进行分词、词性标注、实体识别等功能处理。0004 现有技术中，在进行一体化的分词及词性标注时，均是在标。

12、注语料时，对分词信息及词性标注信息进行联合标注，即对分词语料与词性标注语料，采用同一份标注，也就是说，在每个字上，既标注分词信息又标注词性标注信息，在进行一体化处理后，将处理结果（文本分析结果）输出。0005 但现有对文本采用一体化的分词及词性标注进行分析时，采用统一的分词策略对文本进行分词及词性标注后，没有考虑实体词和非实体词对于分词的差异，即在实际应用中，对于常用的文本分析器，要求对非实体词采用小粒度分割，而对于实体词，例如，人名、地名、机构名，应该以大粒度进行分词和词性标注，举例来说，对于非实体词人民大众，进行小粒度的分词及词性标注后，得到的结果为：人民n；大众n，其中，n表示名词；而对。

13、于实体词，例如，人名、地名、机构名等，需要得到粗粒度的分词及词性标注结果，举例来说，对于实体词人民大会堂，期望得到粗粒度的分词及词性标注结果为：人民大会堂nt，其中，nt表示机构名，而非期望得到小粒度的分词及词性标注结果为：人民n；大会堂n，因为，对于实体词，小粒度的分词及词性标注结果（人民n；大会堂n）显然与实际应用（人民大会堂nt）不相一致。0006 由上述可见，现有的文本分析方法，采用统一的策略对文本进行分析，没有区分实体词与非实体词，使得实体词的文本分析准确率较低。发明内容0007 本发明的实施例提供一种文本分析方法，提高实体词的文本分析准确率。0008 本发明的实施例还提供一种文本分。

14、析器，提高实体词的文本分析准确率。0009 为达到上述目的，本发明实施例提供的一种文本分析方法，包括：说明书CN 103077164 A2/8页50010 对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；0011 按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；0012 根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；0013 根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；0014 确认词性标注结果中包含实体词词性标注，则按照相邻相同规则。

15、，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。0015 其中，所述分词模型的预先构建包括：0016 采集语料；0017 对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；0018 通过条件随机场CRF算法，对特征字串采用分类标签方式进行训练，得到分词模型。0019 其中，所述词性标注模型的预先构建包括：0020 基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；0021 将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练。

16、，对实体词以及非实体词进行词性标注，形成词性标注模型。0022 其中，所述字符特征包括：汉字、英文字符、数字、时间以及符号；0023 所述对切分得到的字符按照预先设置的字符特征进行特征标注包括：0024 对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串；0025 所述对合并得到的词按照预先设置的字符特征进行特征标注，包括：0026 以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。0027 其中，所述对实体词进行词性标注包括：0028 按照实体词的词性，分别标注实体词中的每个单元词，每个单元词。

17、的词性与实体词的词性相同。0029 其中，所述方法进一步包括：0030 如果词性标注结果中不包含实体词词性标注，则直接输出词性标注结果作为文本分析结果。0031 一种文本分析器，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，0032 分词模型模块，用于预先构建分词模型并存储构建的分词模型；0033 词性标注模型模块，用于预先构建词性标注模型并存储构建的词性标注模型；0034 特征字串生成模块，用于对获取的文本以字符为单位进行切分处理，对切分得到说明书CN 103077164 A3/8页6的字符按照预。

18、先设置的字符特征进行特征标注，形成特征字串，输出至分词处理模块；0035 分词处理模块，用于根据分词模型模块中预先构建的分词模型，对接收的特征字串进行分词处理，得到包含字序的分词结果，输出至特征词串生成模块；0036 特征词串生成模块，用于根据接收的分词结果中的字序，进行合并处理，并对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；0037 词性标注模块，用于根据词性标注模型模块中预先构建的词性标注模型，对接收的特征词串进行词性标注，输出词性标注结果至实体词合并模块；0038 实体词合并模块，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，按照相邻相同规则，合并词性标。

19、注结果中包含实体词词性标注的实体词，得到文本分析结果并输出；如果否，将词性标注结果作为文本分析结果输出。0039 较佳地，所述分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元，其中，0040 语料采集单元，用于采集语料；0041 特征字串生成单元，用于对语料采集单元采集的语料，以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词训练单元；0042 分词训练单元，通过CRF算法，对接收的特征字串采用分类标签方式进行训练，得到分词模型，输出至分词模型存储单元；0043 分词模型存储单元，用于存储分词训练单元训练得到。

20、的分词模型。0044 较佳地，所述词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型存储单元，其中，0045 特征词串生成单元，用于基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；0046 词性标注模型单元，用于将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型，输出至词性标注模型存储单元；0047 词性标注模型存储单元，用于存储词性标注模型单元形成的词性标注模型。0048 较佳地，所述实体词合并模块包括：判断单。

21、元以及实体词合并单元，其中，0049 判断单元，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，将词性标注结果输出至实体词合并单元；否则，将接收的词性标注结果输出；0050 实体词合并单元，用于按照相邻相同规则，合并接收的词性标注结果中包含实体词词性标注的实体词并输出。0051 由上述技术方案可见，本发明实施例提供的一种文本分析方法及文本分析器，对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字。

22、符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。这样，通过对说明书CN 103077164 A4/8页7分词及词性标注的实体词进行合并处理，从而可以进行粗粒度的分词及词性标注，使输出结果更符合应用需求，提高了实体词的文本分析准确率。附图说明0052 为了更清楚地说明本发明实施例或现有技术中的技术方案，以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，以下描述中的附图仅仅是本发明的一些实施例，对。

23、于本领域普通技术人员而言，还可以根据这些附图所示实施例得到其它的实施例及其附图。0053 图1为本发明实施例文本分析方法流程示意图。0054 图2为本发明实施例文本分析器结构示意图。具体实施方式0055 以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。0056 现有的文本分析方法，采用统一的策略对文本进行分析，没有区分实体词与非实体词，即对实体词以及非实体词均采用小粒度进行分词及词性标注，而在实际。

24、应用中，对于实体词，进行分词及词性标注的结果不能满足应用需求，使得进行分词及词性标注的结果的准确性较低，实体词的文本分析准确率较低。0057 本发明实施例中，考虑到分词及词性标注的准确性，对前述提及的应用来说，具有十分重要的作用。例如，对于包括字、词、句子或段落的原始文本，互联网应用中数据对分词及词性标注的一般要求是，对于非实体词，需要得到小粒度的分词及词性标注结果，而对于实体词，例如，人名、地名、机构名等，需要得到粗粒度的分词及词性标注结果，举例来说，对于实体词人民大会堂，期望得到粗粒度的分词及词性标注结果为：人民大会堂nt，其中，nt表示机构名，而非期望得到小粒度的分词及词性标注结果为：人。

25、民n；大会堂n。0058 基于上述分析和考虑，通过训练以及条件随机场（CRF，ConditionalRandom Fields）的方法，分别生成分词的语料库及词性标注的语料库，并对实体词与非实体词的分词及词性标注分别进行相关处理，训练出相关的分词模型及词性标注模型，从而对于文本中的非实体词，可以进行小粒度的分词及词性标注，对于文本中的实体词，可以进行粗粒度的分词及词性标注，提高实体词的分词与词性标注的性能，提升输出的对实体词进行分词与词性标注的结果的准确性。0059 图1为本发明实施例文本分析方法流程示意图。本发明实施例中，采用CRF进行分词及词性标注的概率与路径分析，参见图1，该流程包括：0。

26、060 步骤101，预先构建分词模型以及词性标注模型；0061 本步骤中，构建分词模型包括：0062 A11，采集语料；0063 本步骤中，语料为文本集合，由于在统计自然语言处理中，实际上不可能观测到大规模的语言实例，因而，可以简单地用文本集合作为替代，并将文本集合中的上下文关系作说明书CN 103077164 A5/8页8为实际语言的上下文关系。0064 较佳地，采集公开的6个月的人民日报语料。0065 A12，对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；0066 本步骤中，字符特征包括：汉字（HAN）、英文字符（ALPHA）、数字（。

27、NUM）、时间（TIME）、符号（SIG）以及其他（OTHER）。0067 特征字串包括：切分得到的字符及其字符特征。例如，语料人民大会堂，经过切分后，得到切分字：人；民；大；会；堂。五个切分字的字符特征均为汉字，因而，其特征字串表示为：人HAN；民HAN；大HAN；会HAN；堂HAN。0068 对切分得到的字符按照预先设置的字符特征进行特征标注包括：0069 对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串。0070 A13，通过CRF算法，对特征字串采用分类标签（6Tag）方式进行训练，得到分词模型。0071 本步骤中，分词模型的训练方式采用6Tag方式，B表。

28、示词的开头，即词首，E表示词的最后一个字，即词尾；M表示词中间最靠近词尾E的字，M1、M2分别表示词中间的第一及第二个字。0072 其中，实体词（人名、地名、机构）按照小粒度的成词规律进行标注，小粒度成词标注是指以切分得到的字符及字符特征对文本进行标注，即以字符为单位，对文本中的实体词和非实体词分别进行字符特征标注。举例来说，对于文本中包含的机构“人民大会堂”，进行训练得到的分词模型中，标注为“人HAN B；民HAN E；大HAN B；会HAN M；堂HAN E；”，而非标注为“人HAN B；民HAN M1；大HAN M2；会HAN M；堂HANE；”；对于文本中包含的人名，进行训练得到的分词。

29、模型中，按照名与姓分开标注，例如，人名“刘德华”标注为“刘HAN B；德HAN B；华HANE”，关于文本中的非实体词标注，以切分得到的字符及字符特征进行标注，详细可参见相关技术文献，在此不再赘述。0073 本发明实施例中，分词模型以CRF为分类器，以字符特征为特征，利用CRF算法，采用6Tag方式进行训练，能够给出小粒度的实体词与非实体词分词结果。0074 关于CRF算法、采用6Tag方式进行训练的详细流程，具体可参见相关技术文献，在此不再赘述。0075 构建词性标注模型包括：0076 A21，基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；0。

30、077 本步骤中，根据分词模型中的分词结果，进行特征提取，形成词。例如，对于分词模型中的“人HAN B；民HAN E；大HAN B；会HAN M；堂HAN E；”，进行特征提取后，形成词“人民；大会堂”，对于“人民”以及“大会堂”，词最后一个字“民”、“堂”的字符特征均为汉字，则形成的特征词串为“人民HAN；大会堂HAN”。0078 A22，将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型。说明书CN 103077164 A6/8页90079 本步骤中，词性库中存储有43种词。

31、性，例如，名词（n）、动词（vn）、机构名（nt）、地名（ns）等。0080 本发明实施例中，每一词在不同的语境中，具有不同的词性，通过提取实体词以及非实体词的特征值，通过CRF算法训练，可以确定每一词的词性，其中，对于非实体词，其词性标注与现有技术相同，而对于实体词，按照实体词的属性，分别标注其中的每个单元词，每个单元词的词性与实体词的词性相同，例如，均为机构词性（nt）。例如，对于非实体词“人民大众”，词性标注为“人民HAN n；大众HAN n”，对于实体词“人民大会堂”，词性标注为“人民HAN nt；大会堂HAN nt”，再例如，实体词“中国国际广播电台”，词性标注为“中国HAN nt；。

32、国际HAN nt；广播HANnt；电台HAN nt”，而非采用非实体词的词性标注“中国HAN ns；国际HANn；广播HAN vn；电台HAN n”。0081 关于提取实体词以及非实体词的特征值，通过CRF算法训练的详细处理流程，具体可参见相关技术文献，在此不再赘述。0082 在本发明实施例的文本分析方法中，步骤101只需执行一次，而非在每次进行文本分析时，都需要执行。0083 步骤102，对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；0084 本步骤中，对用户输入的文本进行预处理，即以字符为单位，对预先获取的文本进行切分处理，得到字符。

33、，计算其字符特征，并以字符为单位，对文本中的实体词和非实体词分别进行字符特征标注。0085 切分得到的字符及其字符特征组成特征字串，例如，对于输入的文本“人民大会堂”，特征字串为“人HAN；民HAN；大HAN；会HAN；堂HAN”。0086 步骤103，按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；0087 本步骤中，通过预先存储的分词模型，对形成的特征字串进行分词处理。例如，对于特征字串“人HAN；民HAN；大HAN；会HAN；堂HAN”，按照构建的分词模型，进行分词处理，得到分词结果为“人HAN B；民HANE；大HAN B；会HAN M；堂HAN E”，其中，人。

34、为词的词首，民为词的词尾；大为另一词的词首，会为该另一词的词中，堂为该另一词的词尾。0088 步骤104，根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；0089 本步骤中，根据接收的分词结果中的字序，合并分词结果，得到合并的词，并按照预先设置的字符特征进行特征标注，形成特征词串。也就是说，根据分词结果中的字序，对分词结果进行再次预处理，其中，对合并得到的词按照预先设置的字符特征进行特征标注，包括：以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。例如，将分词结果“人HAN。

35、B；民HAN E；大HAN B；会HAN M；堂HAN E”进行合并处理，得到词，并以合并得到的词的最后一个字符的字符特征作为该词的字符特征，将词与字符特征结合，形成特征词串，即“人民HAN；大会堂HAN”。0090 步骤105，根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；说明书CN 103077164 A7/8页100091 本步骤中，将特征词串通过词性标注模型进行词性标注，得到词性标注结果。0092 本发明实施例中，对特征词串“人民HAN；大会堂HAN”进行词性标注后，得到词性标注结果“人民HAN nt；大会堂HAN nt”；再例如，对于特征词串“人民HAN；。

36、大众HAN”进行词性标注后，得到词性标注结果“人民HAN n；大众HAN n”。0093 步骤106，确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。0094 本步骤中，确定词性标注结果中是否包含实体词词性标注，如果包含实体词词性标注，对包含的实体词词性标注，按照相邻相同规则合并词性标注结果中的实体词，然后输出；如果不包含实体词词性标注，则直接输出词性标注结果。例如，对于词性标注结果“人民HAN n；大众HAN n”，不包含有实体词词性标注，将该结果直接输出；而对于词性标注结果“人民HAN nt；大会堂HAN nt”，包。

37、含有实体词（机构）词性标注nt，按照相邻相同规则，合并包含实体词词性标注的实体词，即合并为“人民大会堂HAN nt”。这样，通过对具有“相邻相同”实体词属性词进行合并，即可完成对实体词的识别，而对于非实体词，则保留原标注状态，即对实体词进行平滑处理。0095 在对实体词完成平滑处理之后，可将其作为分词结果输出，即可完成对非实体词的小粒度分词，而对实体词的大粒度分词。0096 关于按照相邻相同规则进行合并的详细描述，具体可参见相关技术文献，在此不再赘述。0097 由上述可见，本发明实施例的文本分析方法，通过在训练分词模型时，在语料中考虑对实体词的处理，并通过在词性标注模型中，对实体词中各单元词采。

38、用该实体词的标注方式，在词性标注中为单元实体词进行识别工作，并在平滑处理中，通过相邻相同规则合并词性标注中的单元实体词，最终完成对实体词的识别，从而可以有效提高实体词识别的准确率，提高实体词的分词与词性标注的性能，提升输出结果中对实体词进行分词与词性标注的准确性；同时，融合分词、词性标注、实体识别，在分词阶段与词性标注阶段，实体词与非实体词均采用小粒度标注，与现有技术不同的是，在词性标注的模型训练阶段，以每个实体词的属性来标注其内部各单元词，而不是以各单元词固有的词性进行标注，可以有效利用并改善了文本分析器对非实体词与实体词不同粒度的要求。0098 图2为本发明实施例文本分析器结构示意图。参见。

39、图2，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，0099 分词模型模块，用于预先构建分词模型并存储构建的分词模型；0100 词性标注模型模块，用于预先构建词性标注模型并存储构建的词性标注模型；0101 特征字串生成模块，用于对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词处理模块；0102 本发明实施例中，字符特征包括：汉字（HAN）、英文字符（ALPHA）、数字（NUM）、时间（TIME）、符号（SIG）以及其他（OTHER）。0103 分词处理模块，用于根据分词模型模块中预先构建的分词模型，对接收的特征字串进行分词处理，得到包含字序的分词结果，输出至特征词串生成模块；0104 特征词串生成模块，用于根据接收的分词结果中的字序，进行合并处理，并对合并说明书CN 103077164 A10。

展开阅读全文