用于构建极性词素数据库以及确定词的极性的方法和装置 【技术领域】
本发明一般地涉及文字处理。更具体地, 本发明涉及词的极性的判断。背景技术
词的极性 (polarity) 的确定广泛应用于文章分类、 观点挖掘和情感分析等。在传 统的方法中, 为了提高词的极性识别的性能, 构造包括大量的具有手工标注词性的词的词 典。构造这样的词典费时且成本高。发明内容
根据本发明的第一方面, 提供了一种用于构建极性词素数据库的方法, 包括 : 从语 料库和 / 或词语库中提取具有极性的单音节词 ; 以及对具有极性的单音节词标注极性, 被 标注极性的单音节词构成极性词素数据库。 根据本发明的第二方面, 提供了一种用于确定词的极性的方法, 包括 :
对于要确定极性的词, 计算词与预定的极性词素数据库中的每个极性为褒义的词 之间的互信息、 以及词与极性词素数据库中的每个极性为贬义的词之间的互信息 ; 根据所 计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息, 计算词与极性词素数 据库中的所有极性为褒义的词之间的关联性, 并根据所计算的词与极性词素数据库中的每 个极性为贬义的词之间的互信息, 计算词与极性词素数据库中的所有极性为贬义的词之间 的关联性 ; 以及对词与极性词素数据库中的所有极性为褒义的词之间的关联性以及词与极 性词素数据库中的所有极性为贬义的词之间的关联性进行比较, 根据比较结果判定词的极 性。
根据本发明的第三方面, 提供了一种用于构建极性词素数据库的装置, 包括 : 提取 单元, 被配置用于从语料库和 / 或词语库中提取具有极性的单音节词 ; 以及标注单元, 被配 置用于对具有极性的单音节词标注极性, 被标注极性的单音节词构成极性词素数据库。
根据本发明的第四方面, 提供了一种用于确定词的极性的装置, 包括 : 互信息计 算单元, 被配置用于对于要确定极性的词, 计算词与预定的极性词素数据库中的每个极性 为褒义的词之间的互信息、 以及词与极性词素数据库中的每个极性为贬义的词之间的互信 息; 关联性计算单元, 被配置用于根据互信息计算单元所计算的词与极性词素数据库中的 每个极性为褒义的词之间的互信息, 计算词与极性词素数据库中的所有极性为褒义的词之 间的关联性, 并根据互信息计算单元所计算的词与极性词素数据库中的每个极性为贬义的 词之间的互信息, 计算词与极性词素数据库中的所有极性为贬义的词之间的关联性 ; 以及 判定单元, 被配置用于对关联性计算单元所计算的词与极性词素数据库中的所有极性为褒 义的词之间的关联性以及词与极性词素数据库中的所有极性为贬义的词之间的关联性进 行比较, 根据比较结果判定词的极性。
依据本发明的其它实施例, 还提供了相应的计算机可读存储介质和计算机程序产 品。
根据本发明的实施例, 可以有效地构建极性词素数据库以及确定词的极性。
通过以下结合附图对本发明的最佳实施例的详细说明, 本发明的这些以及其它的 优点将更加明显。 附图说明 参照下面结合附图对本发明实施例的说明, 会更加容易地理解本发明的以上和其 它目的、 特点和优点。附图中的部件只是为了示出本发明的原理。在附图中, 相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。附图中 :
图 1 示出了根据本发明的一个实施例的构建极性词素数据库的方法的流程图 ;
图 2 示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图 ;
图 3 示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图 ;
图 4 示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图 ;
图 5 示出了根据本发明的一个实施例的用于确定词的极性的方法的流程图 ;
图 6 示出了根据本发明的另一个实施例的用于确定词的极性的方法的流程图 ;
图 7 示出了根据本发明的一个实施例的用于构建极性词素数据库的装置的框图 ;
图 8 示出了根据本发明的另一个实施例的用于构建极性词素数据库的装置的框 图;
图 9 示出了根据本发明的一个实施例的用于确定词的极性的装置的框图 ;
图 10 示出了根据本发明的另一个实施例的用于确定词的极性的装置的框图 ; 以 及
图 11 示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框 图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。 然而, 应该了解, 在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定, 以便实现开发人员的具体目标, 例如, 符 合与系统及业务相关的那些限制条件, 并且这些限制条件可能会随着实施方式的不同而有 所改变。此外, 还应该了解, 虽然开发工作有可能是非常复杂和费时的, 但对得益于本公开 内容的本领域技术人员来说, 这种开发工作仅仅是例行的任务。
在此, 还需要说明的一点是, 为了避免因不必要的细节而模糊了本发明, 在附图和 说明中仅仅描述了与根据本发明的方案密切相关的装置结构和 / 或处理步骤, 而省略了对 与本发明关系不大的、 本领域普通技术人员已知的部件和处理的表示和描述。
在以下的部分描述中, 以汉语为例子介绍了本发明的实施例。但是本发明不限于 此。本发明也可以适用于与汉语类似的语言。
图 1 示出了一个实施例的构建极性词素数据库的方法的流程图。
在步骤 S101 中, 从语料库和 / 或词语库中提取具有极性的单音节词。 在步骤 S102 中, 对具有极性的单音节词标注极性, 被标注极性的单音节词可以构成极性词素数据库。
语料库可以是任何包含大量语料 ( 句子 ) 的集合。词语库可以是包括大量词语的词典。 在步骤 S102 中可以通过查询现有的极性词素数据库的方式来为单音节词标注极 性, 即褒义 (positive) 或者贬义 (negative), 也可以通过显示提取的单音节词并接收操作 者输入的该单音节词的极性的方式来标注极性。
在本实施例中, 只利用具有极性的单音节词构成极性词素数据库。由于具有极性 的单音节词的数目相对较少, 而具有极性的双音节词或多音节词数量庞大。 另外, 绝大多数 具有极性的双音节词或多音节词都可以根据其中所包括的单音节词来确定其极性。 也就是 说, 一般地可以由单音节词的极性来确定双音节词或多音节词的词性。因此通过构建具有 较少数目的单音节词的极性词素数据库, 可以节省时间和成本。
图 2 示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图。
在步骤 S201 中, 从语料库和 / 或词语库中提取具有极性的单音节词。
在步骤 S202 中, 从具有极性的单音节词中选择预定数量的常用的单音节词。
在步骤 S203 中, 对所选择的所述预定数量的常用的单音节词标注极性。被标注极 性的单音节词可以构成极性词素数据库。
图 2 的实施例与图 1 的不同之处在于, 只选择预定数量的常用的单音节词进行标 注。在一个示例中, 步骤 S202 可以包括显示提取的单音节词并接收操作者的对与该单音节 词是否为常用的单音节词的输入。在另一个示例中, 步骤 S202 可以包括根据单音节词出现 的频率, 选择出现频率最高的预定数量的单音节词。单音词出现的频率可以通过查询现有 的统计结果获得, 或者可以在步骤 S201 中统计具有极性的单音节词在语料库和 / 或词语库 中出现的频率。
在本实施例中, 通过只选择预定数量的常用的单音节词, 可以进一步减小极性词 素数据库的规模, 从而可以进一步节省时间和成本。
图 3 示出了根据本发明的一个实施例的构建极性词素数据库的方法的流程图。
在步骤 S301 中, 将双音节词语库中的双音节词切分成单音节词。
在步骤 S302 中, 分析所切分的各个单音节词的词性。
在步骤 S303 中, 根据所切分的各个单音节词的词性以及所切分的各个单音节词 在双音节词中的相对位置, 从切分的单音节词中选择非语义核心的具有极性的单音节词。
在步骤 S304 中, 对具有极性的单音节词标注极性, 被标注极性的单音节词可以构 成极性词素数据库。
在本实施例中, 从双音节词语库中提取具有极性的单音节词。双音节词语库可以 是任何已有双音节词语库, 可以是从通用词语库中选取双音节词而构成的双音节词语库。
在步骤 S301 中, 将双音节词切分成单音节词是本领域的技术人员可以实现的。这 里不再详细描述。
在步骤 S302 中, 可以采用各种已知的词性分析方法来分析所切分的各个单音节 词的词性。例如, 对于双音节词 “劣质” , 对其进行词性分析可以得到 “[ 劣 .a.][ 质 .n.]” , 即表示 “劣” 为形容词, “质” 为名词。
在步骤 S303 中, 根据所切分的各个单音节词的词性以及所切分的各个单音节词 在双音节词中的相对位置, 从切分的单音节词中选择非语义核心的具有极性的单音节词。 可以采用各种方法来确定双音节词中哪个单音节词是具有极性的单音节词。例如, 对于
“[ 劣 .a.][ 质 .n.]” , 由于第一个单音节词是形容词, 第二个单音节词是名词, 所以可以确 定 “劣” 是具有极性的单音节词。这里, 在双音节词 “劣质” 中, “质” 是语义核心, 而 “劣” 是 非语义核心。注意, 有可能一个双音节词中的两个单音节词都不被认为是具有极性的单音 节词。或者, 有可能一个双音节词中的两个单音节词都被认为是具有极性的单音节词。本 领域的技术人员还可以设想其他确定具有极性的单音节词的规则, 这里不再详细描述。
步骤 S304 与图 1 中的步骤 S103 类似, 这里不再详细描述。
与图 2 中的实施例类似, 在图 3 的实施例中, 也可以只选择预定数量的单音节词来 构成极性语素数据库。
图 4 示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图。
在步骤 S401 中, 对语料库中的语句进行分词处理。
在步骤 S402 中, 分析分词后的语句中的各个词的词性。
在步骤 S403 中, 根据分词后的语句中的各个词的词性及相对位置, 从分词后的语 句中的各个词中选择非语义核心的具有极性的单音节词。
在步骤 S404 中, 对具有极性的单音节词标注极性, 被标注极性的单音节词可以构 成极性词素数据库。 在步骤 S401 中, 本领域的技术人员可以采用各种方法进行分词处理。在本实施例 中, 一般将语句分词为单音节词和 / 或双音节词。 例如, 可以将语句 “从结果来看, 自动白平 衡所能获得的色温是非常准确的。 ” 分词为 “从 / 结果 / 来看 /, / 自动 / 白 / 平衡 / 所 / 能 / 获得 / 的 / 色 / 温 / 是 / 非常 / 准确 / 的 /。/” 。
在步骤 S402 中, 可以采用各种已知的词性分析方法来分析分词后的语句中的各 个词的词性。例如, 对 “从 / 结果 / 来看 /, / 自动 / 白 / 平衡 / 所 / 能 / 获得 / 的 / 色 / 温 / 是 / 非常 / 准确 / 的 /。/” 进行词性分析可以得到 “从 /p 结果 /n 来看 /u, /w 自动 /d 白 /d 平衡 /a 所 /u 能 /v 获得 /v 的 /u 色 /n 温 /Ng 是 /v 非常 /d 准确 /a 的 /u。/w” , 其中 p 表示介词, n 表示名词, u 表示其他助词, w 表示标点符号, d 表示副词, a 表示形容词, v 表示 动词, Ng 表示名词性语素。
在步骤 S403 中, 首先可以根据分词后的语句中的各个词的词性及相对位置, 从分 词后的语句中的各个词中选择具有极性的词。例如 “非常” 是副词, 其后的 “准确” 是形容 词, 可以将 “准确” 确定为具有极性的词。然后, 如果所确定的具有极性的词是双音节词或 多音节词, 可以将其切分为单音节词, 在根据所切分的各个单音节词的词性以及所切分的 各个单音节词在双音节词中的相对位置, 从切分的单音节词中选择非语义核心的具有极性 的单音节词。例如可以将 “准确” 中的 “准” 确定为非语义核心的具有极性的单音节词。
步骤 S404 与图 2 中的步骤 S203 类似, 这里不再详细描述。
与图 2 中的实施例类似, 在图 4 的实施例中, 也可以只选择预定数量的单音节词来 构成极性语素数据库。
在一个实施例中, 可以将图 3 和图 4 相结合, 即将在步骤 303 和步骤 304 中获得的 具有极性的单音节词相组合, 对其标注极性, 从而构成极性语素数据库。
图 5 示出了根据本发明的一个实施例的用于确定词的极性的方法的流程图。
在步骤 S501 中, 对于要确定极性的词, 计算该词与预定的极性词素数据库中的每 个极性为褒义的词之间的互信息、 以及词与极性词素数据库中的每个极性为贬义的词之间
的互信息。
在步骤 S502 中, 根据所计算的词与极性词素数据库中的每个极性为褒义的词之 间的互信息, 计算词与极性词素数据库中的所有极性为褒义的词之间的关联性, 并根据所 计算的词与极性词素数据库中的每个极性为贬义的词之间的互信息, 计算词与极性词素数 据库中的所有极性为贬义的词之间的关联性。
在步骤 S503 中, 对词与极性词素数据库中的所有极性为褒义的词之间的关联性 以及词与极性词素数据库中的所有极性为贬义的词之间的关联性进行比较, 根据比较结果 判定词的极性。
在步骤 S501 中, 可以以各种方式计算词与词之间的互信息。
例如, 可以采用如下公式计算互信息 :
MI(w1, w2) = 2p(w1, w2)/[p(w1)+p(w2)]
其中 w1 和 w2 表示要计算互信息的两个词, p(w1, w2) 是 w1 与 w2 共现的次数, p(w1) 表示 w1 出现的次数, p(w2) 表示 w2 出现的次数, MI(w1, w2) 表示 w1 和 w2 之间的互信息。 p(w1, w2), p(w1) 和 p(w2) 可以从各种现有的统计结果中得到。
另外, 可以采用逐点互信息 PMI(Pointwise Mutual Information)。计算互信息 :
其中 w1 和 w2 表示要计算互信息的两个词, p(w1, w2) 是 w1 与 w2 共现的次数, p(w1) 表示 w1 出现的次数, p(w2) 表示 w2 出现的次数, MI(w1, w2) 表示 w1 和 w2 之间的互信息。 p(w1, w2), p(w1) 和 p(w2) 可以从各种现有的统计结果中得到。
在步骤 S502 中, 在一个示例中, 词与极性词素数据库中的所有极性为褒义的词之 间的关联性可以与词与极性词素数据库中的每个极性为褒义的词之间的互信息成正比, 词 与极性词素数据库中的所有极性为贬义的词之间的关联性计可以与词与极性词素数据库 中的每个极性为贬义的词之间的互信息成正比。
在步骤 S503 中, 可以判断词与极性词素数据库中的所有极性为褒义的词之间的 关联性以及词与极性词素数据库中的所有极性为贬义的词之间的关联性二者孰大。如果 该词与极性词素数据库中的所有极性为褒义的词之间的关联性较大, 则判断该词为褒义。 如果该词与极性词素数据库中的所有极性为贬义的词之间的关联性较大, 则判断该词为贬 义。若二者相等, 可以判定该词无极性或者为中性词。
图 6 示出了根据本发明的另一个实施例的用于确定词的极性的方法的流程图。
在步骤 S601 中, 计算词与预定的极性词素数据库中的每个极性为褒义的词之间 的互信息、 以及词与极性词素数据库中的每个极性为贬义的词之间的互信息。
在步骤 S602 中, 对所计算的词与极性词素数据库中的每个极性为褒义的词之间 的互信息进行求和, 获得第一求和结果。
在步骤 S603 中, 对所计算的词与极性词素数据库中的每个极性为贬义的词之间 的互信息进行求和, 获得第二求和结果。
在步骤 S604 中, 如果第一求和结果大于第二求和结果则判定词的极性为褒义, 如 果第一求和结果小于第二求和结果则判定词的极性为贬义。
步骤 S601 与图 5 中的步骤 S501 类似, 这里不再详细描述。
在步骤 S602 中, 利用以下公式计算第一求和结果 :其中 w 表示要确定极性的词, pw 表示预定的极性词素数据库中的极性为褒义的 词, p 表示极性词素数据库中的极性为褒义的词的集合, MI1 表示第一求和结果。
在步骤 S603 中, 利用以下公式计算第二求和结果 :
其中 w 表示要确定极性的词, nw 表示预定的极性词素数据库中的极性为贬义的 词, n 表示极性词素数据库中的极性为贬义的词的集合, MI2 表示第二求和结果。
在步骤 S604 中, 如果 MI1 大于 MI2 则判定词的极性为褒义, 如果 MI1 小于 MI2 则 判定词的极性为贬义, 如果 MI1 等于 MI2, 可以判定该词无极性或者为中性词。
在图 5 和图 6 所示的用于确定词的极性的方法的实施例中所利用的极性词素数据 库可以是在如图 1 ~图 4 所示的实施例中构建的极性词素数据库。但是, 本发明的实施例 不限于此。在图 5 和图 6 的实施例中也可以采用其他极性词素数据库, 例如既包括单音节 词也包括多音节词的极性词素数据库。
图 7 示出了根据本发明的一个实施例的用于构建极性词素数据库的装置 700 的框 图。装置 700 包括提取单元 701 和标注单元 702。提取单元 701 被配置用于从语料库和 / 或词语库中提取具有极性的单音节词。标注单元 702 被配置用于对具有极性的单音节词标 注极性, 被标注极性的单音节词构成所述极性词素数据库。
可选地, 上述词语库是双音节词语库, 并且提取单元 701 包括 : 切分模块, 被配置 用于将双音节词语库中的双音节词切分成单音节词 ; 分析模块, 被配置用于分析切分模块 所切分的各个单音节词的词性 ; 以及选择模块, 被配置用于根据所切分的各个单音节词的 词性以及所切分的各个单音节词在所述双音节词中的相对位置, 从切分模块所切分的单音 节词中选择非语义核心的具有极性的单音节词。
可选地, 提取单元 701 包括 : 分词模块, 被配置用于对所述语料库中的语句进行分 词处理 ; 分析模块, 被配置用于分析被所述分词模块分词后的语句中的各个词的词性 ; 以 及选择模块, 被配置用于根据分析模块所分析的分词后的语句中的各个词的词性及相对位 置, 从被分词模块分词后的语句中的各个词中选择非语义核心的具有极性的单音节词。
标注单元 702 可以通过查询现有的极性词素数据库的方式来为单音节词标注极 性。
标注单元 702 也可以通过显示提取的单音节词并接收操作者输入的该单音节词 的极性的方式来标注极性。此时, 标注单元 702 可以包括显示器等显示模块或者鼠标等输 入模块。
关于装置 700 的各个部分的操作和功能的细节可以参照结合图 1, 图 3 和图 4 描述 的本发明的实施例, 这里不再详细描述。
图 8 示出了根据本发明的另一个实施例的用于构建极性词素数据库的装置 800 的 框图。装置 800 包括提取单元 801、 选择单元 802 和标注单元 803。提取单元 801 被配置用 于从语料库和 / 或词语库中提取具有极性的单音节词。选择单元 802 被配置用于从具有极
性的单音节词中选择预定数量的常用的单音节词。标注单元 803 被配置用于对选择单元 802 所选择的所述预定数量的常用的单音节词标注极性, 被标注极性的单音节词构成所述 极性词素数据库。
关于装置 800 的各个部分的操作和功能的细节可以参照结合图 2 描述的本发明的 实施例, 这里不再详细描述。
图 9 示出了根据本发明的一个实施例的用于确定词的极性的装置 900 的框图。装 置 900 包括互信息计算单元 901, 被配置用于对于要确定极性的词, 计算词与预定的极性词 素数据库中的每个极性为褒义的词之间的互信息、 以及词与极性词素数据库中的每个极性 为贬义的词之间的互信息 ; 关联性计算单元 902, 被配置用于根据互信息计算单元所计算 的词与极性词素数据库中的每个极性为褒义的词之间的互信息, 计算词与极性词素数据库 中的所有极性为褒义的词之间的关联性, 并根据互信息计算单元所计算的词与极性词素数 据库中的每个极性为贬义的词之间的互信息, 计算词与极性词素数据库中的所有极性为贬 义的词之间的关联性 ; 以及判定单元 903, 被配置用于对关联性计算单元所计算的词与极 性词素数据库中的所有极性为褒义的词之间的关联性以及词与极性词素数据库中的所有 极性为贬义的词之间的关联性进行比较, 根据比较结果判定词的极性。 关于装置 900 的各个部分的操作和功能的细节可以参照结合图 5 描述的本发明的 实施例, 这里不再详细描述。
图 10 示出了根据本发明的另一个实施例的用于确定词的极性的装置 1000 的框 图。装置 1000 包括互信息计算单元 1001、 关联性计算单元 1002 和判定单元 1005。
互信息计算单元 1001 被配置用于对于要确定极性的词, 计算词与预定的极性词 素数据库中的每个极性为褒义的词之间的互信息、 以及词与极性词素数据库中的每个极性 为贬义的词之间的互信息。
关联性计算单元 1002 包括第一求和模块 1003, 被配置用于对互信息计算单元所 计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息进行求和, 获得第一求 和结果 ; 以及第二求和模块 1004, 被配置用于对互信息计算单元所计算的词与极性词素数 据库中的每个极性为贬义的词之间的互信息进行求和, 获得第二求和结果。
判定单元 1005 被配置成 : 对关联性计算单元 1002 所获得的第一求和结果和第二 求和结果进行比较, 如果第一求和结果大于第二求和结果则判定词的极性为褒义, 如果第 一求和结果小于第二求和结果则判定词的极性为贬义。
关于装置 1000 的各个部分的操作和功能的细节可以参照结合图 6 描述的本发明 的实施例, 这里不再详细描述。
在图 9 和图 10 的装置 900 和装置 1000 中所利用的极性词素数据库可以是通过如 图 7 ~图 8 所示装置 700 和装置 800 构建的极性词素数据库。但是, 本发明的实施例不限 于此。装置 900 和装置 1000 中也可以采用其他极性词素数据库, 例如既包括单音节词也包 括多音节词的极性词素数据库。
图 11 示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框 图。在图 11 中, 中央处理单元 (CPU)1101 根据只读存储器 (ROM)1102 中存储的程序或从存 储部分 1108 加载到随机存取存储器 (RAM)1103 的程序执行各种处理。在 RAM 1103 中, 还 根据需要存储当 CPU 1101 执行各种处理等等时所需的数据。CPU 1101、 ROM 1102 和 RAM
1103 经由总线 504 彼此连接。输入 / 输出接口 1105 也连接到总线 1104。
下述部件连接到输入 / 输出接口 1105 : 输入部分 1106( 包括键盘、 鼠标等等 )、 输 出部分 1107( 包括显示器, 比如阴极射线管 (CRT)、 液晶显示器 (LCD) 等, 和扬声器等 )、 存 储部分 1108( 包括硬盘等 )、 通信部分 1109( 包括网络接口卡比如 LAN 卡、 调制解调器等 )。 通信部分 1109 经由网络比如因特网执行通信处理。 根据需要, 驱动器 1110 也可连接到输入 / 输出接口 1105。可拆卸介质 1111 比如磁盘、 光盘、 磁光盘、 半导体存储器等等可以根据需 要被安装在驱动器 1110 上, 使得从中读出的计算机程序根据需要被安装到存储部分 1108 中。
在通过软件实现上述系列处理的情况下, 从网络比如因特网或存储介质比如可拆 卸介质 1111 安装构成软件的程序。
本领域的技术人员应当理解, 这种存储介质不局限于图 11 所示的其中存储有程 序、 与设备相分离地分发以向用户提供程序的可拆卸介质 1111。可拆卸介质 1111 的例子 包含磁盘 ( 包含软盘 ( 注册商标 ))、 光盘 ( 包含光盘只读存储器 (CD-ROM) 和数字通用盘 (DVD))、 磁光盘 ( 包含迷你盘 (MD)( 注册商标 )) 和半导体存储器。或者, 存储介质可以是 ROM 1102、 存储部分 1108 中包含的硬盘等等, 其中存有程序, 并且与包含它们的设备一起 被分发给用户。 本发明还提出一种存储有机器可读取的指令代码的程序产品。 所述指令代码由机 器读取并执行时, 可执行上述根据本发明实施例的方法。
相应地, 用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包 括在本发明的公开中。所述存储介质包括但不限于软盘、 光盘、 磁光盘、 存储卡、 存储棒等 等。
在上面对本发明具体实施例的描述中, 针对一种实施方式描述和 / 或示出的特征 可以以相同或类似的方式在一个或更多个其它实施方式中使用, 与其它实施方式中的特征 相组合, 或替代其它实施方式中的特征。
应该强调, 术语 “包括 / 包含” 在本文使用时指特征、 要素、 步骤或组件的存在, 但 并不排除一个或更多个其它特征、 要素、 步骤或组件的存在或附加。
此外, 本发明的方法不限于按照说明书中描述的时间顺序来执行, 也可以按照其 他的时间顺序地、 并行地或独立地执行。 因此, 本说明书中描述的方法的执行顺序不对本发 明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露, 但是, 应 该理解, 上述的所有实施例和示例均是示例性的, 而非限制性的。 本领域的技术人员可在所 附权利要求的精神和范围内设计对本发明的各种修改、 改进或者等同物。 这些修改、 改进或 者等同物也应当被认为包括在本发明的保护范围内。
关于包括以上各实施例的实施方式, 还公开了以下的附记。
附记
1. 一种用于构建极性词素数据库的方法, 包括 :
从语料库和 / 或词语库中提取具有极性的单音节词 ; 以及
对所述具有极性的单音节词标注极性, 所述被标注极性的单音节词构成所述极性 词素数据库。
2. 如附记 1 所述的方法, 在所述标注之前还包括从所述具有极性的单音节词中选 择预定数量的常用的单音节词, 并且所述标注包括对所选择的所述预定数量的常用的单音 节词标注极性。
3. 如附记 1 所述的方法, 其中所述词语库是双音节词语库, 并且所述提取具有极 性的单音节词包括 :
将所述双音节词语库中的双音节词切分成单音节词 ;
分析所切分的各个单音节词的词性 ; 以及
根据所切分的各个单音节词的词性以及所切分的各个单音节词在所述双音节词 中的相对位置, 从所述切分的单音节词中选择非语义核心的具有极性的单音节词。
4. 如附记 1 所述的方法, 其中所述提取具有极性的单音节词包括 :
对所述语料库中的语句进行分词处理 ;
分析分词后的语句中的各个词的词性 ; 以及
根据分词后的语句中的各个词的词性及相对位置, 从分词后的语句中的各个词中 选择非语义核心的具有极性的单音节词。
5. 一种用于确定词的极性的方法, 包括 : 对于要确定极性的词, 计算所述词与预定的极性词素数据库中的每个极性为褒义 的词之间的互信息、 以及所述词与所述极性词素数据库中的每个极性为贬义的词之间的互 信息 ;
根据所计算的所述词与所述极性词素数据库中的每个极性为褒义的词之间的互 信息, 计算所述词与所述极性词素数据库中的所有极性为褒义的词之间的关联性, 并根据 所计算的所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信息, 计算所述 词与所述极性词素数据库中的所有极性为贬义的词之间的关联性 ; 以及
对所述词与所述极性词素数据库中的所有极性为褒义的词之间的关联性以及所 述词与所述极性词素数据库中的所有极性为贬义的词之间的关联性进行比较, 根据比较结 果判定所述词的极性。
6. 如附记 5 所述的方法, 其中所述计算关联性的步骤包括 :
对所计算的所述词与所述极性词素数据库中的每个极性为褒义的词之间的互信 息进行求和, 获得第一求和结果 ; 以及
对所计算的所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信 息进行求和, 获得第二求和结果。
7. 如附记 6 所述的方法, 其中所述判定的步骤包括 : 对所述第一求和结果和第二 求和结果进行比较, 如果第一求和结果大于第二求和结果则判定所述词的极性为褒义, 如 果第一求和结果小于第二求和结果则判定所述词的极性为贬义。
8. 如附记 5 所述的方法, 其中所述极性词素数据库为由附记 1-4 中任一项所述的 方法构建的极性词素数据库。
9. 一种用于构建极性词素数据库的装置, 包括 :
提取单元, 被配置用于从语料库和 / 或词语库中提取具有极性的单音节词 ; 以及
标注单元, 被配置用于对所述具有极性的单音节词标注极性, 所述被标注极性的 单音节词构成所述极性词素数据库。
10. 如附记 9 所述的装置, 还包括选择单元, 被配置用于从所述具有极性的单音节 词中选择预定数量的常用的单音节词 ; 并且所述标注单元被配置用于对所述选择单元所选 择的所述预定数量的常用的单音节词标注极性。
11. 如附记 9 所述的装置, 其中所述词语库是双音节词语库, 并且所述提取单元包 括:
切分模块, 被配置用于将所述双音节词语库中的双音节词切分成单音节词 ;
分析模块, 被配置用于分析切分模块所切分的各个单音节词的词性 ; 以及
选择模块, 被配置用于根据所切分的各个单音节词的词性以及所切分的各个单音 节词在所述双音节词中的相对位置, 从切分模块所切分的单音节词中选择非语义核心的具 有极性的单音节词。
12. 如附记 9 所述的装置, 其中所述提取单元包括 :
分词模块, 被配置用于对所述语料库中的语句进行分词处理 ;
分析模块, 被配置用于分析被所述分词模块分词后的语句中的各个词的词性 ; 以 及
选择模块, 被配置用于根据所述分析模块所分析的分词后的语句中的各个词的词 性及相对位置, 从被所述分词模块分词后的语句中的各个词中选择非语义核心的具有极性 的单音节词。
13. 一种用于确定词的极性的装置, 包括 :
互信息计算单元, 被配置用于对于要确定极性的词, 计算所述词与预定的极性词 素数据库中的每个极性为褒义的词之间的互信息、 以及所述词与所述极性词素数据库中的 每个极性为贬义的词之间的互信息 ;
关联性计算单元, 被配置用于根据互信息计算单元所计算的所述词与所述极性词 素数据库中的每个极性为褒义的词之间的互信息, 计算所述词与所述极性词素数据库中的 所有极性为褒义的词之间的关联性, 并根据互信息计算单元所计算的所述词与所述极性词 素数据库中的每个极性为贬义的词之间的互信息, 计算所述词与所述极性词素数据库中的 所有极性为贬义的词之间的关联性 ; 以及
判定单元, 被配置用于对关联性计算单元所计算的所述词与所述极性词素数据库 中的所有极性为褒义的词之间的关联性以及所述词与所述极性词素数据库中的所有极性 为贬义的词之间的关联性进行比较, 根据比较结果判定所述词的极性。
14. 如附记 13 所述的装置, 其中所述关联性计算单元包括 :
第一求和模块, 被配置用于对互信息计算单元所计算的所述词与所述极性词素数 据库中的每个极性为褒义的词之间的互信息进行求和, 获得第一求和结果 ; 以及
第二求和模块, 被配置用于对互信息计算单元所计算的所述词与所述极性词素数 据库中的每个极性为贬义的词之间的互信息进行求和, 获得第二求和结果。
15. 如附记 14 所述的装置, 其中所述判定单元被配置成 : 对所述关联性计算单元 所获得的所述第一求和结果和第二求和结果进行比较, 如果第一求和结果大于第二求和结 果则判定所述词的极性为褒义, 如果第一求和结果小于第二求和结果则判定所述词的极性 为贬义。
16. 如附记 13 所述的装置, 其中所述极性词素数据库为由附记 9-12 中任一项所述的装置构建的极性词素数据库。