基于多元特征的英语作文语法错误自动纠正方法.pdf

上传人:00****42 文档编号:1495388 上传时间:2018-06-18 格式:PDF 页数:37 大小:22.98MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310311955.4

申请日:

2013.07.24

公开号:

CN103365838A

公开日:

2013.10.23

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/28申请日:20130724|||公开

IPC分类号:

G06F17/28

主分类号:

G06F17/28

申请人:

桂林电子科技大学

发明人:

黄桂敏; 周娅; 王晓娟

地址:

541004 广西壮族自治区桂林市七星区金鸡路1号

优先权:

专利代理机构:

桂林市华杰专利商标事务所有限责任公司 45112

代理人:

罗玉荣

PDF下载: PDF下载
内容摘要

基于多元特征的英语作文语法错误自动纠正方法,包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;其中语法纠错预处理模块对输入的训练文本集进行单词词性标注、句子句法解析和单词词频统计;语法纠错模型训练模块对输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征、单词及其词性的语法特征,计算单词语法特征权重,输出语法纠错统计模型;语法错误检查纠正模块利用语法纠错统计模型和语法纠错规则模型对待纠错作文进行语法纠错,输出英语作文中语法错误的纠正结果。该方法实现了对英语作文中常见11种英语语法错误自动纠正。

权利要求书

1.  基于多元特征的英语作文语法错误自动纠正方法,其特征是:其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;
语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词频统计库;
语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词多元语法特征集、单词词性语法混淆集,根据单词词性语法混淆集提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,最后输出语法纠错统计模型;
语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,最后输出英语作文中语法错误的纠正结果。

2.
  根据权利要求1所述的方法,其特征是:所述的语法纠错预处理模块具体处理流程如下:
S0201开始;
S0202读入训练文本集;
S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;
S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;
S0205遍历单词词性标注库;
S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;
S0207如果当前单词在单词词频链表中,则转S0208操作;否则转S0209操作;
S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0210遍历句子句法树结构库;
S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;
S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;
S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0214当前短语及其词性加入单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;
S0216结束。

3.
  根据权利要求1所述的方法,其特征是:所述的语法纠错模型训练模块具体处理流程如下:
S0301开始;
S0302读入单词词性标注库、句子句法树结构库和单词词性语法混淆集;
S0303将句子分割成单词词性单元,生成单词词性单元列表;
S0304遍历单词词性单元列表;
S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;
S0306如果当前单词在单词词性语法混淆集中,则转S0307操作;否则转S0305操作;
S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;
S0308计算当前单词语法特征权重;
S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特 征权重,转S0305操作;
S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠错统计模型;
S0311结束。

4.
  根据权利要求1所述的方法,其特征是:所述的语法错误检查纠正模块具体处理流程如下:
S0401开始;
S0402读入一篇待纠错英语作文;
S0403遍历作文中英语句子;
S0404如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;
S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;
S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;
S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中定义的对应纠错方法进行语法纠错;
S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;
S0409输出待纠错英语作文的语法纠错结果;
S0410结束。

5.
  根据权利要求1所述的方法,其特征是:所述的单词词性语法混淆集包 括易混介词、易混词性、易混冠词和易混助动词。

6.
  根据权利要求1所述的方法,其特征是:所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。

7.
  根据权利要求1所述的方法,其特征是:所述的单词语法特征权重的计算公式如下:
单词语法特征权重=单词语法特征相关度×单词语法特征贡献度
其中:单词语法特征相关度的计算公式如下:


单词语法特征贡献度的计算公式如下:

i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号,n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。

8.
  根据权利要求4所述的方法,其特征是:所述的当前单词分值计算公式如下:
单词分值=Σ(1≤j≤m)(系数j×单词语法特征权重j
j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号;如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0;
m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。

说明书

基于多元特征的英语作文语法错误自动纠正方法
技术领域
本发明涉及自然语言处理技术与统计学,具体是基于多元特征的英语作文语法错误自动纠正方法。
背景技术
目前,英语作文语法错误的自动纠正方法主要分为两类,即:基于规则的英语作文语法错误自动纠正方法和基于统计的英语作文语法错误自动纠正方法。其中,基于规则的英语作文语法错误自动纠正方法是:通过分析英语句子的语法特征,总结归纳出固定的英语语法规则来构建英语句子语法规则纠错模型,当对英语作文的语法错误进行纠正时,构建英语句子语法规则纠错模型对英语作文中句子的语法进行检查,判断它们是否符合模型中存在的语法规则,来实现对英语作文中语法错误的自动纠正。基于统计的英语作文语法错误自动纠正方法是:通过训练文本集来构建英语句子的语法纠错统计模型,使用英语句子的语法纠错统计模型对英语作文中语法错误进行纠正处理。然而,这两种英语作文语法错误的自动纠正方法都存在如下优点与缺点。
1、基于规则的英语作文语法错误自动纠正方法
优点:纠错准确率高、执行效率高、使用简单,并且对于一些语法固定搭配、某些单词特殊用法、固定的语法规则、语法时态数一致性具有较好的纠错效果。
缺点:由于英语使用的灵活性和多变性,构建一种英语语法规则模型要花费较长时间,而且总结归纳的英语语法规则只能覆盖局限语法规则,英语语法错误纠正类型有限。
2、基于统计的英语作文语法错误自动纠正方法
优点:对于难以用语法规则描述的英语语法错误,这种方法具有较好的纠正效果。
缺点:英语语法纠错正确率受到训练文本集规模、语法特征提取广度和精度、训练构建的语法统计纠错模型好坏的影响,所以这种方法的纠错正确率有待改进。
总之,英语作文语法错误的自动纠正技术具有非常广阔的应用前景,例如:作者利用它自动纠正其英语作文中语法错误,以提高自身的英语写作水平;英语机器翻译系统使用它纠正输出的翻译结果,以提高英语机器翻译系统的译文准确度。
发明内容
本发明的目的是提供基于多元特征的英语作文语法错误自动纠正方法。
基于多元特征的英语作文语法错误自动纠正方法,其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;
语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词频统计库;
语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,根据单词词性语法混淆集提取单词词性上下文语法特征、单词词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,输出语法纠错统计模型;
语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,输出英语作文中语法错误的纠正结果。
所述的语法纠错预处理模块具体处理流程如下:
S0201开始;
S0202读入训练文本集;
S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;
S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;
S0205遍历单词词性标注库;
S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;
S0207如果当前单词在单词词频链表中,则转S0208操作;否则转S0209操作;
S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0210遍历句子句法树结构库;
S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;
S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;
S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0214当前短语及其词性加入单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;
S0216结束。
所述的语法纠错模型训练模块具体处理流程如下
S0301开始;
S0302读入单词词性标注库、句子句法树结构库和单词词性语法混淆集;
S0303将句子分割成单词词性单元,生成单词词性单元列表;
S0304遍历单词词性单元列表;
S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;
S0306如果当前单词在单词词性语法混淆集中,则转S0307操作;否则转S0305操作;
S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;
S0308计算当前单词语法特征权重;
S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特征权重,转S0305操作;
S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠错统计模型;
S0311结束。
所述的语法错误检查纠正模块具体处理流程如下:
S0401开始;
S0402读入一篇待纠错英语作文;
S0403遍历作文中英语句子;
S0404如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;
S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;
S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;
S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中定义的对应纠错方法进行语法纠错;
S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;
S0409输出待纠错英语作文的语法纠错结果;
S0410结束。
本发明中,所述的单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动 词。
所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。
所述的单词语法特征权重的计算公式如下:
单词语法特征权重=单词语法特征相关度×单词语法特征贡献度
其中:单词语法特征相关度的计算按下式:


单词语法特征贡献度的计算公式如下:

i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号,n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。
如果单词语法特征相关度大于等于零,则表示该单词语法特征与该单词之间存在符合语法规则的语法依赖关系;如果单词语法特征相关度小于零,则表示单词语法特征与该单词之间不存在语法依赖关系。
所述的当前单词分值计算公式如下:
单词分值=Σ(1≤j≤m)(系数j×单词语法特征权重j
j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号。如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0。
m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。
本发明的方法能够实现对英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误、单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误共11种英语作文错误的自动纠正。
本发明中的定义如下:
Ⅰ.训练文本集
训练文本集取材于多种英文文章,它们是不包含任何单词错误、语法错误、表达错误的正确英语短文。
Ⅱ.单词词性标注集
单词词性标注集采用美国宾州大学宾州树库词性标注集,它用于对训练文本集中单词进 行词性标注。
Ⅲ.单词词性标注库
单词词性标注库是对训练文本集进行单词词性标注处理后输出的结果,它的格式如下:
训练文本集第1个句子:单词1/词性1单词2/词性2......单词i/词性i<回车>
训练文本集第2个句子:单词1/词性1单词2/词性2.......单词j/词性j<回车>
.....
训练文本集第n个句子:单词1/词性1单词2/词性2.......单词k/词性k<回车>
Ⅳ.句子句法树结构库
句子句法树结构库是对训练文本集句子句法解析的结果,它由短语单词结构和单词语法依赖结构组成,短语单词结构表示句子中短语词性与单词词性之间的关系,短语词性标注采用美国宾州大学宾州树库标注集,它的格式如下:

单词语法依赖结构表示句子中两个单词之间的单词语法依赖关系,它的格式如下:
单词语法依赖关系1(单词x-单词标号x,单词y-单词标号y
.......
单词语法依赖关系n(单词x-单词标号x,单词y-单词标号y
Ⅴ.单词词频统计库
单词词频统计库是对训练文本集的单词、单词对、词性、词性对、短语出现的次数的统计结果,简称词频。它的格式如下:
单词1^词频<回车>
.......
单词i^词频<回车>
词性1^词频<回车>
.......
词性j^词频<回车>
单词1^单词x^词频<回车>
.......
单词k^单词x^词频<回车>
短语1^词频<回车>
.......
短语n^词频<回车>
Ⅵ.单词词性语法混淆集
单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词,它们的具体内容如下表1所示:
表1:单词词性语法混淆集

Ⅶ.单词多元语法特征集
单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征,它们的具体内容如下表2所示:
表2:单词多元语法特征集



VIII.语法纠错统计模型
语法纠错统计模型是通过提取训练文本集中单词的语法特征,并计算单词的语法特征的权重,生成用于纠正英语作文语法错误的语法纠错统计模型,它的格式如下:
单词1^语法特征1^权重1
. .....
单词1^语法特征i^权重i
......
单词n^语法特征1^权重1
......
单词n^语法特征j^权重j
Ⅸ.语法纠错规则模型
语法纠错规则模型是本发明总结归纳的英语语法错误规则,它包括片段错误、名词数不一致性错误、形容词比较级最高级错误、动词与其补语修饰成分不搭配、单词重复使用错误,它的具体内容如下表3所示:
表3:语法纠错规则模型


附图说明
图1是本发明方法的总体处理流程图;
图2是语法纠错预处理模块处理流程图;
图3是语法纠错模型训练模块处理流程图;
图4是语法错误检查纠正模块处理流程图。
具体实施方式
本发明的基于多元特征的英语作文语法错误自动纠正方法的具体实施方式分为如下三个步骤。
第一步骤:执行“语法纠错预处理模块”
(1)对训练文本集进行预处理,用于预处理的训练文本集取材于多种英文文章,它们是不包含任何单词错误、语法错误、表达错误的50万字正确英语短文,其中一段英语短文内容如下所示:
In all my life there are several people who help me a lot at my crucial moments,among whom my dear second uncle influences me most.Since my childhood,my beloved uncle,who was a person of integrity and a learned man known far and near,has told me again and again to be a good boy and to be a top student as well as an honest man.Being a boy I never made any mischief or told a lie.When I entered Anhui University,my respected uncle was very much pleased.He was so joyful that he told the good news to everyone he met.As I was the first college student in my hometown,he entertained me with a good meal as an encouragement and a reward.
(2)对上述训练文本集中一段英语短文内容进行单词词性标注处理后,生成的单词词性标注库如下所示:
In/IN all/DT my/PRP$life/NN there/EX are/VBP several/JJ people/NNS who/WP help/VBP me/PRP a/DT lot/NN at/IN my/PRP$crucial/JJ moments/NNS,/,among/IN whom/WP my/PRP$ dear/RB second/JJ uncle/NN influences/VBZ me/PRP most/JJS./.
Since/IN my/PRP$childhood/NN,/,my/PRP$beloved/JJ uncle/NN,/,who/WP was/VBD a/DT person/NN of/IN integrity/NN and/CC a/DT learned/VBN man/NN known/VBN far/RB and/CC near/RB,/,has/VBZ told/VBN me/PRP again/RB and/CC again/RB to/TO be/VB a/DT good/JJ boy/NN and/CC to/TO be/VB a/DT top/JJ student/NN as/RB well/RB as/IN an/DT honest/JJ  man/NN./.
Being/VBG a/DT boy/NN I/PRP never/RB made/VBD any/DT mischief/NN or/CC told/VBD a/DT lie/NN./.
When/WRB I/PRP entered/VBD Anhui/NNP University/NNP,/,my/PRP$ respected/JJ uncle/NN was/VBD very/RB much/RB pleased/JJ./.
He/PRP was/VBD so/RB joyful/JJ that/IN he/PRP told/VBD the/DT good/JJ news/NN to/TO everyone/NN he/PRP met/VBD./.
As/IN I/PRP was/VBD the/DT first/JJ college/NN student/NN in/IN my/PRP$ hometown/NN,/,he/PRP entertained/VBD me/PRP with/IN a/DT good/JJ meal/NN as/IN an/DT encouragement/NN and/CC a/DT reward/NN./.
(3)对上述训练文本集中一段英语短文内容进行句子句法解析处理后,生成的句子句法树结构库如下所示:


prep_in(are-6,life-4)nsubj(are-6,people-8)nsubj(help-10,people-8)nsubj(lot-13,me-11)xcomp(help-10,lot-13)prep_at(lot-13,moments-17)nsubj(influences-25,uncle-24)prepc_among(help-10,influences-25)


prep_since(told-25,childhood-3)amod(uncle-7,beloved-6)nsubj(person-12,uncle-7)nsubj(told-25,uncle-7)prep_of(person-12,integrity-14)nsubj(boy-34,me-26)aux(student-40,to-36)


(4)对训练文本集进行预处理输出单词词性标注库和句子句法树结构库,对它们的单词进行词频统计,所生成的单词词频统计库如下所示。由于单词词频统计库较为庞大无法一一列举,因此下面只列举了单词词频统计库开始部分和结束部分的各20条数据,中间的数据用省略符号代替。
brave^86
newcomer^21
wishful^9
repaying^11
undertakings^21
champions^29
degenerate^19
jew^5
riverbanks^8
portland's^4
jet^31
arthur^38
"^3120
smashing^10
!^1160
&^9
defeating^18
'^878
stressing^21
$^560
......
CC^NN^:^93
NN^VBN^RP^48
VBP^RB^VB^686
VBN^NNS^NN^31
CC^WRB^TO^120
RB^EX^VBZ^139
VBP^NN^MD^42
WDT^RB^VBZ^210
NN^WDT^RBR^11
VB^CC^WRB^29
.^,^VBG^13
CC^JJ^RBR^9
DT^WP^.^9
RB^EX^VBP^8
WDT^RB^VBP^81
NN^VBN^RB^98
CC^RB^PRP$^75
``^EX^VBZ^59
WDT^RB^VBD^46
MD^VB^EX^8
第二步骤:执行“语法纠错模型训练模块”
语法纠错模型训练模块是对第一步骤执行语法纠错预处理模块输出的单词词性标注库和句子句法树结构库进行语法特征提取、语法特征权重计算,最后生成语法纠错统计模型。
由于单语法纠错统计模型较为庞大无法一一列举,因此下面只列举了语法纠错统计模型开始部分和结束部分的各15条数据,中间的数据用省略符号代替。
the^1^right^1.5026
the^6^upon^on^4.3405
the^5^will^relieve^2.1703
null^7^VB^:^0.0975
null^2^wide^open^2.6377
null^6^hundred^miles^1.3158
a/an^2system^for^4.3792
a/an^1^job^for^0.8448
a/an^6^to^outside^2.1896
VBN^1^FW^1.5144
VBN^2^PRP^-1.4945
VBN^6^NNP^0.2524
JJ^3^CD^-0.4917
JJ^3^JJR^-0.2659
JJ^5^CC^-0.0775
.......
has^4^JJ^-1.1251
has^4^IN^-4.3116
has^4^TO^0.5336
has^4^CD^1.2985
has^4^PDT^0.4706
has^4^PRP^-3.0987
has^4^NNS^-4.5595
hasn't^4^VBN^5.465
is^4^TO^0.3711
is^4^``^1.4695
is^4^DT^1.3394
is^4^JJ^1.0284
is^4^VBG^1.0988
is^4^IN^-0.6948
is^4^VBN^2.1216
第三步骤:执行“语法错误检查纠正模块”
语法错误检查纠正模块是利用上述第二步骤生成的语法纠错统计模型和上述表3定义的语法纠错规则模型,对待纠错英语作文进行语法检查与纠正,最后输出待纠错英语作文的语法纠错结果,本实施方式的语法纠错过程如下:
(1)读入如下所示一篇待纠错英语作文。
Friendship is essential in one’s life.
Friends can help us know more variety people,open our vision.We can learn a lot of things from them.The most obvious thing is we all are the apple of our parents’eyes.They will do everything to make us happy.As a result,we are growing as the flowers in greenhouse.We can’t live without our parents.However,we can learn to communicate,learn to care others and learn to be independence through friends.
As the saying goes,a friend in need is a friend indeed.If a friend abandons you in the difficulty.Personally speaking,he doesn’t deserve your friendship.
In a word,making friends with right people is full of benefit.
(2)对待纠错英语作文的句子进行单词词性标注,生成单词词性结构如下所示。
Friendship/NN is/VBZ essential/JJ in/IN one/NN's/POS life/NN./.
Friends/NNS can/MD help/VB us/PRP know/VB more/JJR variety/NN people/NNS,/,open/VB our/PRP$vision/NN./.
We/PRP can/MD learn/VB a/DT lot/NN of/IN things/NNS from/IN them/PRP./.
The/DT most/RBS obvious/JJ thing/NN is/VBZ we/PRP all/DT are/VBP the/DT apple/NN of/IN our/PRP$parents/NNS'/POS eyes/NNS./.
They/PRP will/MD do/VB everything/NN to/TO make/VB us/PRP happy/JJ./.
As/IN a/DT result/NN,/,we/PRP are/VBP growing/VBG as/IN the/DT flowers/NNS in/IN greenhouse/NN./.
We/PRP ca/MD n't/RB live/VB without/IN our/PRP$parents/NNS./.
However/RB,/,we/PRP can/MD learn/VB to/TO communicate/VB,/,learn/VB to/TO care/VB others/NNS and/CC learn/VB to/TO be/VB independence/NN through/IN friends/NNS./.
As/IN the/DT saying/NN goes/VBZ,/,a/DT friend/NN in/IN need/NN is/VBZ a/DT friend/NN indeed/RB./.
If/IN a/DT friend/NN abandons/VBZ you/PRP in/IN the/DT difficulty/NN./.
Personally/RB speaking/NN,/,he/PRP does/VBZ n't/RB deserve/VB your/PRP$ friendship/NN./.
In/IN a/DT word/NN,/,making/VBG friends/NNS with/IN right/JJ people/NNS is/VBZ full/JJ of/IN benefit/NN./.
(3)对待纠错英语作文的句子进行句子句法解析,生成句子句法结构如下所示。


nsubj(learn-3,We-1)aux(learn-3,can-2)prep_of(lot-5,things-7)prep_from(learn-3,them-9)

nsubj(we-6,thing-4)nsubj(apple-10,all-7)prep_of(apple-10,eyes-15)


nsubj(do-3,They-1)aux(do-3,will-2)aux(make-6,to-5)xcomp(do-3,make-6)
nsubj(happy-8,us-7)xcomp(make-6,happy-8)

prep_as(growing-7,result-3)nsubj(growing-7,we-5)aux(growing-7,are-6)
prep_as(growing-7,flowers-10)prep_in(flowers-10,greenhouse-12)

nsubj(live-4,We-1)aux(live-4,ca-2)prep_without(live-4,parents-7)


nsubj(learn-5,we-3)aux(learn-5,can-4)aux(communicate-7,to-6)xcomp(learn-5,communicate-7)xcomp(learn-5,learn-9)aux(care-11,to-10)xcomp(learn-9,care-11)xcomp(learn-5,learn-14)aux(independence-17,to-15)xcomp(learn-14,independence-17)prep_through(independence-17,friends-19)

nsubj(goes-4,saying-3)advcl(friend-12,goes-4)nsubj(friend-12,friend-7)prep_in(friend-7,need-9)

nsubj(abandons-4,friend-3)prep_in(abandons-4,difficulty-8)

nsubj(deserve-7,he-4)aux(deserve-7,does-5)


prep_in(full-11,word-3)nsubj(full-11,friends-6)prep_with(friends-6,people-9)prep_of(full-11, benefit-13)
(4)利用语法纠错规则模型的语法纠错规则对待纠错英语作文句子的语法错误进行检查。当检查到句子“If a friend abandons you in the difficulty.”时,输出如下句子句法树结构。

在上述该句子的句子句法树结构中存在“FRAG”标记,它表示该句子的语法错误符合语法纠错规则模型中片段错误的语法错误类型。因此,语法纠错规则模型对应该句子的纠错方法是:句子不完整、句子成分残缺。
(5)利用语法纠错统计模型对对待纠错英语作文句子的语法错误进行检查。当检查句子“As a result,we are growing as the flowers in greenhouse.”时,输出该句子的单词词性结构如下所示。
As/IN a/DT result/NN,/,we/PRP are/VBP growing/VBG as/IN the/DT flowers/NNS in/IN greenhouse/NN./.
输出该句子的句子句法树结构如下所示。


prep_as(growing-7,result-3)nsubj(growing-7,we-5)aux(growing-7,are-6)
prep_as(growing-7,flowers-10)prep_in(flowers-10,greenhouse-12)
从该句子的名词短语词性结构“(NP(NN greenhouse)”中可以看出,修饰名词“greenhouse”的冠词为零冠词,从单词多元语法特征集中提取零冠词的语法特征,利用上述Ⅷ.单词语法特征权重计算公式计算出单词词性语法混淆集中易混冠词“a/an,the,零冠词”的语法特征权重如下所示。
null^1^in^0.5212
null^3^IN^0.508
null^5^flowers^in^0.1489
null^6^.^0.3886
null^7^NNS^IN^0.2551
null^8^.^0.5212
null^9^greenhouse^1.1726
null^10^NN^0.834
null^11^countableNoun^1.1044
null^12^PP^0.7564
a/an^1^in^0.1646
a/an^3^IN^0.2812
a/an^6^.^0.1265
a/an^7^NNS^IN^0.0881
a/an^8^.^0.1646
a/an^9^greenhouse^0.0004
a/an^10^NN^0.8646
a/an^11^countableNoun^0.8264
a/an^12^PP^0.2095
the^1^in^5.8234
the^3^IN^6.2512
the^6^.^0.3082
the^7^NNS^IN^0.2249
the^8^.^0.3908
the^9^greenhouse^5.0775
the^10^NN^1.4308
the^11^countableNoun^2.5586
the^12^PP^1.3763
根据上述当前单词分值计算式,计算出零冠词的分值为6.2104,“a/an”的分值为2.7259,“the”的分值为23.4417。因此,根据语法纠错统计模型的纠错方法应该用分值最大的冠词“the”来纠正该句子名词短语词性结构“(NP(NN greenhouse)”的零冠词语法错误,即在名词短语词性结构“(NP(NN greenhouse)”里加入“the”。
(6)输出待纠错英语作文的语法纠错结果。
读入的一篇待纠错英语作文经过上述处理后,输出的语法纠错结果如下所示。
①As a result,we are growing as the flowers in[B-ERROR]greenhouse[E-ERROR].
[B-ERROR]表示语法错误的开始位置,[E-ERROR]表示语法错误的结束位置,[B-ERROR]、[E-ERROR]中间的“greenhouse”存在零冠词语法错误。本发明纠正该语法错误的说明是:在“greenhouse”前面需要插入定冠词“the”,以纠正它的零冠词语法错误。
②[B-ERROR]If a friend abandons you in the difficulty.[E-ERROR]
[B-ERROR]表示语法错误的开始位置,[E-ERROR]表示语法错误的结束位置,[B-ERROR]、[E-ERROR]中间的“If a friend abandons you in the difficulty.”存在If引导的条件状语从句缺少主句,句子句子成分残缺的语法错误。本发明纠正该语法错误的说明是:在“Ifa friend abandons you in the difficulty.”后面需要插入一个句子作为主句,以纠正它的句子不完整、句子成分残缺的语法错误。

基于多元特征的英语作文语法错误自动纠正方法.pdf_第1页
第1页 / 共37页
基于多元特征的英语作文语法错误自动纠正方法.pdf_第2页
第2页 / 共37页
基于多元特征的英语作文语法错误自动纠正方法.pdf_第3页
第3页 / 共37页
点击查看更多>>
资源描述

《基于多元特征的英语作文语法错误自动纠正方法.pdf》由会员分享,可在线阅读,更多相关《基于多元特征的英语作文语法错误自动纠正方法.pdf(37页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103365838 A(43)申请公布日 2013.10.23CN103365838A*CN103365838A*(21)申请号 201310311955.4(22)申请日 2013.07.24G06F 17/28(2006.01)(71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号(72)发明人黄桂敏 周娅 王晓娟(74)专利代理机构桂林市华杰专利商标事务所有限责任公司 45112代理人罗玉荣(54) 发明名称基于多元特征的英语作文语法错误自动纠正方法(57) 摘要基于多元特征的英语作文语法错误自动纠正方法,包括语法纠错预处理模块、。

2、语法纠错模型训练模块和语法错误检查纠正模块;其中语法纠错预处理模块对输入的训练文本集进行单词词性标注、句子句法解析和单词词频统计;语法纠错模型训练模块对输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征、单词及其词性的语法特征,计算单词语法特征权重,输出语法纠错统计模型;语法错误检查纠正模块利用语法纠错统计模型和语法纠错规则模型对待纠错作文进行语法纠错,输出英语作文中语法错误的纠正结果。该方法实现了对英语作文中常见11种英语语法错误自动纠正。(51)Int.Cl.权利要求书3页 说明书29页 附图4页(19)中。

3、华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书29页 附图4页(10)申请公布号 CN 103365838 ACN 103365838 A1/3页21.基于多元特征的英语作文语法错误自动纠正方法,其特征是:其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词频统计库;语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词多元语法特征集、单词词性语法混淆集,根据单词词性语法混淆。

4、集提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,最后输出语法纠错统计模型;语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,最后输出英语作文中语法错误的纠正结果。2.根据权利要求1所述的方法,其特征是。

5、:所述的语法纠错预处理模块具体处理流程如下:S0201开始;S0202读入训练文本集;S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;S0205遍历单词词性标注库;S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;S0207如果当前单词在单词词频链表中,则转S0208操作;否则转S0209操作;S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S02。

6、05操作;S0210遍历句子句法树结构库;S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;S0214当前短语及其词性加入单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;S0216结束。3.根据权利要求1所述的方法,其特征是:所述的语法纠错模型训练模块具体处理流程如下:S0301开始;S0302读入单词词性标注库、句子句法树结。

7、构库和单词词性语法混淆集;权 利 要 求 书CN 103365838 A2/3页3S0303将句子分割成单词词性单元,生成单词词性单元列表;S0304遍历单词词性单元列表;S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;S0306如果当前单词在单词词性语法混淆集中,则转S0307操作;否则转S0305操作;S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;S0308计算当前单词语法特征权重;S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特征权重,转S0305操作;S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠。

8、错统计模型;S0311结束。4.根据权利要求1所述的方法,其特征是:所述的语法错误检查纠正模块具体处理流程如下:S0401开始;S0402读入一篇待纠错英语作文;S0403遍历作文中英语句子;S0404如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中。

9、定义的对应纠错方法进行语法纠错;S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;S0409输出待纠错英语作文的语法纠错结果;S0410结束。5.根据权利要求1所述的方法,其特征是:所述的单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词。6.根据权利要求。

10、1所述的方法,其特征是:所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。7.根据权利要求1所述的方法,其特征是:所述的单词语法特征权重的计算公式如下:单词语法特征权重=单词语法特征相关度单词语法特征贡献度其中:单词语法特征相关度的计算公式如下:权 利 要 求 书CN 103365838 A3/3页4单词语法特征贡献度的计算公式如下:i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号,n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。8.根据权利要求4所述的方法,其特征是:所述的当前单词分值计算公式如下:单词分值=(1jm。

11、)(系数j单词语法特征权重j)j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号;如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0;m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。权 利 要 求 书CN 103365838 A1/29页5基于多元特征的英语作文语法错误自动纠正方法技术领域0001 本发明涉及自然语言处理技术与统计学,具体是基于多元特征的英语作文语法错误自动纠正方法。背景技术0002 目前,英语作文语法错误的自动纠正方法主要分为两类,即:基于规则的英语作文语法错误自动。

12、纠正方法和基于统计的英语作文语法错误自动纠正方法。其中,基于规则的英语作文语法错误自动纠正方法是:通过分析英语句子的语法特征,总结归纳出固定的英语语法规则来构建英语句子语法规则纠错模型,当对英语作文的语法错误进行纠正时,构建英语句子语法规则纠错模型对英语作文中句子的语法进行检查,判断它们是否符合模型中存在的语法规则,来实现对英语作文中语法错误的自动纠正。基于统计的英语作文语法错误自动纠正方法是:通过训练文本集来构建英语句子的语法纠错统计模型,使用英语句子的语法纠错统计模型对英语作文中语法错误进行纠正处理。然而,这两种英语作文语法错误的自动纠正方法都存在如下优点与缺点。0003 1、基于规则的英。

13、语作文语法错误自动纠正方法0004 优点:纠错准确率高、执行效率高、使用简单,并且对于一些语法固定搭配、某些单词特殊用法、固定的语法规则、语法时态数一致性具有较好的纠错效果。0005 缺点:由于英语使用的灵活性和多变性,构建一种英语语法规则模型要花费较长时间,而且总结归纳的英语语法规则只能覆盖局限语法规则,英语语法错误纠正类型有限。0006 2、基于统计的英语作文语法错误自动纠正方法0007 优点:对于难以用语法规则描述的英语语法错误,这种方法具有较好的纠正效果。0008 缺点:英语语法纠错正确率受到训练文本集规模、语法特征提取广度和精度、训练构建的语法统计纠错模型好坏的影响,所以这种方法的纠。

14、错正确率有待改进。0009 总之,英语作文语法错误的自动纠正技术具有非常广阔的应用前景,例如:作者利用它自动纠正其英语作文中语法错误,以提高自身的英语写作水平;英语机器翻译系统使用它纠正输出的翻译结果,以提高英语机器翻译系统的译文准确度。发明内容0010 本发明的目的是提供基于多元特征的英语作文语法错误自动纠正方法。0011 基于多元特征的英语作文语法错误自动纠正方法,其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;0012 语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词。

15、频统计库;0013 语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,根据单词词性语法混淆集提取单词词性上下文语法特说 明 书CN 103365838 A2/29页6征、单词词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,输出语法纠错统计模型;0014 语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法。

16、纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,输出英语作文中语法错误的纠正结果。0015 所述的语法纠错预处理模块具体处理流程如下:0016 S0201开始;0017 S0202读入训练文本集;0018 S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;0019 S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;0020 S0205遍历单词词性标注库;0021 S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;0022 S0207如果当前。

17、单词在单词词频链表中,则转S0208操作;否则转S0209操作;0023 S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;0024 S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S0205操作;0025 S0210遍历句子句法树结构库;0026 S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;0027 S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;0028 S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;0029 S0214当前短语及其词性加入。

18、单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;0030 S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;0031 S0216结束。0032 所述的语法纠错模型训练模块具体处理流程如下0033 S0301开始;0034 S0302读入单词词性标注库、句子句法树结构库和单词词性语法混淆集;0035 S0303将句子分割成单词词性单元,生成单词词性单元列表;0036 S0304遍历单词词性单元列表;0037 S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;0038 S0306如果当前单词在单词词性语法混淆集中,则转S03。

19、07操作;否则转S0305操作;0039 S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;0040 S0308计算当前单词语法特征权重;0041 S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特征权说 明 书CN 103365838 A3/29页7重,转S0305操作;0042 S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠错统计模型;0043 S0311结束。0044 所述的语法错误检查纠正模块具体处理流程如下:0045 S0401开始;0046 S0402读入一篇待纠错英语作文;0047 S0403遍历作文中英语句子;0048 S040。

20、4如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;0049 S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;0050 S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;0051 S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中定义的对应纠错方法进行语法纠错;0052 S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法。

21、特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;0053 S0409输出待纠错英语作文的语法纠错结果;0054 S0410结束。0055 本发明中,所述的单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词。0056 所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。0057 所述的单词语法特征权重的计算公式如下:0058 单词语法特征权重=单词。

22、语法特征相关度单词语法特征贡献度0059 其中:单词语法特征相关度的计算按下式:0060 0061 0062 单词语法特征贡献度的计算公式如下:0063 说 明 书CN 103365838 A4/29页80064 i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号,n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。0065 如果单词语法特征相关度大于等于零,则表示该单词语法特征与该单词之间存在符合语法规则的语法依赖关系;如果单词语法特征相关度小于零,则表示单词语法特征与该单词之间不存在语法依赖关系。0066 所述的当前单词分值计算公式如下:0067 单词分值。

23、=(1jm)(系数j单词语法特征权重j)0068 j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号。如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0。0069 m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。0070 本发明的方法能够实现对英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误、单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误共11种英语作文错误的自动纠正。0071 本发明中的定义如下:0072。

24、 .训练文本集0073 训练文本集取材于多种英文文章,它们是不包含任何单词错误、语法错误、表达错误的正确英语短文。0074 .单词词性标注集0075 单词词性标注集采用美国宾州大学宾州树库词性标注集,它用于对训练文本集中单词进行词性标注。0076 .单词词性标注库0077 单词词性标注库是对训练文本集进行单词词性标注处理后输出的结果,它的格式如下:0078 训练文本集第1个句子:单词1/词性1单词2/词性2.单词i/词性i0079 训练文本集第2个句子:单词1/词性1单词2/词性2.单词j/词性j0080 .0081 训练文本集第n个句子:单词1/词性1单词2/词性2.单词k/词性k0082 。

25、.句子句法树结构库0083 句子句法树结构库是对训练文本集句子句法解析的结果,它由短语单词结构和单词语法依赖结构组成,短语单词结构表示句子中短语词性与单词词性之间的关系,短语词性标注采用美国宾州大学宾州树库标注集,它的格式如下:0084 说 明 书CN 103365838 A5/29页90085 单词语法依赖结构表示句子中两个单词之间的单词语法依赖关系,它的格式如下:0086 单词语法依赖关系1(单词x-单词标号x,单词y-单词标号y)0087 .0088 单词语法依赖关系n(单词x-单词标号x,单词y-单词标号y)0089 .单词词频统计库0090 单词词频统计库是对训练文本集的单词、单词对。

26、、词性、词性对、短语出现的次数的统计结果,简称词频。它的格式如下:0091 单词1词频0092 .0093 单词i词频0094 词性1词频0095 .0096 词性j词频0097 单词1单词x词频0098 .0099 单词k单词x词频0100 短语1词频0101 .0102 短语n词频0103 .单词词性语法混淆集0104 单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词,它们的具体内容如下表1所示:说 明 书CN 103365838 A6/29页100105 表1:单词词性语法混淆集0106 0107 .单词多元语法特征集0108 单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征,它们的具体内容如下表2所示:0109 表2:单词多元语法特征集0110 说 明 书CN 103365838 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1