《基于多元特征的英语作文语法错误自动纠正方法.pdf》由会员分享,可在线阅读,更多相关《基于多元特征的英语作文语法错误自动纠正方法.pdf(37页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103365838 A(43)申请公布日 2013.10.23CN103365838A*CN103365838A*(21)申请号 201310311955.4(22)申请日 2013.07.24G06F 17/28(2006.01)(71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号(72)发明人黄桂敏 周娅 王晓娟(74)专利代理机构桂林市华杰专利商标事务所有限责任公司 45112代理人罗玉荣(54) 发明名称基于多元特征的英语作文语法错误自动纠正方法(57) 摘要基于多元特征的英语作文语法错误自动纠正方法,包括语法纠错预处理模块、。
2、语法纠错模型训练模块和语法错误检查纠正模块;其中语法纠错预处理模块对输入的训练文本集进行单词词性标注、句子句法解析和单词词频统计;语法纠错模型训练模块对输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征、单词及其词性的语法特征,计算单词语法特征权重,输出语法纠错统计模型;语法错误检查纠正模块利用语法纠错统计模型和语法纠错规则模型对待纠错作文进行语法纠错,输出英语作文中语法错误的纠正结果。该方法实现了对英语作文中常见11种英语语法错误自动纠正。(51)Int.Cl.权利要求书3页 说明书29页 附图4页(19)中。
3、华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书29页 附图4页(10)申请公布号 CN 103365838 ACN 103365838 A1/3页21.基于多元特征的英语作文语法错误自动纠正方法,其特征是:其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词频统计库;语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词多元语法特征集、单词词性语法混淆集,根据单词词性语法混淆。
4、集提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,最后输出语法纠错统计模型;语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,最后输出英语作文中语法错误的纠正结果。2.根据权利要求1所述的方法,其特征是。
5、:所述的语法纠错预处理模块具体处理流程如下:S0201开始;S0202读入训练文本集;S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;S0205遍历单词词性标注库;S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;S0207如果当前单词在单词词频链表中,则转S0208操作;否则转S0209操作;S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S02。
6、05操作;S0210遍历句子句法树结构库;S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;S0214当前短语及其词性加入单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;S0216结束。3.根据权利要求1所述的方法,其特征是:所述的语法纠错模型训练模块具体处理流程如下:S0301开始;S0302读入单词词性标注库、句子句法树结。
7、构库和单词词性语法混淆集;权 利 要 求 书CN 103365838 A2/3页3S0303将句子分割成单词词性单元,生成单词词性单元列表;S0304遍历单词词性单元列表;S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;S0306如果当前单词在单词词性语法混淆集中,则转S0307操作;否则转S0305操作;S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;S0308计算当前单词语法特征权重;S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特征权重,转S0305操作;S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠。
8、错统计模型;S0311结束。4.根据权利要求1所述的方法,其特征是:所述的语法错误检查纠正模块具体处理流程如下:S0401开始;S0402读入一篇待纠错英语作文;S0403遍历作文中英语句子;S0404如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中。
9、定义的对应纠错方法进行语法纠错;S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;S0409输出待纠错英语作文的语法纠错结果;S0410结束。5.根据权利要求1所述的方法,其特征是:所述的单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词。6.根据权利要求。
10、1所述的方法,其特征是:所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。7.根据权利要求1所述的方法,其特征是:所述的单词语法特征权重的计算公式如下:单词语法特征权重=单词语法特征相关度单词语法特征贡献度其中:单词语法特征相关度的计算公式如下:权 利 要 求 书CN 103365838 A3/3页4单词语法特征贡献度的计算公式如下:i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号,n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。8.根据权利要求4所述的方法,其特征是:所述的当前单词分值计算公式如下:单词分值=(1jm。
11、)(系数j单词语法特征权重j)j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号;如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0;m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。权 利 要 求 书CN 103365838 A1/29页5基于多元特征的英语作文语法错误自动纠正方法技术领域0001 本发明涉及自然语言处理技术与统计学,具体是基于多元特征的英语作文语法错误自动纠正方法。背景技术0002 目前,英语作文语法错误的自动纠正方法主要分为两类,即:基于规则的英语作文语法错误自动。
12、纠正方法和基于统计的英语作文语法错误自动纠正方法。其中,基于规则的英语作文语法错误自动纠正方法是:通过分析英语句子的语法特征,总结归纳出固定的英语语法规则来构建英语句子语法规则纠错模型,当对英语作文的语法错误进行纠正时,构建英语句子语法规则纠错模型对英语作文中句子的语法进行检查,判断它们是否符合模型中存在的语法规则,来实现对英语作文中语法错误的自动纠正。基于统计的英语作文语法错误自动纠正方法是:通过训练文本集来构建英语句子的语法纠错统计模型,使用英语句子的语法纠错统计模型对英语作文中语法错误进行纠正处理。然而,这两种英语作文语法错误的自动纠正方法都存在如下优点与缺点。0003 1、基于规则的英。
13、语作文语法错误自动纠正方法0004 优点:纠错准确率高、执行效率高、使用简单,并且对于一些语法固定搭配、某些单词特殊用法、固定的语法规则、语法时态数一致性具有较好的纠错效果。0005 缺点:由于英语使用的灵活性和多变性,构建一种英语语法规则模型要花费较长时间,而且总结归纳的英语语法规则只能覆盖局限语法规则,英语语法错误纠正类型有限。0006 2、基于统计的英语作文语法错误自动纠正方法0007 优点:对于难以用语法规则描述的英语语法错误,这种方法具有较好的纠正效果。0008 缺点:英语语法纠错正确率受到训练文本集规模、语法特征提取广度和精度、训练构建的语法统计纠错模型好坏的影响,所以这种方法的纠。
14、错正确率有待改进。0009 总之,英语作文语法错误的自动纠正技术具有非常广阔的应用前景,例如:作者利用它自动纠正其英语作文中语法错误,以提高自身的英语写作水平;英语机器翻译系统使用它纠正输出的翻译结果,以提高英语机器翻译系统的译文准确度。发明内容0010 本发明的目的是提供基于多元特征的英语作文语法错误自动纠正方法。0011 基于多元特征的英语作文语法错误自动纠正方法,其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;0012 语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词。
15、频统计库;0013 语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,根据单词词性语法混淆集提取单词词性上下文语法特说 明 书CN 103365838 A2/29页6征、单词词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,输出语法纠错统计模型;0014 语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法。
16、纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,输出英语作文中语法错误的纠正结果。0015 所述的语法纠错预处理模块具体处理流程如下:0016 S0201开始;0017 S0202读入训练文本集;0018 S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;0019 S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;0020 S0205遍历单词词性标注库;0021 S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;0022 S0207如果当前。
17、单词在单词词频链表中,则转S0208操作;否则转S0209操作;0023 S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;0024 S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S0205操作;0025 S0210遍历句子句法树结构库;0026 S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;0027 S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;0028 S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;0029 S0214当前短语及其词性加入。
18、单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;0030 S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;0031 S0216结束。0032 所述的语法纠错模型训练模块具体处理流程如下0033 S0301开始;0034 S0302读入单词词性标注库、句子句法树结构库和单词词性语法混淆集;0035 S0303将句子分割成单词词性单元,生成单词词性单元列表;0036 S0304遍历单词词性单元列表;0037 S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;0038 S0306如果当前单词在单词词性语法混淆集中,则转S03。
19、07操作;否则转S0305操作;0039 S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;0040 S0308计算当前单词语法特征权重;0041 S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特征权说 明 书CN 103365838 A3/29页7重,转S0305操作;0042 S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠错统计模型;0043 S0311结束。0044 所述的语法错误检查纠正模块具体处理流程如下:0045 S0401开始;0046 S0402读入一篇待纠错英语作文;0047 S0403遍历作文中英语句子;0048 S040。
20、4如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;0049 S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;0050 S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;0051 S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中定义的对应纠错方法进行语法纠错;0052 S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法。
21、特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;0053 S0409输出待纠错英语作文的语法纠错结果;0054 S0410结束。0055 本发明中,所述的单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词。0056 所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。0057 所述的单词语法特征权重的计算公式如下:0058 单词语法特征权重=单词。
22、语法特征相关度单词语法特征贡献度0059 其中:单词语法特征相关度的计算按下式:0060 0061 0062 单词语法特征贡献度的计算公式如下:0063 说 明 书CN 103365838 A4/29页80064 i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号,n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。0065 如果单词语法特征相关度大于等于零,则表示该单词语法特征与该单词之间存在符合语法规则的语法依赖关系;如果单词语法特征相关度小于零,则表示单词语法特征与该单词之间不存在语法依赖关系。0066 所述的当前单词分值计算公式如下:0067 单词分值。
23、=(1jm)(系数j单词语法特征权重j)0068 j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号。如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0。0069 m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。0070 本发明的方法能够实现对英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误、单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误共11种英语作文错误的自动纠正。0071 本发明中的定义如下:0072。
24、 .训练文本集0073 训练文本集取材于多种英文文章,它们是不包含任何单词错误、语法错误、表达错误的正确英语短文。0074 .单词词性标注集0075 单词词性标注集采用美国宾州大学宾州树库词性标注集,它用于对训练文本集中单词进行词性标注。0076 .单词词性标注库0077 单词词性标注库是对训练文本集进行单词词性标注处理后输出的结果,它的格式如下:0078 训练文本集第1个句子:单词1/词性1单词2/词性2.单词i/词性i0079 训练文本集第2个句子:单词1/词性1单词2/词性2.单词j/词性j0080 .0081 训练文本集第n个句子:单词1/词性1单词2/词性2.单词k/词性k0082 。
25、.句子句法树结构库0083 句子句法树结构库是对训练文本集句子句法解析的结果,它由短语单词结构和单词语法依赖结构组成,短语单词结构表示句子中短语词性与单词词性之间的关系,短语词性标注采用美国宾州大学宾州树库标注集,它的格式如下:0084 说 明 书CN 103365838 A5/29页90085 单词语法依赖结构表示句子中两个单词之间的单词语法依赖关系,它的格式如下:0086 单词语法依赖关系1(单词x-单词标号x,单词y-单词标号y)0087 .0088 单词语法依赖关系n(单词x-单词标号x,单词y-单词标号y)0089 .单词词频统计库0090 单词词频统计库是对训练文本集的单词、单词对。
26、、词性、词性对、短语出现的次数的统计结果,简称词频。它的格式如下:0091 单词1词频0092 .0093 单词i词频0094 词性1词频0095 .0096 词性j词频0097 单词1单词x词频0098 .0099 单词k单词x词频0100 短语1词频0101 .0102 短语n词频0103 .单词词性语法混淆集0104 单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词,它们的具体内容如下表1所示:说 明 书CN 103365838 A6/29页100105 表1:单词词性语法混淆集0106 0107 .单词多元语法特征集0108 单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征,它们的具体内容如下表2所示:0109 表2:单词多元语法特征集0110 说 明 书CN 103365838 A10。