《检测汉语识别词汇量的方法与系统.pdf》由会员分享,可在线阅读,更多相关《检测汉语识别词汇量的方法与系统.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102819970 A(43)申请公布日 2012.12.12CN102819970A*CN102819970A*(21)申请号 201110152203.9(22)申请日 2011.06.08G09B 7/02(2006.01)G06F 17/30(2006.01)(71)申请人智慧华语有限公司地址中国台湾新北市汐止区新台五路一段八十一号五楼之四(72)发明人陈迪智 吴孟恬(74)专利代理机构北京路浩知识产权代理有限公司 11002代理人谢顺星(54) 发明名称检测汉语识别词汇量的方法与系统(57) 摘要本发明涉及一种检测汉语识别词汇量的方法与系统,其使用中文输入方。
2、式来进行字词测验,包括:输入装置、输出装置、运算处理装置及字词数据库,所述运算处理装置包括:使用者登入认证单元、筛选取样单元、评分计时单元及纪录分析单元,其中,使用者使用输入装置及输出装置来进行操作,经使用者登入认证单元确认身份后,筛选取样单元根据使用者的使用纪录从字词数据库取样测验字词,评分计时单元会计时及判断使用者是否答题正确,纪录分析单元在使用者测验后进行纪录及分析,将测验结果储存至字词数据库中。(51)Int.Cl.权利要求书2页 说明书7页 附图5页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 2 页 说明书 7 页 附图 5 页1/2页21.一种检测汉语识别词。
3、汇量的系统,其特征在于,其使用中文输入方式来进行字词测验,包括:输入装置,使用者通过输入装置来进行操作;输出装置,显示操作画面;运算处理装置,为所述系统的运算中心,所述运算处理装置包括:使用者登入认证单元,确认使用者身份及该使用者的测验纪录;筛选取样单元,根据使用者的测验纪录累积的比例规则来进行动态数据存放空间内的单字词与多字词的取样,通过筛选取样得到测验题库组;评分计时单元,进行字词测验时判断使用者是否答题正确以及计时答题时间;纪录分析单元,纪录单字词与多字词的动态地址及使用者测验纪录、分析使用者字词的熟悉程度及学习效果;字词数据库,用以储存使用者字词数据,所述字词数据包括汉语单字词与多字词。
4、;其中,使用者使用输入装置及输出装置进行操作,经使用者登入认证单元确认身份后,筛选取样单元根据使用者的使用纪录从字词数据库取样测验字词,评分计时单元计时及判断使用者是否答题正确,纪录分析单元在使用者测验后进行纪录及分析,将测验结果储存至字词数据库中。2.如权利要求1所述的检测汉语识别词汇量的系统,其特征在于,所述字词数据库,是根据使用者对于字词的正确率来将字词分类储存至不同字库中,所述正确率由使用者自行设定;所述字词数据库包括:新字库,该字库所存字词为使用者尚未测验过;生字库,该字库所存字词为使用者测验后为低正确率的;熟字库,该字库所存字词为使用者测验后为中正确率的;短期字库,该字库所存字词为。
5、使用者测验后为高正确率的;长期字库,该字库所存字词为使用者经过多次测验后仍为高正确率的。3.如权利要求1所述的检测汉语识别词汇量的系统,其特征在于,所述中文输入方式是将中文字拆解成拼音符号,所述拼音符号分为声母、韵母及声调,包括汉语拼音、注音符号拼音或通用拼音。4.如权利要求1所述的检测汉语识别词汇量的系统,其特征在于,所述检测汉语识别词汇量的系统还包括网络装置,多个使用者通过网络联机至所述检测汉语识别词汇量的系统。5.如权利要求1所述的检测汉语识别词汇量的系统,其特征在于,所述筛选取样单元根据测验使用者的人数在各使用者字词数据库中对单字词与多字词进行抽样得到测验题目并选择所述测验题目的难易度。
6、。6.一种检测汉语识别词汇量的方法,特征在于,所述方法包括:步骤一:使用者登入身份确认,使用者登入系统,经认证后所述系统读取使用者的相关测验纪录及字词数据库;步骤二:筛选取样测验字词,所述系统根据使用者的测验纪录随机根据比例在使用者字词数据库中筛选取样字词进行测验;步骤三:评分及计时测验时间,使用者使用输入装置进行字词测验,所述系统计时测验时间以及判断使用者答题正确与否;权 利 要 求 书CN 102819970 A2/2页3步骤四:纪录数据及分析使用者测验结果,测验结束后所述系统根据测验结果进行记录分析,记录使用者测验纪录、分析使用者字词的熟悉程度;步骤五:字词的分类储存,将测验后字词根据使。
7、用者的熟悉度储存至字词数据库中。7.如权利要求6所述的检测汉语识别词汇量的方法,其特征在于,所述输入装置为键盘、鼠标或触碰屏幕。8.如权利要求6所述的检测汉语识别词汇量的方法,特征在于,所述字词数据库,是根据使用者对于字词的正确率将字词分类储存至不同字库中,所述正确率由使用者自行设定;所述字词数据库包括:新字库、生字库、熟字库、短期字库及长期字库。9.如权利要求6所述的检测汉语识别词汇量的方法,特征在于,所述使用者为多个使用者同时进行操作。10.如权利要求6所述的检测汉语识别词汇量的方法,特征在于,所述字词测验是使用中文输入方式,所述中文输入方式将中文字拆解成拼音符号,使用者针对字词来完成正确。
8、拼音。权 利 要 求 书CN 102819970 A1/7页4检测汉语识别词汇量的方法与系统技术领域0001 本发明涉及一种检测汉语识别词汇量的方法及系统,特别是一种以拼音及动态记忆状态的改变来检测汉语识别词汇量的方法及系统,其将中文字拆解成拼音符号来进行字词完成的正确拼音练习,同时可结合因特网来利用游戏对战的方式进行汉语学习,借助对战时的刺激感和荣誉感可以提高使用者的学习效果及学习兴趣。背景技术0002 传统的检测汉语词汇量的方式,大多以纸件来测验,并静态显示测验结果,而没考虑到经过长时间的累积,随着记忆的状态的改变会影响正确率,同时由于检测方式的测试时间长,并且需要老师或测试人员来一对一进。
9、行,因此不容易重复操作,并难以进行学习过程的监控(Process monitoring)。0003 语言的学习是不断持续的练习过程,使用更多的资源进行持续的练习,才会使学到的听、说、读、写内容融会贯通。所以汉语学习者需要更好的汉语学习资源来学习中文,目前中文的输入方式非常多样,例如仓颉输入法、大易输入法或无虾米输入法等等是利用拆解中文字,将拆解的部分输入,再拼凑成一完整的中文字;注音输入法、汉语拼音输入法则是依照字音输入,而中文字的特点在于一字多义与一音多字等变化,中文中很多字常有多音字,且根据发不同的音有不同的意思(例如:着、乐、会等);中文还有4种声调,这对外国人来说有些音调是他们平常不会。
10、发音的;在手写的方面也比英文难许多,增加了初学者在学习上的困难,初学者需要强化使用拼音,采用读出字音或拼出字音来作为识字能力。中文与英文不同,英文是拼音为字,中文是需要透过拼音系统来辅助认字。0004 随着因特网的兴起,在线学习也成为语言学习的主要手段之一,使用者可直接在线学习并进行测验评量,经过分析可让使用者知道自己的优势及需加强的地方,一般的中文打字输入法学习系统,都是单纯训练使用者的打字速度以及正确性,反复的练习,由单一数据库随机读取题目,通过使用者单方面吸收,以求达到语言学习的效果,通常使用者会花大量时间重复练习内容,但是使用者本身总是无法明确清楚自己的吸收状况是否良好,以及学习程度到。
11、达哪个阶段,重复练习的内容只能做到随机,并不能做到适应化地来针对使用者的弱点进行强化学习,而且其均为单机练习,无法跟他人进行互动,容易造成单调而缺乏娱乐性。对于学习中文打字输入法而言,其数据的选择是最重要的,因为每个使用者的生活环境、工作领域及其年龄性别都不相同,故其平常的用字遣词具有个人化、专业化及区别化的现象,而且随着学习成长,其数据库字词的需求一定是不相同的,如果使用相同的数据库,将容易降低学习效果而无法达到学习目的。发明内容0005 本发明涉及一种检测汉语识别词汇量的方法与系统,其主要目的在于利用游戏式的测验方式来学习汉语,配合个人化的数据库,利用键盘打字或其它输入方式进行字词测验,其。
12、中字词测验是使用中文输入方式来将中文字拆解成拼音符号,使用者针对字词完成说 明 书CN 102819970 A2/7页5正确拼音,其输入法设定为罗马拼音、汉语拼音或注音拼音等,其中,所述系统包括:0006 输入装置,使用者通过输入装置进行操作,其输入及输入正确与否的判断方式,是指利用键盘、鼠标、触控屏幕等包含所述输入装置但不限于所述输入装置来进行汉语拼音符号的输入;0007 输出装置,显示操作画面,如一般的LCD液晶屏幕、触控屏幕等;0008 运算处理装置,为所述系统的运算中心,所述运算处理装置包括:0009 使用者登入认证单元,确认使用者身份及该使用者的测验纪录,如果为新使用者则会建立新的数。
13、据文件;0010 筛选取样单元,使用者在检测时依比例在字词数据库单字词与多字词的存放位置中进行单字词与多字词的抽取,依据测验纪录累积的比例规则进行动态数据存放空间内的单字词与多字词的取样,通过筛选出的测验题库组,根据累积的比例规则进行动态数据存放地址内的单字词与多字词的抽取,这是指使用者进行云端人对机测验、一对一测验、多对多测验时,根据测验人数对某个人的字词数据库进行单字词与多字词的抽取的公平字词抽取(也即为难易度均等的字词抽取);0011 评分计时单元,依据每次输入结果的正确与否来判断该单字词与多字词在数据库内存放的地址,判断使用者是否答题正确以及计时答题时间;0012 纪录分析单元,利用汉。
14、语拼音输入的纪录来判断单字词与多字词的动态地址,记录使用者的测验纪录、字词的熟悉程度及学习效果,学习效率,指某一单字词与多字词,从第一次出现后进入长期字库所花费的时间;对每个字词错误点进行的错误分析包括声母、韵母及声调的错误分析;0013 字词数据库,用于储存使用者字词数据,所述字词数据包括汉语单字词与多字词;其中所述字词数据库,使用者通过测验,针对单字词与多字词的输入结果,根据所测得的累积比例的规则将单字词与多字词暂存于新字库、生字库、熟字库、短期字库与长期字库中,该存放关系并非固定,而是根据使用者每次的受测结果来动态调整,单字词与多字词一开始均置于新字库中,当单字词与多字词经过抽取受使用者。
15、测验后,根据测验结果进入新字库中,以使用者的熟悉比例或字词的正确率加以分类,其分类方式为:0014 1.新字库,该字库所存字词为使用者尚未测验过;0015 2.生字库,该字库所存字词为使用者测验后为低正确率的;0016 3.熟字库,该字库所存字词为使用者测验后为中正确率的;0017 4.短期字库,该字库所存字词为使用者测验后为高正确率的;0018 5.长期字库,该字库所存字词为使用者经过多次测验后仍为高正确率的;0019 以上字库中的正确率百分比例并非固定比例,只是用来陈述选择字库的范例之一,此正确率百分比例或改为熟悉比例可以由使用者加以调整。0020 其中使用者使用输入装置及输出装置登入所述。
16、系统,经使用者登入认证单元确认身份后,筛选取样单元根据使用者的使用纪录从字词数据库中取样测验字词,评分计时单元会计时及判断使用者是否答题正确,纪录分析单元根据使用者测验后的纪录及分析,将测验结果储存至字词数据库中。0021 本发明所提到的人对机、一对一、多对多测验,测验时在系统题库中进行一定题数的取样,取样题库时,根据受测使用者的人数按比例取样,每位使用者根据相同的取样规则说 明 书CN 102819970 A3/7页6在个人的新字库、生字库、熟字库、短期字库与长期字库中取样单字词与多字词来进行人对机、一对一、多对多测验,所抽取的单字词与多字词对使用者而言均符合难易度均等的字词取样原则。002。
17、2 本发明所欲解决的问题是提出适应化且符合学习效果的单字词与多字词识字的方法与系统,并通过动态单字词与多字词数据的存放与取样原则,判断某单字词与多字词相对于使用者的关系,并利用动态的数据库依比例进行受测题目的取样,使使用者在此动态题库的刺激下,依照其自身的测试成果,引发受测兴趣,并提高学习效果。0023 综上所述,本案不但在在空间型态上确属创新,应已充分符合新颖性及创造性的法定发明专利要求,依法提出申请,恳请贵局核准本项发明专利申请案件,以鼓励发明。附图说明0024 图1为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的结构图;0025 图2为本发明根据拼音及动态记忆状态的改变来。
18、检测汉语识别词汇量的系统进行字词熟悉度判断的流程图;0026 图3为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统为新字词建立分类及补充题库的结构图;0027 图4为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的字词取样比例的数据图;0028 图5为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的应用区域拓扑图;0029 图6为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的方法的流程图;0030 图7A、图7B、图7C为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的错误分析图。0031 主要部分代表符号0032 1根据拼音及。
19、动态记忆状态的改变来检测汉语识别词汇量的系统0033 2使用者0034 10输入装置0035 11家用计算机0036 12平板计算机0037 13智能型手机0038 14PDA0039 20输出装置0040 30运算处理装置0041 31使用者登入认证单元0042 32筛选取样单元0043 33评分计时单元0044 34记录分析单元说 明 书CN 102819970 A4/7页70045 40字词数据库0046 41新字库0047 42生字库0048 43熟字库0049 44短期字库0050 45长期字库0051 50网络装置0052 61系统内建题库0053 62使用者自编题库0054 63。
20、使用者教师指派题库0055 64新增其它教材具体实施方式0056 如图1所示,为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的结构图,由图中可知,本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统1包括输入装置10、输出装置20、运算处理装置30、字词数据库40及网络装置50;其中,所述运算处理装置30包括:使用者登入认证单元31、筛选取样单元32、评分计时单元33及纪录分析单元34;其中,所述字词数据库40包括:新字库41、生字库42、熟字库43、短期字库44及长期字库45,使用者可通过各种输入装置10及输出装置20来操作所述系统,输入装置10例如鼠标、键盘、触控屏。
21、幕等,输出装置20例如LCD液晶屏幕、触控屏幕等,网络装置50可使所述系统联机上因特网,当使用者登入所述系统时,使用者登入认证单元31会先进行使用者确认的操作,如果为新的使用者则会开立一新的账号数据,如果为既有的使用者则会读取其相关数据,如使用者个人数据、以往的测验纪录及字词数据;筛选取样单元32会根据使用者数据从字词数据库40中进行字词取样,可依照使用者设定的不同比例从字词数据库40中的新字库41、生字库42、熟字库43、短期字库44及长期字库45取样出不同字词来进行字词测验,测验内容主要使用中文输入方式,其中中文输入方式是将中文字拆解成可分为声母、韵母及声调的拼音符号,本发明可选用汉语拼音。
22、、注音符号拼音或通用拼音,针对每个字词进行拼音测试;评分计时单元33在答题时会进行计时及判断答题正确与否,记录分析单元34在使用者测验完毕后进行纪录及分析,主要针对答题时间及速度、正确率并对每个字词的错误点进行错误分析,包括对声母、韵母及声调的错误分析,最后使用者可根据所测验分析的结果了解自己错误的地方,例如容易错误的字词、答题时间反应、整体的答题正确率等,从而提高学习效果。0057 如图2所示,为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统进行字词熟悉度判断的流程图,由图中可知,新字词一开始储存于新字库中,如果该新的字词经使用者测验过其正确率低于50则会被归类到生字库中,如果。
23、其正确率高于50则会被归类到熟字库中;如果该字词是从生字库取样,经使用者测验过其正确率低于50则会被归类到生字库中,如果其正确率高于50则会被归类到熟字库中;如果该字词是从熟字库取样,经使用者测验过其正确率低于50则会被归类到生字库中,如果其正确率高于50,继续判断该字词正确率高于50是否超过20次,如果未超过20次就归类到说 明 书CN 102819970 A5/7页8熟字库,超过20次则判断该正确率是否超过95,如果正确率未超过95就归类到熟字库,如果正确率超过95就归类到短期字库;如果该字词是从短期字库取样,经使用者测验过其正确率低于95则会被归类到短期字库中,如果正确率高于95,继续判。
24、断在过去测试的四天中该字词是否出现五次,如果没有就归类到短期字库,如果有就归类到长期字库;如果该字词是从长期字库取样,经使用者测验过其正确率低于95则会被归类到短期字库中,如果正确率高于95则会被归类到长期字库中;此分类法主要是让使用者知道自己字词熟习程度到底是到哪个阶段,如果字词归类到生字库表示使用这对该字词不熟悉,如果字词归类到熟字库表示使用者熟悉该字词但还是容易出错,如果字词归类到短期字库表示该字词使用者已经相当熟悉,如果字词归类到长期字库表示该字词已经进入使用者长期记忆中不会忘记,以上字库中所设定的正确率百分比例并非固定比例,只是用来陈述选择字库的范例之一,此正确率百分比例或改为熟悉比。
25、例可由使用者加以调整。0058 如图3所示,为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统为新字词建立分类及补充题库的结构图,由图中可知,所述系统的新字词的补充题库包括:系统内建题库51为一基础字词题库,使用者自编52为使用者依据自己学习需求而设定的字词题库,使用者教师指派53为使用者教师依据使用者学习情况而设定的字词题库,新增其它教材54为其它可增加的字词题库,新字词经过使用者测验分析后会依据使用者的熟悉比例或字词的正确率而将其分类到不同字词数据库,具体包括:0059 1.新字库,该字库所存字词为使用者尚未测验过;0060 2.生字库42,测验后该字词正确率在050内则储存于。
26、所述生字库42内;0061 3.熟字库43,测验后该字词正确率在5095内则储存于所述熟字库43内;0062 4.短期字库44,测验后该字词正确率在95100内则储存于所述短期字库44内;0063 5.长期字库45,该字词经过多次测验后仍正确率达到95100则储存于所述长期字库45内;0064 受测时,根据比例在字库中进行难易度均等的单字词与多字词抽取,所有的单字词与多字词尚未进行测验时,均位于新字库中,第一次出现后即根据测验结果进入生字库42、熟字库43、短期字库44与长期字库45,字库的分类为本发明主要特征之一,其目的在于让使用者清楚知道自己对字词的熟悉度,哪些字词需要加强,哪些字词已经有。
27、相当的熟悉程度,以上字库中所设定的正确率百分比例并非固定比例,只是用来陈述选择字库的范例之一,该正确率百分比例或改为熟悉比例可由使用者加以调整。0065 如图4所示,为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的字词取样比例的数据图,由图中可知,所述系统可设定不同取样比例来从各使用者字词数据库中筛选取样出测验的字词,由单机版的取样比例数据可知,系统从该使用者字词数据库中不同的字库取样,因字词数据库中是依照使用者对字词的熟悉比例或是字词的正确率来加以分类的,所以取样时可使不熟悉的生字库的取样比例较重,对于已经非常熟悉并位于长期字库内的字词,则其取样比例就不需要太高,这样的取样设。
28、定对于使用者来说每一次测验内容都可以保持在一定的难易度,可通过循序渐进的方式来慢慢地练习,增加字词数及其熟悉度,例如将从使用者新字库中抽取25的单字词与多字词,即若使用者总测验数为100题,则自新字库中抽取25题,自生字库中抽取25题、熟字库中抽取25题,说 明 书CN 102819970 A6/7页9在短期字库中抽取20题,在长期字库中抽取5题。若该题库题目不足,则依比例往邻列字库中抽取,各字库抽取的比例并非固定,系统可以根据受测人数与受测样本数的情况来调整;在双人对战模式中,为追求对战测验的公平,在取样比例设计上则是根据相同的比例在两个使用者各自的字词数据库中进行字词取样,如图4的数据中可。
29、明显看出,在取样时两个使用者各自依相同比例在各自的字词数据库中取样,每人取样各合计50,最后相加总为100,就为该测验时的题目,其主目的在于可通过在两人同时答题时竞争的状况下增加游戏的挑战感及刺激性,两个人可以通过良性的竞争方式,从游戏中共同成长,共同获得知识,除了双人对战模式外,更可以增加至四人甚至四人以上的对战测验,其取样比例一样是从各个使用者的各自的字词数据库中取样,可确保测验内容对于每个使用者应当是公平公正的,以上所述的抽样比例并非固定比例,只是用来陈述的范例之一,此抽样比例可由使用者加以调整。0066 如图5所示,为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的应用区。
30、域拓扑图,由图中可知,根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统1包括一网络装置50连上因特网,可让不同使用者2通过不同装置来连结至因特网执行所述系统,使用者2可使用家用计算机11、平板计算机12、智能型手机13或PDA(personal digital assistant,掌上型计算机)14等不限于上述装置的上网装置,通过联机方式进行本系统的测验或联机对战测验功能。0067 如图6所示,为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的方法的流程图,由图中可知;0068 步骤S01:使用者登入身份确认,使用者登入系统,经认证后所述系统会读取使用者的相关测验纪录及字词数据库。
31、;0069 步骤S02:筛选取样测验字词,所述系统会根据使用者的测验纪录随机根据比例在使用者字词数据库中筛选取样字词进行测验,所述字词数据库包括:新字库、生字库、熟字库、短期字库及长期字库;0070 步骤S03:评分及计时测验时间,使用者可使用输入装置进行字词测验,所述系统会计时测验时间以及判断使用者答题正确与否;0071 步骤S04:纪录数据及分析使用者测验结果,纪录判断单字词与多字词的动态地址,测验结束后系统会根据测验结果进行分析,记录使用者的测验纪录、字词的熟悉程度及学习效果、学习效率等;0072 步骤S05:字词的分类储存,将测验后字词根据使用者的熟悉比例或字词的正确率来加以分类储存至。
32、字词数据库,字词经测验后该字词正确率在050内则储存于所述生字库,测验后该字词正确率在5095内则储存于所述熟字库,测验后该字词正确率在95100内则储存于所述短期字库,该字词经过多次测验后仍正确率达到95100则储存于所述长期字库,以上字库中所设定的正确率百分比例并非固定比例,只是用来陈述选择字库的范例之一,此正确率百分比例或改为熟悉比例可由使用者加以调整。0073 如图7A、图7B、图7C所示,为本发明根据拼音及动态记忆状态的改变来检测汉语识别词汇量的系统的错误分析图,由图中可知,当使用者测验结束后,本发明会针对使用者进行结果分析,其分析主要针对字词的声母、韵母及声调进行错误统计,并会列出容易出错的字词让使用者可清楚得知自己哪些字词容易出错,而分析方式不限于上述两种,本系统说 明 书CN 102819970 A7/7页10可依据使用者需求来设定不同的分析方式,例如:答题速度、答题正确率、各字库答题正确率、各字库累积字词数、学习效果以及测验次数等。0074 上列详细说明为针对本发明的可行实施例的具体说明,该实施例并非用以限制本发明的保护范围,凡未脱离本发明的技术思想而进行的等效实施或变更,均应包含于本申请的保护范围中。说 明 书CN 102819970 A10。