一种获取自造词的方法及装置 【技术领域】
本发明涉及输入法中的自造词技术, 尤指一种获取自造词的方法及装置。背景技术 为了将汉字输入到电子设备, 就会使用到中文输入软件。目前, 中文输入软件可 分为键盘输入和非键盘输入两大类, 其中, 基于键盘的中文输入软件是比较成熟、 使用最广 的。中文输入软件是运行于操作系统上的一个工具软件, 是用于将键盘输入的编码或其它 非键盘输入的媒体数据转换成汉字输入的软件。具体地,
键盘中文输入软件是利用键盘, 根据一定的编码规则来输入汉字的一种方法。
英文字母只有 26 个, 它们对应着键盘上的 26 个字母, 所以, 对于英文而言是不存 在什么输入软件的, 直接输入英文字母就可以。 汉字的字数有几万个, 为了向电子设备如电 脑、 手机等输入汉字, 必须首先对汉字进行编码, 并将这些编码与键盘上的键关联起来, 以 便通过键盘输入某个汉字的编码, 然后再根据编码转换成汉字。
目前, 汉字编码方案已有数百种, 其中在电脑上已经运行的就有几十种。 作为一种 图形文字, 汉字是由字的音、 形、 义来共同表达的, 汉字输入的编码方法, 基本上都是采用将 音、 形、 义与特定的键相联系, 再根据不同汉字进行组合来完成汉字的输入的。
非键盘中文输入软件包括手写输入软件、 语音输入软件、 光学字符识别 (OCR) 输 入软件等。其中,
手写输入软件是一种笔式环境下的手写中文识别输入软件, 符合中国人用笔写字 的习惯, 只要在手写板上按平常的习惯写字, 电脑就能将其识别显示出来。 手写输入软件需 要配套的硬件手写板, 在配套的手写板上用笔 ( 可以是任何类型的硬笔 ) 来书写录入汉字, 不仅方便、 快捷, 而且错字率也比较低。用鼠标在指定区域内也可以写出字来, 然后使用手 写软件转换成汉字。
语音输入软件是通过话筒输入声音, 然后通过软件将输入的声音信息转换成文 字。 虽然语音输入软件使用起来很方便, 但错字率仍然比较高, 特别是一些未经训练的专业 名词以及生僻字。语音输入法在硬件方面要求电脑必须配备能进行正常录音的声卡, 然后 调试好麦克风, 才可以对着麦克风用普通话语音进行文字录入。 如果普通话口音不标准, 利 用语音训练程序进行一段时间的训练后, 也可以通过讲话来实现文字输入。
OCR 技术要求将要输入的文稿通过扫描仪转化为图形才能识别, 因此, 扫描仪是必 须的, 而且原稿的印刷质量越高, 识别的准确率就越高, 一般最好是印刷体的文字, 比如图 书、 杂志等。 如果原稿的纸张较薄, 那么有可能在扫描时纸张背面的图形、 文字也透射过来, 干扰最后的识别效果。
用户词和自定义短语, 是中文输入法中非常重要的两种候选词类型, 是自造词, 基 本上大多数的主流输入法都有。其中,
用户词是在用户使用输入法的输入过程中, 由输入法软件自动记录到文件的个人 习惯的词库, 比如, 输入一个在输入法的核心词库中不存在的词, 用户需要通过逐个选择更
小单位的词的方式组合成要输入的词, 这样, 这个词会自动记录到用户词库中, 用户词库中 也会记录输入该词的次数、 时间等属性信息。
自定义短语是用户可以在一个设置界面进行添加、 删除、 编辑等管理操作的。 用户 词自定义短语技术是为了解决一些非标准词的输入, 比如 “QQ 秀” , “U 盘” 等, 用户可以自定 义这些词的输入编码, 自定义短语需要用户打开设置界面手动添加。
但是, 上述两种候选词类型的自造词的现有获取方法中都存在一些问题 : 当用户 在阅读文档或者浏览网页发现一个新词时, 为了将该新词添加到输入法用户词库中或者自 定义短语中, 操作步骤都非常麻烦, 比如 : 如果想添加到用户词库中, 用户需要在输入法中 将这个词通过键盘输入, 一般这个词还不在用户词库中, 用户需要一步一步将这个词手动 组合出来, 之后, 输入法会将组合出来的词添加到用户词库中 ; 如果想添加到自定义短语列 表中, 则需要手动打开自定义短语的设置界面, 经过一系列的步骤才可以添加到自定义短 语列表中, 比如在 QQ 拼音输入法中, 大致需要打开属性设置的高级页, 接着打开自定义短 语设置页面, 点击 “添加” 按钮。在给出的页面中输入缩写和自定义短语并保存修改即可。
从现有自造词的获取方法来看, 整个过程繁琐、 而且需要用户选择是用户词还是 自定义短语后, 再手动一步一步完成。 发明内容 有鉴于此, 本发明的主要目的在于提供一种获取自造词的方法及装置, 能够方便、 快捷地获取自造词, 并自动添加进用户词库或自定义短语库。
为达到上述目的, 本发明的技术方案是这样实现的 :
一种获取自造词的方法, 包括 :
拷贝需要添加的自造词, 根据需要添加的自造词, 选择打开造词工具的用户词界 面或自定义短语界面 ;
按照打开的造词工具的用户词界面或自定义短语界面, 将自造词添加进用户词库 中或自定义短语列表中。
所述拷贝需要添加的自造词为 : 利用剪切板将需要添加的自造词拷贝到剪切板 中。
所述选择打开造词工具的用户词界面或自定义短语界面为 :
如果所述剪切板中拷贝到的需要添加的自造词全部由汉字组成, 并且汉字的个数 在预设汉字阈值范围内, 则判断出剪切板中的自造词为用户词, 将剪切板中的自造词显示 在造词工具的用户词界面中 ;
如果所述剪切板中拷贝到的需要添加的自造词不全是由汉字组成, 并且字符的个 数在预设字符阈值范围内, 则判断出剪切板中的自造词为自定义短语, 将剪切板中的自造 词显示在造词工具的自定义短语界面中。
该方法还包括 :
如果所述剪切板中拷贝到的需要添加的自造词全部是由汉字组成的, 但是汉字的 个数超过预设汉字阈值, 并且字符的个数超出预设字符阈值 ; 或者,
如果所述剪切板中拷贝到的需要添加的自造词不全是由汉字组成的, 并且字符的 个数超出预设字符阈值, 则判断出剪切板中的内容为空, 用户可选择按照现有方法获取该
自造词。
当打开的是用户词界面时, 所述将自造词添加进用户词库中或自定义短语列表中为: 在核心词库和用户词库中查找当前显示在造词工具的用户词界面中的自造词, 如 果找到, 将核心词库或用户词库中匹配的记录的标音显示在用户词界面中 ; 用户选择正确 的音标并保存后, 将确定的音标和用户词添加在用户词库中 ;
如果在核心词库或用户词库中未找到当前显示在造词工具的用户词界面中的自 造词, 利用汉字标音库对当前需要添加的自造词进行标音并显示在用户词界面中, 用户选 择正确的音标并保存后, 将确定的音标和用户词添加在用户词库中。
当打开的是自定义短语界面时, 所述将自造词添加进用户词库中或自定义短语列 表中为 :
在自定义短语列表中查找当前显示在造词工具的自定义短语界面中的自造词, 如 果找到, 将自定义短语列表中匹配到的当前显示在自定义短语界面中的自造词的内容及其 在自定义短语列表中的位置显示在自定义短语界面上, 用户将该自造词的内容及其在自定 义短语列表中的位置信息保存到自定义短语列表中 ;
如果在自定义短语列表中未找到当前显示在造词工具的自定义短语界面中的自 造词, 将当前自造词显示在自定义短语界面中, 并指定其位置, 用户将该自造词的内容及其 在自定义短语列表中的位置信息保存到自定义短语列表中。
一种获取自造词的装置, 主要包括拷贝单元、 区分单元、 用户词添加单元及自定义 短语添加单元, 其中,
拷贝单元, 用于拷贝需要添加的自造词, 比如利用剪切板将需要添加的自造词拷 贝到剪切板中 ;
区分单元, 用于区分剪切板中的自造词是属于用户词, 还是属于自定义短语, 并相 应通知用户词添加单元及自定义短语添加单元进行处理 ;
用户词添加单元, 用于将需要添加的自造词添加到用户词库中 ;
自定义短语添加单元, 用于将需要添加的自造词添加到自定义短语列表中。
所述用户词处理单元具体包括第一显示模块、 第一查找模块、 第一处理模块和第 二处理模块, 其中,
第一显示模块, 用于根据来自分区分单元的指示, 将剪切板中的自造词显示在造 词工具的用户词界面中 ; 接收来自第一处理模块的指示, 将核心词库中匹配的记录的标音 显示在用户词界面中 ; 接收来自第一处理模块的指示, 将标音后的当前需要添加的自造词 显示在用户词界面中 ;
第一查找模块, 用于在核心词库中查找当前显示在造词工具的用户词界面中的自 造词, 如果查找到, 通知第一处理模块进行处理 ; 如果未找到, 并通知第二处理模块进行处 理;
第一处理模块, 用于接收来自第一查找模块的通知, 用户根据显示选择正确的音 标并保存, 向第一显示模块发出指示, 并将确定的音标和用户词添加在用户词库中 ;
第二处理模块, 用于接收来自第一查找模块的通知, 利用汉字标音库对当前需要 添加的自造词进行标音, 用户选择正确的音标并保存, 向第一显示模块发出指示, 并将确定
的音标和用户词添加在用户词库中。
所述自定义短语添加单元具体包括第二显示模块、 第二查找模块、 第三处理模块 和第四处理模块, 其中,
第二显示模块, 用于根据来自分区分单元的指示, 将剪切板中的自造词显示在造 词工具的自定义短语界面中 ; 接收来自第三处理模块的指示, 将在自定义短语列表中匹配 到的自定义短语的内容及其在自定义短语列表中的位置显示在自定义短语界面上 ; 接收来 自第四处理模块的指示, 将当前需要添加的自造词显示在自定义短语界面中 ;
第二查找模块, 用于在自定义短语列表中查找当前显示在造词工具的用户词界面 中的自造词, 如果查找到, 通知第三处理模块进行处理 ; 如果未找到, 并通知第四处理模块 进行处理 ;
第三处理模块, 用于接收来自第二查找模块的通知, 用户将在自定义短语列表中 匹配到的内容及其在自定义短语列表中的位置信息保存到自定义短语列表中, 向第二显示 模块发出指示 ;
第四处理模块, 用于接收来自第二查找模块的通知, 为当前需要添加的自造词指 定其位置, 用户将该自造词的内容及其在自定义短语列表中的位置信息保存到自定义短语 列表中, 向第二显示模块发出指示。 所述区分单元, 还用于区分剪切板中的自造词既不属于用户词, 也不属于自定义 短语时, 通知手动处理单元 ; 相应地,
该装置还包括手动处理单元, 用于接收来自区分单元的通知, 提示用户选择按照 现有方法获取该自造词。
从上述本发明提供的技术方案可以看出, 包括拷贝需要添加的自造词, 根据需要 添加的自造词, 选择打开造词工具的用户词界面或自定义短语界面 ; 按照打开的造词工具 的用户词界面或自定义短语界面, 将自造词添加进用户词库中或自定义短语列表中。通过 本发明方法, 方便、 快捷地获取了自造词, 并选择性地自动添加进了用户词库或自定义短语 库。
附图说明
图 1 为本发明获取自造词的方法的流程图 ;
图 2 为本发明获取自造词的装置的组成结构示意图 ;
图 3 为本发明获取自造词的实施例的流程示意图。 具体实施方式
图 1 为本发明获取自造词的方法的流程图, 如图 1 所示, 包括 :
步骤 100 : 拷贝需要添加的自造词。
本步骤中的拷贝可以通过现有计算机中的拷贝到剪切板中的功能来实现。 与现有 技术相比, 本发明中不需要通过输入法将这个词通过手动一步步输入, 这样会更加方便、 快 捷。
步骤 101 : 根据需要添加的自造词, 选择打开造词工具的用户词界面或自定义短 语界面。如果剪切板中拷贝到的需要添加的自造词全部是由汉字组成的, 并且汉字的个数 在预设汉字阈值范围内, 则判断出剪切板中的自造词为用户词, 将剪切板中的自造词显示 在造词工具的用户词界面中 ;
如果剪切板中拷贝到的需要添加的自造词不全是由汉字组成的, 并且字符的个数 在预设字符阈值范围内, 则判断出剪切板中的自造词为自定义短语, 将剪切板中的自造词 显示在造词工具的自定义短语界面中 ;
进一步地, 如果剪切板中拷贝到的需要添加的自造词全部是由汉字组成的, 但是 汉字的个数超过预设汉字阈值, 并且字符的个数超出预设字符阈值 ; 或者, 如果剪切板中拷 贝到的需要添加的自造词不全是由汉字组成的, 并且字符的个数超出预设字符阈值, 则判 断出剪切板中的内容为空, 用户可选择按照现有方法获取该自造词。
本步骤中, 造词工具, 以及造词工具的打开用户词界面或自定义短语界面都是现 有就存在的, 这里强调的是根据需要添加的需要添加的自造词的属性, 如是否全是汉字, 长 度等, 自动选择并调出造词工具的打开用户词界面或自定义短语界面。
步骤 102 : 按照打开的造词工具的用户词界面或自定义短语界面, 将自造词添加 进用户词库中或自定义短语列表中。
当打开的是用户词界面时, 本步骤包括 :
在核心词库和用户词库中查找当前显示在造词工具的用户词界面中的自造词, 如 果找到, 将核心词库或用户词库中匹配的记录 ( 即在核心词库中存在的该自造词 ) 的标音 显示在用户词界面中, 用户选择正确的音标并保存后, 将确定的音标和用户词添加在用户 词库中 ; 如果在核心词库或用户词库中未找到当前显示在造词工具的用户词界面中的自造 词, 利用汉字标音库对当前需要添加的自造词进行标音 ( 这里标音是系统默认的一组 ) 并 显示在用户词界面中, 用户选择正确的音标并保存后, 将确定的音标和用户词添加在用户 词库中。
这里, 对标音的标注, 以及对标音的选择属于本领域技术人员惯用技术手段, 其具 体实现方法不用于限定本发明的保护范围, 这里不再赘述。
当打开的是自定义短语界面时, 本步骤包括 :
在自定义短语列表中查找当前显示在造词工具的自定义短语界面中的自造词, 如 果找到, 将自定义短语列表中匹配到的当前显示在自定义短语界面中的自造词的内容及其 在自定义短语列表中的位置显示在自定义短语界面上, 用户将该自造词的内容及其在自定 义短语列表中的位置信息保存到自定义短语列表中 ; 如果在自定义短语列表中未找到当前 显示在造词工具的自定义短语界面中的自造词, 将当前自造词显示在自定义短语界面中, 并指定其位置 ( 如默认为 1), 用户将该自造词的内容及其在自定义短语列表中的位置信息 保存到自定义短语列表中。
对应本发明方法还提供一种获取自造词的装置, 如图 2 所示, 主要包括拷贝单元、 区分单元、 用户词添加单元及自定义短语添加单元, 其中,
拷贝单元, 用于拷贝需要添加的自造词, 比如利用剪切板将需要添加的自造词拷 贝到剪切板中。
区分单元, 用于区分剪切板中的自造词是属于用户词, 还是属于自定义短语, 并相 应通知用户词添加单元及自定义短语添加单元进行处理。用户词添加单元, 用于将需要添加的自造词添加到用户词库中。
自定义短语添加单元, 用于将需要添加的自造词添加到自定义短语列表中。
其中, 用户词处理单元具体包括第一显示模块、 第一查找模块、 第一处理模块和第 二处理模块, 其中,
第一显示模块, 用于根据来自分区分单元的指示, 将剪切板中的自造词显示在造 词工具的用户词界面中 ; 接收来自第一处理模块的指示, 将核心词库中匹配的记录的标音 显示在用户词界面中 ; 接收来自第一处理模块的指示, 将标音后的当前需要添加的自造词 显示在用户词界面中。
第一查找模块, 用于在核心词库中查找当前显示在造词工具的用户词界面中的自 造词, 如果查找到, 通知第一处理模块进行处理 ; 如果未找到, 并通知第二处理模块进行处 理。
第一处理模块, 用于接收来自第一查找模块的通知, 用户根据显示选择正确的音 标并保存, 向第一显示模块发出指示, 并将确定的音标和用户词添加在用户词库中。
第二处理模块, 用于接收来自第一查找模块的通知, 利用汉字标音库对当前需要 添加的自造词进行标音, 用户选择正确的音标并保存, 向第一显示模块发出指示, 并将确定 的音标和用户词添加在用户词库中。 自定义短语添加单元具体包括第二显示模块、 第二查找模块、 第三处理模块和第 四处理模块, 其中,
第二显示模块, 用于根据来自分区分单元的指示, 将剪切板中的自造词显示在造 词工具的自定义短语界面中 ; 接收来自第三处理模块的指示, 将在自定义短语列表中匹配 到的自定义短语的内容及其在自定义短语列表中的位置显示在自定义短语界面上 ; 接收来 自第四处理模块的指示, 将当前需要添加的自造词显示在自定义短语界面中。
第二查找模块, 用于在自定义短语列表中查找当前显示在造词工具的用户词界面 中的自造词, 如果查找到, 通知第三处理模块进行处理 ; 如果未找到, 并通知第四处理模块 进行处理。
第三处理模块, 用于接收来自第二查找模块的通知, 用户将在自定义短语列表中 匹配到的内容及其在自定义短语列表中的位置信息保存到自定义短语列表中, 向第二显示 模块发出指示。
第四处理模块, 用于接收来自第二查找模块的通知, 为当前需要添加的自造词指 定其位置, 用户将该自造词的内容及其在自定义短语列表中的位置信息保存到自定义短语 列表中, 向第二显示模块发出指示。
本发明区分单元, 还用于区分剪切板中的自造词既不属于用户词, 也不属于自定 义短语时, 通知手动处理单元。相应地, 本发明装置还包括手动处理单元, 用于接收来自区 分单元的通知, 提示用户选择按照现有方法获取该自造词。
下面结合实施例, 对本发明方法进行详细描述。
图 3 为本发明获取自造词的实施例的流程示意图, 如图 3 所示, 本实施例中, 假设 用户已将需要添加的自造词拷贝到了系统剪切板中, 并已启动造词工具, 包括 :
步骤 300 : 判断剪切板中的内容是否全部由汉字组成, 如果是, 进入步骤 301, 否则 进入步骤 308。
步骤 301 : 判断剪切板中的汉字是否超过预设汉字阈值 N, 如果超过, 进入步骤 308 ; 否则进入步骤 302。其中, 汉字阈值 N 是系统预先设置的, 其大小表示造词工具允许一 次性添加的自造词的汉字长度。
步骤 302 : 将剪切板中的内容显示在造词工具的用户词界面上。
步骤 303 ~步骤 304 : 在核心词库和用户词库中查找剪切板中的内容, 如果查找 到, 进入步骤 305 ; 否则进入步骤 306。
其中, 核心词库是输入法软件中固定的, 不可扩展的标准词库 ; 用户词库用于存储 在用户使用输入法进行的输入过程中产生的不存在于核心词库中的词。
步骤 305 : 将核心词库或用户词库中匹配的记录的标音 ( 即加上拼音 ) 显示在用 户词界面上, 进入步骤 307。
步骤 306 : 利用汉字标音库对当前自造词进行标音并显示在用户词界面上, 这里 是默认标上汉字最常用的音。其中, 现有汉字标音库存储有汉字与用于对汉字进行标注的 拼音的对应关系。
步骤 307 : 用户选择标音并保存后, 经标音和该自造词添加到用户词库中。结束本 流程。 步骤 308 : 判断剪切板中的字符是否超过预设字符阈值 M, 如果超过, 进入步骤 315 ; 否则进入步骤 309。其中, 字符阈值 M 是系统预先设置的, 其大小其表示造词工具允许 一次性添加的自造词的字符长度。
步骤 309 : 将剪切板内容显示在造词工具的自定义短语界面上。
步骤 310 ~步骤 311 : 在自定义短语列表中查找剪切板中的内容, 如果查找到, 进 入步骤 312 ; 否则进入步骤 313。
步骤 312 : 将剪切板中的内容和缩写以及在候选次列表中的位置显示在自定义短 语界面上, 进入步骤 314。
步骤 313 : 将剪切板中的内容显示在自定义短语界面上, 候选词列表中的位置指 定为已和默认值 ( 比如 1), 缩写初始为空。
步骤 314 : 用户操作并保存后, 将缩写、 位置信息, 及自定义短语内容添加到自定 义短语列表中。结束本流程。
步骤 315 : 造词工具打开并显示为空, 用户可以手动添加需要保存的自造词的内 容。
本步骤表明当前剪切板中的汉字或字符长度超出造词工具的处理能力时, 用户可 以按照现有方法, 手动添加需要保存的自造词的内容。
步骤 316 : 用户输入自造词并保存后, 如果当前为用户词界面, 则将自造词保存在 用户词库中 ; 如果当前为自定义短语界面, 则将自造词保存在自定义短语列表中。
以上所述, 仅为本发明的较佳实施例而已, 并非用于限定本发明的保护范围, 凡在 本发明的精神和原则之内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保护 范围之内。