《一种输入法及数据的生成方法.pdf》由会员分享,可在线阅读,更多相关《一种输入法及数据的生成方法.pdf(6页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102375821A43申请公布日20120314CN102375821ACN102375821A21申请号201010252418322申请日20100804G06F17/30200601G06F3/02320060171申请人陈虎地址725000陕西省安康市育才路113号政府行政中心大楼710室安康市科学技术局72发明人陈虎54发明名称一种输入法及数据的生成方法57摘要本发明属一种输入法及数据的生成方法。它包含有由文章数据组成的文章库,文章数据索引库。由于采用了包含有更为丰富的文章数据组成的文章库及文章数据索引库方案,使本发明的智能处理能力、语句输出能力都能得到较大的提升。
2、。本发明还给出了文章数据的生成方法,使本发明文章数据来源广泛、收集方便、贴近用户、数据丰富的特点。本发明把输入法的数据利用提升到了一个新的水平,为进一步开拓输入的运用范围奠定了坚实的基础。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书4页CN102375828A1/1页21一种输入法,包含有一个常规输入法模块,本发明的特征在于还包含有文章库,文章库包含有文章数据。2按照权利要求1所述的输入法,其特征在于所述的文章库包含有取自用户计算机上已有的文章内容而生成的文章数据。3按照权利要求1所述的输入法,其特征在于所述的文章库包含有根据用户的特征信息而从网络上取得的。
3、文章内容而生成的文章数据。4按照权利要求1所述的输入法,其特征在于所述的文章库包含有根据用户的特征信息而从服务器上下载的文章数据。5按照权利要求1、2、3或4所述的输入法,其特征在于还包含有文章数据索引库,文章数据索引库包含有文章数据索引信息。6按照权利要求5所述的输入法,其特征在于所述的文章数据索引信息为特征词索引信息。7一种输入法数据的生成方法,本发明的特征是在计算机中有用户数据收集模块,用户数据收集模块根据用户的特征信息取得与用户相关的网站或网页链接地址,由与用户相关的网站或网页链接地址取得与用户相关的网站或网页页面数据,由与用户相关的网站或网页页面数据取得文章页面数据链接地址,由文章页。
4、面数据链接地址取得文章页面数据,由文章页面数据取得文章数据,将文章数据加入到输入法的文章库中。8按照权利要求7所述的方法,其特征在于所述的与用户相关的网站或网页链接地址是由用户输入的用户所在单位或用户所在地政府的网站地址。权利要求书CN102375821ACN102375828A1/4页3一种输入法及数据的生成方法技术领域0001本发明属计算机技术领域,具体地说它是一种输入法和这种输入法所使用的数据的生成方法。背景技术0002最早的输入法只采用了字库,因此只能输出单独的汉字。后来经过改进增加了词库,因此而能输出词组。申请号为991159314的我国发明专利申请公开说明书中介绍了一种汉字输入中的。
5、语句提示及输入方法,采用这种方法的输入法首次包含有语句库,通过记录用户输出的内容并经过优化处理来生成较实用的语句库,用户因此可利用语句库来进行语句输出或进行字或词组在重码等情况下的智能处理。这种语句库确实使输入法的智能处理能力得到了很大的提高,但采用这种语句库,在用户输入语句库中包含有的内容时,智能处理能力就很高,但用户输入语句库中没有包含的内容时,智能处理能力就会非常低。并且由于受到用户计算机计算能力及速度的限制,这种语句库也不可能做的很大。发明内容0003本发明的目的是提供一种采用更贴近具体用户的数据库的输入法及这种数据库数据的一种生成方法,以使输入法的智能处理能力及运用能力得到提升。00。
6、04本发明的目的可通过下述的方案来达到。0005一种输入法,包含有一个常规输入法模块,还包含有其数据可被检索或分析处理的文章库,文章库包含有一篇或多篇文章数据。这样,输入法就会利用包含有大量信息的文章来进行输入过程中的智能处理分析。其一,文章中不仅包含有字、词使用频度的信息,而且还包含有字、词的上下文、用词风格等信息,因此可以为输入法对重码字词的输出提供更加智能的选择分析数据。其二,文章中不仅包含有语句信息,而且还包含有语言风格、用语习惯等信息,因此可以为输入法的语句输出或语句提示提供更为广泛、更加准确的检索分析数据。其三,文章中还包含有文章格式、文章素材等信息,这些信息不仅可为输入过程提供帮。
7、助,并且还可以为用户的写作等提供帮助,因此这可为输入法的功能拓展奠定丰富的数据基础。0006本发明所述的常规输入法模块是指,一个可在计算机中正常使用的常规的输入法。其包括但不仅限于以键盘为输入设备的拼音、五笔等编码类的输入法。其还包括但不仅限于以鼠标、手写笔、话筒等为输入设备的各种输入法。0007本发明所述的文章数据是指其数据内容可以是一篇完整文章的数据,还可以是一篇文章中的某一部分或多部分的数据,也可以是一篇文章或多篇同类文章经处理而得到的文章优化数据。所述的文章数据可以是一个存储在计算机存储设备上的一个计算机文件,也可以是某一个计算机文件中的一部分,还可以是计算机内存中的一个数据片段。所述。
8、的文章数据可存储在用户的计算机上,也可存储在可供输入法或用户连接的服务器上。所述的文章数据也可称为文章数据片段或文章数据模块。说明书CN102375821ACN102375828A2/4页40008本发明所述的文章库可以是由一个或多个以计算机文件格式存在的文章数据的集合。本发明所述的文章库也可以是一个或多个存储在存储设备上的计算机库文件或库目录,在这种情况下,文章数据就被包含在这些计算机库文件或库目录中。本发明所述的文章库还可是计算机内存中的文章库数据模块,在这种情况下,某一个文章数据只是这个文章库数据模块中的一个文章数据片段。0009本发明所述的文章库可以包含有常用文章生成的文章数据,如常用。
9、文章包括公文格式、法律文书格式、新闻文章格式等各种格式类的示例文章及某些常用的文章,但这不是必须的。我们知道,要形成一个大而全的输入法词组库几乎不可能,那么要形成一个包含各种内容的文章库则更是不可能。同时我们也知道,虽然汉字文化博大精深,但对某一个具体的人来说,由于他所处的位置、从事的工作、兴趣爱好等情况,他所能经常使用的语言文字是有一定范围的,并且这个范围对绝大部分人来说并不太宽,只是汉字语言的很小一部分。因此本发明的文章库主要包含有针对具体用户的情况生成的或定制的文章数据,这一类的文章数据与这一个使用输入法的用户有着密切的关联,其数据内容体现了该用户的语言习惯。因此,尽量把与用户密切相关的。
10、文章生成的文章数据包含在本发明的文章库中,这是提升输入法智能处理能力的关键。0010本发明所述的文章库可包含有取自用户计算机上已有的文章内容而生成的文章数据。在用户计算机上一般都保存有用户编写的文章,或用户保存的文章,这些文章直接体现了用户的语言习惯。把这些文章生成本发明的文章数据,会大大提升输入法的智能处理能力和语句输出能力。0011每一个用户都有自己的特征信息,其主要包括这一用户所处的地域、所在的单位,所从事的工作、所处的专业,写作中所经常使用的特征词、词组的使用频度、所使用的网络IP等信息,特征信息可包含这些信息其中的一种或多种但不仅限于这些信息。因此,本发明所述的文章库还可包含有根据用。
11、户的特征信息从网络上取得的文章内容而生成的文章数据。这样,本发明可根据用户所在的单位,可把其单位网站上的文章内容生成文章数据。本发明还可根据用户所在的地域、所使用的网络IP等信息,可把该地域中具有代表性的网站上的文章生成文章数据。地域中具有代表性的网站主要包括当地的市、县、区、乡政府网站,当地的门户网站,当地的新闻网站等,但不仅限于这些网站。本发明进一步还可根据用户在写作中所经常使用的特征词和高频词等信息,可通过网络搜索引擎搜索到网络上的相关文章而生成文章数据。0012本发明的文章数据并不一定只能在用户计算机上生成,也可由输入法服务器或其他服务器来完成生成文章数据。特别是对于一些可归类的文章数。
12、据,如某一个地域内的用户群,某一个专业的用户群,从事某一工作的用户群等。服务器可更专业地来进行文章数据的收集生成工作,并将生成的文章数据保存在服务器上。因此,本发明所述的文章库还可包含有根据用户的特征信息而从服务器上下载的文章数据。当然采用用户注册方式的输入法,可通过用户注册时来获取用户特征信息,并根据特征信息而为这一用户生成专门的文章数据供其下载使用。一些常用文章生成的文章数据可随输入法直接安装在用户的计算机上,也可放在服务器上供用户使用时下载。0013本发明还可包含有文章数据索引库,文章数据索引库包含有文章数据索引信息。从理论上讲,文章库包含的文章数据越多越好。但在实际使用中,由于受到计算。
13、机计算速度说明书CN102375821ACN102375828A3/4页5及存储能力等因素的影响,作为输入法并不能每次对文章库中所有的文章数据都能进行检索分析。而从用户的角度上讲,在用户利用输入法写作或输入一篇具体的文章时,输入法只需要把文章库中与用户正在写作或输入的内容有关的文章数据进行检索分析,就可达到很高的智能处理能力。为此,本发明给出了建立文章数据索引库的方案。通过建立文章数据索引而组成文章数据索引库,并在输入过程中合理利用文章数据索引库来对需要检索分析的文章数据进行检索分析,这样就减少了每次操作的数据处理量,这也为输入法建立大型的文章数据库给出了可行的具体方案。0014本发明所述的文。
14、章数据索引信息主要是指文章数据的使用频度索引、时间索引、标题索引、词组索引、语句索引特征词索引等索引信息,文章数据索引库可以包含这些索引信息中的一种或多种,但不仅限于这些索引信息。本发明所述特征词是指能体现一篇文章特征的词组,主要包括文章标题中的词组、专业词组、使用频度较高的词组、输入法词库中不包含的词组等但不仅限于这些,特征词可以是其中的一种或多种。0015一种输入法数据的生成方法,在计算机中有用户数据收集模块,用户数据收集模块根据用户的特征信息取得与用户相关的网站或网页链接地址,由与用户相关的网站或网页链接地址取得与用户相关的网站或网页页面数据,由与用户相关的网站或网页页面数据取得文章页面。
15、数据链接地址,由文章页面数据链接地址取得文章页面数据,由文章页面数据得到文章数据,将文章数据加入到输入法的文章库中。0016本发明所述的用户数据收集模块可以是包含在输入法中一个模块,也可以是一个独立的模块。当用户数据收集模块为一个独立的模块时,其可以是在用户的计算机上,也可以是在服务器上。当用户数据收集模块在服务器上时,其直接在服务器上完成文章数据的收集保存,当用户输入法需要时可从服务器上下载所收集的文章数据而加入到输入法文章库中。0017本发明所述的与用户相关的网站或网页主要包括,用户所在单位或上级单位的网站首页,用户所在地政府网站或上级政府网站的首页,用户自己确定的网站的首页,根据用户输出。
16、的词组所确定的关键词并通过搜索引擎得到的搜索结果网页,根据用户所从事的工作所确定的专业网站的引导网页等,但不仅限于这些。0018本发明由于采用了包含有更为丰富的文章数据组成的文章库及文章数据索引库方案,使本发明的智能处理能力、语句输出能力都得到了较大的提升。本发明还给出了文章库的生成方法,使本发明文章数据来源广泛、收集方便、贴近用户、数据丰富的特点。本发明把输入法的数据利用提升到了一个新的水平,为进一步开拓输入的运用范围奠定了坚实的基础。由此,本发明的方案从而达到了本发明的目的。具体实施方式0019下面是本发明的实施例,通过实施例可进一步理解本发明。0020实施例10021本实施例给出了本发明。
17、的一种输入法,并详细介绍了该输入法在输入过程中对文章数据库的一种具体使用方法。在以键盘为输入设备的计算机系统中有一个汉字拼音输入法,在计算机硬盘中有一个文件目录,在该文件目录下保存有多个文章数据文件,这些文章数据文件构成了文章库,在计算机硬盘中还有一个文章数据索引库文件,在文章数据索引说明书CN102375821ACN102375828A4/4页6库文件中包含有对应于文章数据的特征词索引信息。在汉字拼音输入法被首次调用时,汉字拼音输入法在内存中确定一块固定大小的内存,根据文章数据索引库中的索引信息,依次读取排在文章数据索引库前面的索引信息所对应的文章数据文件到这一块固定大小的内存中,至到读满这。
18、块内存或读取完毕文章数据文件。在汉字拼音输入法输入过程中,根据输出内容中所包含的词组输出词组,对文章数据索引库进行检索排序,将包含有输出词组的文章数据索引排序在文章数据索引库的前面,排序后按照上面所述的读取方法重新读取文章数据文件到上面所述的固定大小的内存中。在汉字拼音输入法使用过程中,可利用文章数据库中读入内存的文章数据来进行检索或智能处理。这样,由于只检索或分析固定大小的内存数据,在汉字拼音输入法的使用过程中就不会产生操作滞后的情况,并且由于根据输出的内容来随时对文章数据索引库进行排序并重新读入文章数据库中的文章数据,使得文章库中的与汉字拼音输入法正在输入的内容相关的文章数据始终是被读入到。
19、了内存中而供检索或分析利用。0022实施例20023本实施例给出了本发明的一种文章数据的具体生成方法。在用户计算机中有一个独立的数据收集软件模块,数据收集软件模块保存有用户在安装或设置输入法、或在设置数据收集模块参数时输入的用户所在单位的网站地址和用户所在地的政府网站地址;数据收集软件模块在用户每次开启计算机后自动运行,运行后检测当天数据是否进行了数据收集操作,如已经进行了数据收集操作则停止本次运行,如没有进行数据收集操作则进行如后的数据收集操作;数据收集软件模块取得用户所在单位的网站地址,并通过网络连接该网站首页并取得首页页面数据,由首页页面数据取得一个文章页面链接地址;检测该文章页面链接地。
20、址所链接的文章数据是否以前下载过及是否是新的文章,如下载过或不是新的文章则不处理,如没有下载过并且是新的文章则下载该文章页面数据,取掉不必要的页面信息得到文章数据,把文章数据以文件格式保存在文章库目录中,提取文章数据中的特征词建立与该文章数据文件对应的索引并加入到文章数据索引库中;再由首页页面数据取得下一个文章页面链接地址并进行如上的对文章页面链接地址相同的处理。这样循环处理直到处理完毕首页页面数据中包含的所有的文章页面链接地址。数据收集软件模块继续取得用户所在地的政府网站地址,并进行如上的对户所在单位的网站地址相同的处理。这样就生成了一个与用户关系密切的文章数据库,并且每天或在规定的时间段会自动向文章库中增加新的文章数据。当然数据收集软件模块还可将长期没有使用过的位于文章数据索引库尾部的一部分文章数据索引所对应的文章数据文件删除掉,这样文章数据库就会自动去除与用户关系不大的文章数据使文章数据库越来越精。说明书CN102375821A。