一种基于上下文场景的输入候选词提示方法及系统.pdf

上传人:大师****2 文档编号:1491680 上传时间:2018-06-18 格式:PDF 页数:11 大小:399.01KB
返回 下载 相关 举报
摘要
申请专利号:

CN201210086810.4

申请日:

2012.03.28

公开号:

CN103365833A

公开日:

2013.10.23

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F17/27申请日:20120328|||公开

IPC分类号:

G06F17/27; G06F3/023

主分类号:

G06F17/27

申请人:

百度在线网络技术(北京)有限公司

发明人:

李静

地址:

100085 北京市海淀区上地十街10号百度大厦

优先权:

专利代理机构:

北京汉昊知识产权代理事务所(普通合伙) 11370

代理人:

朱海波;韩剑伟

PDF下载: PDF下载
内容摘要

本发明提供一种基于上下文场景的输入候选词提示方法,包括:接收用户输入的词条;基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及将所述第一候选词集合提供给所述用户。本发明还提供一种用于该方法的系统。本发明充分利用上下文场景进行候选词推荐,有效提高了输入过程中的候选首词命中率。

权利要求书

1.  一种基于上下文场景的输入候选词提示方法,其中,包括以下步骤:
a)接收用户输入的词条;
b)基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及
c)将所述第一候选词集合提供给所述用户。

2.
  根据权利要求1所述的方法,其中,所述步骤b)进一步包括步骤:
基于所述用户对所述词条输入的历史记录,生成第二候选词集合;
基于任意非本地的与所述词条相关的上下文场景,生成第三候选词集合;
根据所述第二候选词集合和所述第三候选词集合生成第一候选词集合。

3.
  根据权利要求2所述的方法,其中,所述步骤b)进一步包括步骤:
接收非本地用户所输入的文本信息,并对所述文本信息进行切词,形成至少一个类词;
将所述类词存储于预存词汇库;
根据所述用户输入的词条,基于所述预存词汇库,生成第三候选词集合。

4.
  根据权利要求2或3所述的方法,其中,将所述第二候选词集合和所述第三候选词集合进行加权,生成第一候选词集合。

5.
  根据权利要求1~4任意一项所述的方法,其中,所述词条是各种语言的字符、拼音中的一种或者它们的组合。

6.
  根据权利要求1或2所述的方法,其中,所述上下文场景为用户接收的短信或浏览的网页的上下文信息。

7.
  根据权利要求6所述的方法,其中,在所述上下文信息中出现的词条 优先出现在用户输入的第一候选词集合中。

8.
  一种基于上下文场景的输入候选词提示系统,其中,包括:
接收装置,用于接收用户输入的词条;
生成装置,用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及
提供装置,用于将所述第一候选词集合提供给所述用户。

9.
  根据权利要求8所述的系统,其中,所述生成装置进一步用于:
基于所述用户对所述词条输入的历史记录,生成第二候选词集合;
基于任意非本地的与所述词条相关的上下文场景,生成第三候选词集合;
根据所述第二候选词集合和所述第三候选词集合生成第一候选词集合。

10.
  根据权利要求9所述的系统,其中,所述生成装置还包括:
类词生成模块,用于接收非本地用户所输入的文本信息,并对所述文本信息进行切词,形成至少一个类词;
存储模块,用于将所述类词存储于预存词汇库;
生成模块,用于根据所述用户输入的词条,基于所述预存词汇库,生成第三候选词集合。

11.
  根据权利要求9或10所述的系统,其中,所述生成装置用于将所述第二候选词集合和所述第三候选词集合进行加权,生成第一候选词集合。

12.
  根据权利要求8~11任意一项所述的系统,其中,所述词条是各种语言的字符、拼音中的一种或者它们的组合。

13.
  根据权利要求8或9所述的系统,其中,所述上下文场景为用户接收的短信或浏览的网页的上下文信息。

14.
  根据权利要求8所述的系统,其中,在所述上下文信息中出现的词条优先出现在用户输入的第一候选词集合中。

说明书

一种基于上下文场景的输入候选词提示方法及系统
技术领域
本发明涉及输入法领域,具体地说涉及一种基于上下文场景的输入候选词提示方法及系统。
背景技术
不同的人因为兴趣、爱好、习惯不同,常用输入内容也各有不同。现有的输入法候选字提示忽略了用户的差异性,在相同的已输入字的情况下,候选词没有考虑用户的个性化信息,使得用户无法快捷、方便地查找到候选词。现有的输入法主要是以大规模词频统计方法为主,结合本地上下文情境来实现候选词概率统计和提示。目前的主流输入法能够对用户最近、最频繁的输入进行统计,加权优先显示用户的最近、最频繁的使用的词汇。
常用的输入法主要分为以下几类:
1、用于智能手机的输入法,可以结合手机特性,提供电话薄中姓名、电话的候选词提示或者用户指定固定的候选词。
2、根据词汇分类不同,可以提供某项领域的专有用词,如“股票代号”快速输入装置等。
3、结合设备属性进行候选词提示,通常用在互联网搜索时,参考输入法承载设备的型号、相应的功能等信息进行候选词提示。
4、利用多用户的个性化信息挖掘出用户特征、进行候选词提示,如,通过统计用户客户端的词表,挖掘出兴趣爱好一致的用户,建立相似度关系,从而将兴趣相近的用户词表推荐给其他用户。
但是目前常用的输入法只考虑了用户输入的上下文,忽略了用户所使用设备同时也是信息的接受者,接收到的信息对设备使用者的行为习惯的改变。以手机为例,当用户接收到短消息时,可能针对不同的短信进行回复不同的信息;当用户进行网页浏览时,可能针对互联网上不同页面使用回帖、搜索 等输入功能,因此用户使用的词汇会因当时的情境有所不同。在这种情况下,现有输入法并不能很好地为用户提供候选词。
发明内容
本发明提供一种基于上下文场景的输入候选词提示方法,用于通过统计用户的短信输入的历史信息,同时考虑非本地用户输入的上下文场景,弥补现有输入法的不足,提高候选词的“首字命中率”和“候选词命中率”,使得输入内容真正达到“个性化”。
根据本发明的一个方面,提供一种基于上下文场景的输入候选词提示方法,其中,包括以下步骤:
a)接收用户输入的词条;
b)基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及
c)将所述第一候选词集合提供给所述用户。
根据本发明的另一个方面,提供一种基于上下文场景的输入候选词提示系统,其中,包括:
接收装置,用于接收用户输入的词条;
生成装置,用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及
提供装置,用于将所述第一候选词集合提供给所述用户。
本发明提供的基于上下文场景的输入候选词提示方法及系统,本发明应用于各种具有上下文场景的可输入平台,所述上下文场景包含任何非本地用户输入的上下文场景。根据用户输入的词条,并结合对用户历史输入记录和所述上下文场景的分析,生成候选词集合,并将所述候选词集合提供给用户。本发明充分利用非本地用户资源信息,尤其是以移动通信设备为代表,如手机进行短信聊天时,如果能够考虑到上下文场景再生成候选词集合,将对用户的输入有很大的帮助,从而提高手机输入的候选首字命中率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明的一种基于上下文场景的输入候选词提示方法的一种具体实施方式的流程示意图;
图2为根据本发明的一种基于上下文场景的输入候选词提示系统的一种具体实施方式的结构示意图;
图3为本发明的一种基于上下文场景的输入候选词提示系统中的生成装置的一种具体实施方式的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施例作详细描述。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,图1为根据本发明提供的基于上下文场景的输入候选词提示方法的一个具体实施方式的流程示意图,包括步骤S101~S103,下面结合具体的实施例对图1所示的方法进行说明。
步骤S101,接收用户输入的词条。本发明的方法可以应用于任何可以装载输入法的设备中,所述设备包括但不限于:PC、笔记本电脑、PDA(个人 掌上电脑)、手机、平板电脑等终端,优选为能够装载输入法的手机。因此以下以手机为例进行阐释。
用户输入的词条可以是各种语言的字符、拼音中的一种或者它们的组合。例如:“百度”、“woxihuan”、“百度ditu”等等。
步骤S102,基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合。
优选的,可以首先基于所述用户对所述词条输入的历史记录,生成第二候选词集合。当接收到输入词条之后,需要对该词条进行语义分析,例如分析其词性,输入历史等,来确定候选词。例如:用户输入的词条为“开”,那么根据对该词条的分析,得知该词条通常情况下以动词词性出现,其后会出现一名词词性的词条,如:会、电脑、机等;根据输入历史,还会出现如:始、了、导等经常在词条“开”之后出现的词条。
对于某一词条的输入历史分析,除了对大多数用户的输入历史进行海量数据分析外,还需要结合本机输入法的使用情况,对候选词词条的顺序进行调整,以便能够更灵活地匹配个性化的用户需求。例如该用户为一心理咨询师,那么可能在输入完词条“开”之后,候选词的第一位即为“导”,之后为:电脑、机、始、了、会等;而当用户为一经常开会的人士时,那么在输入完词条“开”之后,候选词的第一位即为“会”,之后为:电脑、机、始、了、导等。对于本机输入法的使用历史的分析,可采取本机用户的账号信息、cookie等常用的分析手段进行。上述根据用户词条输入的历史记录的分析生成的候选词集合即为第二候选词集合。
此外,为了使候选词更加贴近用户需求,对于上下文情境的分析也很重要。随着互联网、以及无线通信的发展,信息交互越来越重要了,因此对于非本地的且与所述词条相关的上下文场景进行分析就至关重要,接下来基于任意非本地的与所述词条相关的上下文场景,生成第三候选词集合。例如,在通常情况下,用户输入词条“科”时,候选词通常是:技、学、目、长、室等等;而当用户在浏览一与NBA球员有关的网页时,那么当用户需要进行回帖、搜索等操作时,输入了词条“科”,第一候选词则为:比。又如:当用户在一足球网站进行浏览时,需要进行输入操作时,当用户输入了词条“贝” 时,候选词可能为:利、肯鲍尔、隆等。上述候选词集合即为第三候选词集合。
下面以智能手机编辑短信为例,进行说明。
用户A收到用户B的一条短信:“今天我去上地软件园了,那里很不错!”由于用户A并不知道“上地软件园”在哪里,因此想回复一条短信给用户B进行询问。但是因为“上地”不是一个常见词,即未登录词,当用户A输入“上”时,现有的候选词提示法根本无法将“地”设为候选词。因此,用户A需要分别输入“上”和“地”两个字。而本发明中的方法可以基于非本地的与所述词条相关的上下文场景提示候选词,因此本发明中的输入法可以将“地”作为候选词。
首先,根据每次用户输入信息,生成用户常用词表。计算以“上”开头的词出现的概率a。其次,接收非本地用户(用户B)所输入的文本信息,对所述文本信息进行切词,形成至少一个类词。即切分原短信内容,利用逆向最大匹配法,切分后结果为“今天\我\去\上\地\软件园\了”。之后将所述类词存储于预存词汇库,即将切分结果中连续两个单字组为一个词,存入预存词汇库,如“我去”、“去上”、“上地”等。其连续出现的概率值可以利用n-gram模型计算,假设“上地”出现的概率为b。再次,根据所述用户输入的词条,基于所述预存词汇库,生成第三候选词集合。由于用户A的回复输入有“上”那么会比较α·a与β·b的值,α与β是经过训练得到的参数,使得在候选提示框了优先考虑“地”,而不是传统的“上班”、“上车”、“上网”等。即,第三候选词集合可能为地、班、车、网等。优选地,对上下文中出现的新词条赋予更高的权重,使得这些上下文中出现的词条优先出现在用户输入的候选词集合中。
根据所述第二候选词集合和所述第三候选词生成第一候选词集合。优选的,将所述第二候选词集合和所述第三候选词集合进行加权,生成第一候选词集合。第二候选词集合和第三候选词集合的权重可以根据需求由用户进行设定。优选的,第三候选词集合的权重要高于第二候选词集合,通常情况下,第三候选词集合的首位候选词即为第一候选词集合的首位候选词。
步骤S103,将所述第一候选词集合提供给所述用户。上述步骤结束后, 可以得到与用户输入词条最相关的第一候选词集合,并将该第一候选词集合提供给用户,供用户选择。通常情况下,首位候选词会采用与其他候选词不同的显示,例如:反白、不同色等等。
参考图2,图2示出根据本发明的一种基于上下文场景的输入候选词提示系统10的一种具体实施方式的结构示意图。系统10包括:接收装置11、生成装置12和提供装置13。
接收装置11,用于接收用户输入的词条。本发明的系统可以应用于任何可以装载输入法的设备中,所述设备包括但不限于:PC、笔记本电脑、PDA(个人掌上电脑)、手机、平板电脑等终端,优选为能够装载输入法的手机。因此以下以手机为例进行阐释。
用户输入的词条可以是各种语言的字符、拼音中的一种或者它们的组合。例如:“百度”、“woxihuan”、“百度ditu”等等。
生成装置12,用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合。
优选的,生成装置12可以进一步用于,首先基于所述用户对所述词条输入的历史记录,生成第二候选词集合。当接收到输入词条之后,需要对该词条进行语义分析,例如分析其词性,输入历史等,来确定候选词。例如:用户输入的词条为“开”,那么根据对该词条的分析,得知该词条通常情况下以动词词性出现,其后会出现一名词词性的词条,如:会、电脑、机等,根据输入历史,还会出现如:始、了、导等经常在词条“开”之后出现的词条。
对于某一词条的输入历史分析,除了对大多数用户的输入历史进行海量数据分析外,还需要结合本机输入法的使用情况,对候选词词条的顺序进行调整,以便能够更灵活地匹配个性化的用户需求。例如该用户为一心理咨询师,那么可能在输入完词条“开”之后,候选词的第一位即为“导”,之后为电脑、机、始、了、会等;而当用户为一经常开会的人士时,那么在输入完词条“开”之后,候选词的第一位即为“会”,之后为电脑、机、始、了、导等。对于本机输入法的使用历史的分析,可采取本机用户的账号信息、cookie等常用的分析手段进行。上述根据用户词条输入的历史记录的分析生成的候选词集合即为第二候选词集合。
此外,为了使候选词更加贴近用户需求,对于上下文情境的分析也很重要。随着互联网、以及无线通信的发展,信息交互越来越重要了,因此对于非本地的且与所述词条相关的上下文场景进行分析就至关重要,接下来生成装置12,用于基于任意非本地的与所述词条相关的上下文场景,生成第三候选词集合。例如,在通常情况下,用户输入词条“科”时,候选词通常是:技、学、目、长、室等等;而当用户在浏览一与NBA球员有关的网页时,那么当用户需要进行回帖、搜索等操作时,输入了词条“科”,第一候选词则为:比。又如:当用户在一足球网站进行浏览时,需要进行输入操作时,当用户输入了词条“贝”时,候选词可能为:利、肯鲍尔、隆等。上述候选词集合即为第三候选词集合。
下面以智能手机编辑短信为例,进行说明。
用户A收到用户B的一条短信:“今天我去上地软件园了,那里很不错!”由于用户A并不知道上地软件园在哪里,因此想回复一条短信给用户B进行询问。但是因为“上地”不是一个常见词,即未登录词,当用户A输入“上”时,现有的候选词提示法根本无法将“地”设为候选词。因此,用户A需要分别输入“上”和“地”两个字。而本发明中的方法可以基于非本地的与所述词条相关的上下文场景提示候选词,因此本发明中的输入法可以将“地”作为候选词。
系统10会根据每次用户输入信息,生成用户常用词表。如计算以“上”开头的词出现的概率a。参考图3,生成装置12还包括:类词生成模块121、存储模块122和生成模块123。所述类词生成模块121用于接收非本地用户(用户B)所输入的文本信息,对所述文本信息进行切词,形成至少一个类词。即切分原短信内容,利用逆向最大匹配法,切分后结果为“今天\我\去\上\地\软件园\了”。存储模块122用于将所述类词存储于预存词汇库,即将切分结果中连续两个单字组为一个词,存入预存词汇库,如“我去”、“去上”、“上地”等。其连续出现的概率值可以利用n-gram模型计算,假设“上地”出现的概率为b。生成模块123,用于根据所述用户输入的词条,基于所述预存词汇库,生成第三候选词集合。由于用户A的回复输入有“上”那么会比较α·a与β·b的值,α与β是经过训练得到的参数,使得在候选提示框了优先考虑“地”, 而不是传统的“上班”、“上车”、“上网”等。即,第三候选词集合可能为地、班、车、网等。优选地,对上下文中出现的新词条赋予更高的权重,使得这些上下文中出现的词条优先出现在用户输入的候选词集合中。
进一步地,生成装置12用于根据所述第二候选词集合和所述第三候选词生成第一候选词集合。优选的,将所述第二候选词集合和所述第三候选词集合进行加权,生成第一候选词集合。第二候选词集合和第三候选词集合的权重可以根据需求由用户进行设定。优选的,第三候选词集合的权重要高于第二候选词集合,通常情况下,第三候选词集合的首位候选词即为第一候选词集合的首位候选词。
提供装置13,用于将所述第一候选词集合提供给所述用户。上述步骤结束后,可以得到与用户输入词条最相关的第一候选词集合,并将该第一候选词集合提供给用户,供用户选择。通常情况下,首位候选词会采用与其他候选词不同的显示,例如:反白、不同色等等。
采用本发明的方法和系统,可以充分利用非本地上下文场景进行候选词推荐,有效提高输入过程中的候选词命中率。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。

一种基于上下文场景的输入候选词提示方法及系统.pdf_第1页
第1页 / 共11页
一种基于上下文场景的输入候选词提示方法及系统.pdf_第2页
第2页 / 共11页
一种基于上下文场景的输入候选词提示方法及系统.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《一种基于上下文场景的输入候选词提示方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种基于上下文场景的输入候选词提示方法及系统.pdf(11页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103365833 A(43)申请公布日 2013.10.23CN103365833A*CN103365833A*(21)申请号 201210086810.4(22)申请日 2012.03.28G06F 17/27(2006.01)G06F 3/023(2006.01)(71)申请人百度在线网络技术(北京)有限公司地址 100085 北京市海淀区上地十街10号百度大厦(72)发明人李静(74)专利代理机构北京汉昊知识产权代理事务所(普通合伙) 11370代理人朱海波 韩剑伟(54) 发明名称一种基于上下文场景的输入候选词提示方法及系统(57) 摘要本发明提供一种基于上。

2、下文场景的输入候选词提示方法,包括:接收用户输入的词条;基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及将所述第一候选词集合提供给所述用户。本发明还提供一种用于该方法的系统。本发明充分利用上下文场景进行候选词推荐,有效提高了输入过程中的候选首词命中率。(51)Int.Cl.权利要求书2页 说明书6页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书6页 附图2页(10)申请公布号 CN 103365833 ACN 103365833 A1/2页21.一种基于上下文场景的输入候选词提示方法,其中,包括以下步骤。

3、:a)接收用户输入的词条;b)基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及c)将所述第一候选词集合提供给所述用户。2.根据权利要求1所述的方法,其中,所述步骤b)进一步包括步骤:基于所述用户对所述词条输入的历史记录,生成第二候选词集合;基于任意非本地的与所述词条相关的上下文场景,生成第三候选词集合;根据所述第二候选词集合和所述第三候选词集合生成第一候选词集合。3.根据权利要求2所述的方法,其中,所述步骤b)进一步包括步骤:接收非本地用户所输入的文本信息,并对所述文本信息进行切词,形成至少一个类词;将所述类词存储于预存词汇库;根据所述用户输入。

4、的词条,基于所述预存词汇库,生成第三候选词集合。4.根据权利要求2或3所述的方法,其中,将所述第二候选词集合和所述第三候选词集合进行加权,生成第一候选词集合。5.根据权利要求14任意一项所述的方法,其中,所述词条是各种语言的字符、拼音中的一种或者它们的组合。6.根据权利要求1或2所述的方法,其中,所述上下文场景为用户接收的短信或浏览的网页的上下文信息。7.根据权利要求6所述的方法,其中,在所述上下文信息中出现的词条优先出现在用户输入的第一候选词集合中。8.一种基于上下文场景的输入候选词提示系统,其中,包括:接收装置,用于接收用户输入的词条;生成装置,用于基于所述用户对所述词条的输入历史和任意非。

5、本地的与所述词条相关的上下文场景,生成第一候选词集合;以及提供装置,用于将所述第一候选词集合提供给所述用户。9.根据权利要求8所述的系统,其中,所述生成装置进一步用于:基于所述用户对所述词条输入的历史记录,生成第二候选词集合;基于任意非本地的与所述词条相关的上下文场景,生成第三候选词集合;根据所述第二候选词集合和所述第三候选词集合生成第一候选词集合。10.根据权利要求9所述的系统,其中,所述生成装置还包括:类词生成模块,用于接收非本地用户所输入的文本信息,并对所述文本信息进行切词,形成至少一个类词;存储模块,用于将所述类词存储于预存词汇库;生成模块,用于根据所述用户输入的词条,基于所述预存词汇。

6、库,生成第三候选词集合。11.根据权利要求9或10所述的系统,其中,所述生成装置用于将所述第二候选词集合和所述第三候选词集合进行加权,生成第一候选词集合。权 利 要 求 书CN 103365833 A2/2页312.根据权利要求811任意一项所述的系统,其中,所述词条是各种语言的字符、拼音中的一种或者它们的组合。13.根据权利要求8或9所述的系统,其中,所述上下文场景为用户接收的短信或浏览的网页的上下文信息。14.根据权利要求8所述的系统,其中,在所述上下文信息中出现的词条优先出现在用户输入的第一候选词集合中。权 利 要 求 书CN 103365833 A1/6页4一种基于上下文场景的输入候选。

7、词提示方法及系统技术领域0001 本发明涉及输入法领域,具体地说涉及一种基于上下文场景的输入候选词提示方法及系统。背景技术0002 不同的人因为兴趣、爱好、习惯不同,常用输入内容也各有不同。现有的输入法候选字提示忽略了用户的差异性,在相同的已输入字的情况下,候选词没有考虑用户的个性化信息,使得用户无法快捷、方便地查找到候选词。现有的输入法主要是以大规模词频统计方法为主,结合本地上下文情境来实现候选词概率统计和提示。目前的主流输入法能够对用户最近、最频繁的输入进行统计,加权优先显示用户的最近、最频繁的使用的词汇。0003 常用的输入法主要分为以下几类:0004 1、用于智能手机的输入法,可以结合。

8、手机特性,提供电话薄中姓名、电话的候选词提示或者用户指定固定的候选词。0005 2、根据词汇分类不同,可以提供某项领域的专有用词,如“股票代号”快速输入装置等。0006 3、结合设备属性进行候选词提示,通常用在互联网搜索时,参考输入法承载设备的型号、相应的功能等信息进行候选词提示。0007 4、利用多用户的个性化信息挖掘出用户特征、进行候选词提示,如,通过统计用户客户端的词表,挖掘出兴趣爱好一致的用户,建立相似度关系,从而将兴趣相近的用户词表推荐给其他用户。0008 但是目前常用的输入法只考虑了用户输入的上下文,忽略了用户所使用设备同时也是信息的接受者,接收到的信息对设备使用者的行为习惯的改变。

9、。以手机为例,当用户接收到短消息时,可能针对不同的短信进行回复不同的信息;当用户进行网页浏览时,可能针对互联网上不同页面使用回帖、搜索等输入功能,因此用户使用的词汇会因当时的情境有所不同。在这种情况下,现有输入法并不能很好地为用户提供候选词。发明内容0009 本发明提供一种基于上下文场景的输入候选词提示方法,用于通过统计用户的短信输入的历史信息,同时考虑非本地用户输入的上下文场景,弥补现有输入法的不足,提高候选词的“首字命中率”和“候选词命中率”,使得输入内容真正达到“个性化”。0010 根据本发明的一个方面,提供一种基于上下文场景的输入候选词提示方法,其中,包括以下步骤:0011 a)接收用。

10、户输入的词条;0012 b)基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及0013 c)将所述第一候选词集合提供给所述用户。说 明 书CN 103365833 A2/6页50014 根据本发明的另一个方面,提供一种基于上下文场景的输入候选词提示系统,其中,包括:0015 接收装置,用于接收用户输入的词条;0016 生成装置,用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合;以及0017 提供装置,用于将所述第一候选词集合提供给所述用户。0018 本发明提供的基于上下文场景的输入候选词提示方法及系。

11、统,本发明应用于各种具有上下文场景的可输入平台,所述上下文场景包含任何非本地用户输入的上下文场景。根据用户输入的词条,并结合对用户历史输入记录和所述上下文场景的分析,生成候选词集合,并将所述候选词集合提供给用户。本发明充分利用非本地用户资源信息,尤其是以移动通信设备为代表,如手机进行短信聊天时,如果能够考虑到上下文场景再生成候选词集合,将对用户的输入有很大的帮助,从而提高手机输入的候选首字命中率。附图说明0019 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:0020 图1为根据本发明的一种基于上下文场景的输入候选词提示方法的一种具体实施。

12、方式的流程示意图;0021 图2为根据本发明的一种基于上下文场景的输入候选词提示系统的一种具体实施方式的结构示意图;0022 图3为本发明的一种基于上下文场景的输入候选词提示系统中的生成装置的一种具体实施方式的结构示意图。0023 附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式0024 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施例作详细描述。0025 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为。

13、对本发明的限制。0026 下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。0027 如图1所示,图1为根据本发明提供的基于上下文场景的输入候选词提示方法的一个具体实施方式的流程示意图,包括步骤S101S103,下面结合具体的。

14、实施例对图1所示的方法进行说明。说 明 书CN 103365833 A3/6页60028 步骤S101,接收用户输入的词条。本发明的方法可以应用于任何可以装载输入法的设备中,所述设备包括但不限于:PC、笔记本电脑、PDA(个人掌上电脑)、手机、平板电脑等终端,优选为能够装载输入法的手机。因此以下以手机为例进行阐释。0029 用户输入的词条可以是各种语言的字符、拼音中的一种或者它们的组合。例如:“百度”、“woxihuan”、“百度ditu”等等。0030 步骤S102,基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合。0031 优选的,可以首先基于所。

15、述用户对所述词条输入的历史记录,生成第二候选词集合。当接收到输入词条之后,需要对该词条进行语义分析,例如分析其词性,输入历史等,来确定候选词。例如:用户输入的词条为“开”,那么根据对该词条的分析,得知该词条通常情况下以动词词性出现,其后会出现一名词词性的词条,如:会、电脑、机等;根据输入历史,还会出现如:始、了、导等经常在词条“开”之后出现的词条。0032 对于某一词条的输入历史分析,除了对大多数用户的输入历史进行海量数据分析外,还需要结合本机输入法的使用情况,对候选词词条的顺序进行调整,以便能够更灵活地匹配个性化的用户需求。例如该用户为一心理咨询师,那么可能在输入完词条“开”之后,候选词的第。

16、一位即为“导”,之后为:电脑、机、始、了、会等;而当用户为一经常开会的人士时,那么在输入完词条“开”之后,候选词的第一位即为“会”,之后为:电脑、机、始、了、导等。对于本机输入法的使用历史的分析,可采取本机用户的账号信息、cookie等常用的分析手段进行。上述根据用户词条输入的历史记录的分析生成的候选词集合即为第二候选词集合。0033 此外,为了使候选词更加贴近用户需求,对于上下文情境的分析也很重要。随着互联网、以及无线通信的发展,信息交互越来越重要了,因此对于非本地的且与所述词条相关的上下文场景进行分析就至关重要,接下来基于任意非本地的与所述词条相关的上下文场景,生成第三候选词集合。例如,在。

17、通常情况下,用户输入词条“科”时,候选词通常是:技、学、目、长、室等等;而当用户在浏览一与NBA球员有关的网页时,那么当用户需要进行回帖、搜索等操作时,输入了词条“科”,第一候选词则为:比。又如:当用户在一足球网站进行浏览时,需要进行输入操作时,当用户输入了词条“贝”时,候选词可能为:利、肯鲍尔、隆等。上述候选词集合即为第三候选词集合。0034 下面以智能手机编辑短信为例,进行说明。0035 用户A收到用户B的一条短信:“今天我去上地软件园了,那里很不错!”由于用户A并不知道“上地软件园”在哪里,因此想回复一条短信给用户B进行询问。但是因为“上地”不是一个常见词,即未登录词,当用户A输入“上”。

18、时,现有的候选词提示法根本无法将“地”设为候选词。因此,用户A需要分别输入“上”和“地”两个字。而本发明中的方法可以基于非本地的与所述词条相关的上下文场景提示候选词,因此本发明中的输入法可以将“地”作为候选词。0036 首先,根据每次用户输入信息,生成用户常用词表。计算以“上”开头的词出现的概率a。其次,接收非本地用户(用户B)所输入的文本信息,对所述文本信息进行切词,形成至少一个类词。即切分原短信内容,利用逆向最大匹配法,切分后结果为“今天我去上地软件园了”。之后将所述类词存储于预存词汇库,即将切分结果中连续两个单字组为一个词,存入预存词汇库,如“我去”、“去上”、“上地”等。其连续出现的概。

19、率值可以说 明 书CN 103365833 A4/6页7利用n-gram模型计算,假设“上地”出现的概率为b。再次,根据所述用户输入的词条,基于所述预存词汇库,生成第三候选词集合。由于用户A的回复输入有“上”那么会比较a与b的值,与是经过训练得到的参数,使得在候选提示框了优先考虑“地”,而不是传统的“上班”、“上车”、“上网”等。即,第三候选词集合可能为地、班、车、网等。优选地,对上下文中出现的新词条赋予更高的权重,使得这些上下文中出现的词条优先出现在用户输入的候选词集合中。0037 根据所述第二候选词集合和所述第三候选词生成第一候选词集合。优选的,将所述第二候选词集合和所述第三候选词集合进行。

20、加权,生成第一候选词集合。第二候选词集合和第三候选词集合的权重可以根据需求由用户进行设定。优选的,第三候选词集合的权重要高于第二候选词集合,通常情况下,第三候选词集合的首位候选词即为第一候选词集合的首位候选词。0038 步骤S103,将所述第一候选词集合提供给所述用户。上述步骤结束后,可以得到与用户输入词条最相关的第一候选词集合,并将该第一候选词集合提供给用户,供用户选择。通常情况下,首位候选词会采用与其他候选词不同的显示,例如:反白、不同色等等。0039 参考图2,图2示出根据本发明的一种基于上下文场景的输入候选词提示系统10的一种具体实施方式的结构示意图。系统10包括:接收装置11、生成装。

21、置12和提供装置13。0040 接收装置11,用于接收用户输入的词条。本发明的系统可以应用于任何可以装载输入法的设备中,所述设备包括但不限于:PC、笔记本电脑、PDA(个人掌上电脑)、手机、平板电脑等终端,优选为能够装载输入法的手机。因此以下以手机为例进行阐释。0041 用户输入的词条可以是各种语言的字符、拼音中的一种或者它们的组合。例如:“百度”、“woxihuan”、“百度ditu”等等。0042 生成装置12,用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景,生成第一候选词集合。0043 优选的,生成装置12可以进一步用于,首先基于所述用户对所述词条输入的历史。

22、记录,生成第二候选词集合。当接收到输入词条之后,需要对该词条进行语义分析,例如分析其词性,输入历史等,来确定候选词。例如:用户输入的词条为“开”,那么根据对该词条的分析,得知该词条通常情况下以动词词性出现,其后会出现一名词词性的词条,如:会、电脑、机等,根据输入历史,还会出现如:始、了、导等经常在词条“开”之后出现的词条。0044 对于某一词条的输入历史分析,除了对大多数用户的输入历史进行海量数据分析外,还需要结合本机输入法的使用情况,对候选词词条的顺序进行调整,以便能够更灵活地匹配个性化的用户需求。例如该用户为一心理咨询师,那么可能在输入完词条“开”之后,候选词的第一位即为“导”,之后为电脑。

23、、机、始、了、会等;而当用户为一经常开会的人士时,那么在输入完词条“开”之后,候选词的第一位即为“会”,之后为电脑、机、始、了、导等。对于本机输入法的使用历史的分析,可采取本机用户的账号信息、cookie等常用的分析手段进行。上述根据用户词条输入的历史记录的分析生成的候选词集合即为第二候选词集合。0045 此外,为了使候选词更加贴近用户需求,对于上下文情境的分析也很重要。随着互联网、以及无线通信的发展,信息交互越来越重要了,因此对于非本地的且与所述词条相关的上下文场景进行分析就至关重要,接下来生成装置12,用于基于任意非本地的与所述词说 明 书CN 103365833 A5/6页8条相关的上下。

24、文场景,生成第三候选词集合。例如,在通常情况下,用户输入词条“科”时,候选词通常是:技、学、目、长、室等等;而当用户在浏览一与NBA球员有关的网页时,那么当用户需要进行回帖、搜索等操作时,输入了词条“科”,第一候选词则为:比。又如:当用户在一足球网站进行浏览时,需要进行输入操作时,当用户输入了词条“贝”时,候选词可能为:利、肯鲍尔、隆等。上述候选词集合即为第三候选词集合。0046 下面以智能手机编辑短信为例,进行说明。0047 用户A收到用户B的一条短信:“今天我去上地软件园了,那里很不错!”由于用户A并不知道上地软件园在哪里,因此想回复一条短信给用户B进行询问。但是因为“上地”不是一个常见词。

25、,即未登录词,当用户A输入“上”时,现有的候选词提示法根本无法将“地”设为候选词。因此,用户A需要分别输入“上”和“地”两个字。而本发明中的方法可以基于非本地的与所述词条相关的上下文场景提示候选词,因此本发明中的输入法可以将“地”作为候选词。0048 系统10会根据每次用户输入信息,生成用户常用词表。如计算以“上”开头的词出现的概率a。参考图3,生成装置12还包括:类词生成模块121、存储模块122和生成模块123。所述类词生成模块121用于接收非本地用户(用户B)所输入的文本信息,对所述文本信息进行切词,形成至少一个类词。即切分原短信内容,利用逆向最大匹配法,切分后结果为“今天我去上地软件园。

26、了”。存储模块122用于将所述类词存储于预存词汇库,即将切分结果中连续两个单字组为一个词,存入预存词汇库,如“我去”、“去上”、“上地”等。其连续出现的概率值可以利用n-gram模型计算,假设“上地”出现的概率为b。生成模块123,用于根据所述用户输入的词条,基于所述预存词汇库,生成第三候选词集合。由于用户A的回复输入有“上”那么会比较a与b的值,与是经过训练得到的参数,使得在候选提示框了优先考虑“地”,而不是传统的“上班”、“上车”、“上网”等。即,第三候选词集合可能为地、班、车、网等。优选地,对上下文中出现的新词条赋予更高的权重,使得这些上下文中出现的词条优先出现在用户输入的候选词集合中。。

27、0049 进一步地,生成装置12用于根据所述第二候选词集合和所述第三候选词生成第一候选词集合。优选的,将所述第二候选词集合和所述第三候选词集合进行加权,生成第一候选词集合。第二候选词集合和第三候选词集合的权重可以根据需求由用户进行设定。优选的,第三候选词集合的权重要高于第二候选词集合,通常情况下,第三候选词集合的首位候选词即为第一候选词集合的首位候选词。0050 提供装置13,用于将所述第一候选词集合提供给所述用户。上述步骤结束后,可以得到与用户输入词条最相关的第一候选词集合,并将该第一候选词集合提供给用户,供用户选择。通常情况下,首位候选词会采用与其他候选词不同的显示,例如:反白、不同色等等。

28、。0051 采用本发明的方法和系统,可以充分利用非本地上下文场景进行候选词推荐,有效提高输入过程中的候选词命中率。0052 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有说 明 书CN 103365833 A6/6页9变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。说 明 书CN 103365833 A1/2页10图1图2说 明 书 附 图CN 103365833 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1