词条的获取方法及装置.pdf

摘要
申请专利号：	CN201410047094.8	申请日：	2014.02.11
公开号：	CN103823849A	公开日：	2014.05.28
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回 IPC(主分类):G06F 17/30申请公布日:20140528\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20140211\|\|\|公开
IPC分类号：	G06F17/30; G06F3/01	主分类号：	G06F17/30
申请人：	百度在线网络技术(北京)有限公司
发明人：	陈晓昕; 吴先超; 肖日新
地址：	100085 北京市海淀区上地十街10号百度大厦
优先权：
专利代理机构：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	袁媛
PDF下载：	PDF下载

内容摘要

本发明提供一种词条的获取方法及装置。本发明实施例通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和/或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和/或热词，从而提高了词条获取的及时性。

权利要求书

权利要求书
1.  一种词条的获取方法，其特征在于，包括：
对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；
获取所述感兴趣区域内的文本信息；
对所述文本信息进行切词操作，以获得候选词条；
选择至少一个候选词条，以作为新词和/或热词。

2.  根据权利要求1所述的方法，其特征在于，所述对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，包括：
获取所述眼球的视频信息；
根据所述视频信息，确定所述眼球的位置区域；
根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；
根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。

3.  根据权利要求2所述的方法，其特征在于，所述根据所述眼球的位置和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域，包括：
将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；
若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。

4.  根据权利要求3所述的方法，其特征在于，所述关注条件包括关注时间和关注频次中的至少一项。

5.  根据权利要求1～4任一权利要求所述的方法，其特征在于，所述选择至少一个候选词条，以作为新词和/或热词，包括：
将没有出现在预先配置的输入法字典中的候选词条确定为新词。

6.  根据权利要求1～4任一权利要求所述的方法，其特征在于，所述选择至少一个候选词条，以作为新词和/或热词，包括：
将出现在预先配置的输入法字典中的候选词条，确定为候选热词；
根据所述候选热词出现的词频，确定所述候选热词的热度值；
将热度值大于或等于热度阈值的候选热词，确定为热词。

7.  一种词条的获取装置，其特征在于，包括：
跟踪单元，用于对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；
获取单元，用于获取所述感兴趣区域内的文本信息；
切词单元，用于对所述文本信息进行切词操作，以获得候选词条；
选择单元，用于选择至少一个候选词条，以作为新词和/或热词。

8.  根据权利要求7所述的装置，其特征在于，所述跟踪单元，具体用于
获取所述眼球的视频信息；
根据所述视频信息，确定所述眼球的位置区域；
根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；以及
根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。

9.  根据权利要求8所述的装置，其特征在于，所述跟踪单元，具体用于
将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；以及
若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。

10.  根据权利要求9所述的装置，其特征在于，所述关注条件包括关注时间和关注频次中的至少一项。

11.  根据权利要求7～10任一权利要求所述的装置，其特征在于，所述选择单元，具体用于
将没有出现在预先配置的输入法字典中的候选词条确定为新词。

12.  根据权利要求7～10任一权利要求所述的装置，其特征在于，所述选择单元，具体用于
将出现在预先配置的输入法字典中的候选词条，确定为候选热词；
根据所述候选热词出现的词频，确定所述候选热词的热度值；以及
将热度值大于或等于热度阈值的候选热词，确定为热词。

说明书

说明书词条的获取方法及装置
【技术领域】
本发明涉及输入法技术，尤其涉及一种词条的获取方法及装置。
【背景技术】
输入法，是指为将各种字符输入终端而采用的编码方法，不同语言、国家、或地区，有多种不同的输入法，例如，搜狗拼音输入法、百度输入法、QQ拼音输入法等。一般来说，输入法软件的客户端可以采用加载的字典即词库和字典中包含的词频，向用户展现各类候选词条的排序，以方便用户的输入。现有技术中，为了满足用户的输入需求，通过服务器定期采集词条和词条的使用频率即词频，以更新各类专业字典，例如，将新出现的词条识别为新词添加到字典中，或者，再例如，将一些使用频率高的词条识别为热词，等。
然而，在一些情况下，新词和/或热词会大量涌现，例如，网络语言的出现如酱紫（这样子）、表（不要）、杯具（悲剧）等，或者，再例如，突发事件如台风海燕，等，现有的技术方案无法及时地将这些新词和/或热词识别出来更新输入法所加载的各类专业字典即输入法字典，从而导致了词条获取的及时性的降低。
【发明内容】
本发明的多个方面提供一种词条的获取方法及装置，用以提高词条获取的及时性。
本发明的一方面，提供一种词条的获取方法，包括：
对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；
获取所述感兴趣区域内的文本信息；
对所述文本信息进行切词操作，以获得候选词条；
选择至少一个候选词条，以作为新词和/或热词。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，包括：
获取所述眼球的视频信息；
根据所述视频信息，确定所述眼球的位置区域；
根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；
根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述眼球的位置和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域，包括：
将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；
若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述关注条件包括关注时间和关注频次中的至少一项。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择至少一个候选词条，以作为新词和/或热词，包括：
将没有出现在预先配置的输入法字典中的候选词条确定为新词。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择至少一个候选词条，以作为新词和/或热词，包括：
将出现在预先配置的输入法字典中的候选词条，确定为候选热词；
根据所述候选热词出现的词频，确定所述候选热词的热度值；
将热度值大于或等于热度阈值的候选热词，确定为热词。
本发明的一方面，提供一种词条的获取装置，包括：
跟踪单元，用于对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；
获取单元，用于获取所述感兴趣区域内的文本信息；
切词单元，用于对所述文本信息进行切词操作，以获得候选词条；
选择单元，用于选择至少一个候选词条，以作为新词和/或热词。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述跟踪单元，具体用于
获取所述眼球的视频信息；
根据所述视频信息，确定所述眼球的位置区域；
根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；以及
根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述跟踪单元，具体用于
将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；以及
若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述关注条件包括关注时间和关注频次中的至少一项。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择单元，具体用于
将没有出现在预先配置的输入法字典中的候选词条确定为新词。
如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择单元，具体用于
将出现在预先配置的输入法字典中的候选词条，确定为候选热词；
根据所述候选热词出现的词频，确定所述候选热词的热度值；以及
将热度值大于或等于热度阈值的候选热词，确定为热词。
由上述技术方案可知，本发明实施例通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和/或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和/或热词，从而提高了词条获取的及时性。
另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和/或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的词条的获取方法的流程示意图；
图2为本发明另一实施例提供的词条的获取装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。
需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理（Personal Digital Assistant，PDA）、无线手持设备、平板电脑（Tablet Computer）、个人电脑（Personal Computer，PC）、MP3播放器、MP4播放器等。
另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的词条的获取方法的流程示意图，如图1所示。
101、对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域。
可选地，在本实施例的一个可能的实现方式中，在101中，具体可以在用户界面上对用户的眼球进行跟踪操作。其中，所述用户界面可以为终端所显示的万维网（World Wide Web，Web）页面，或者还可以为终端所显示的应用文档，例如，电子邮件、WORD文档、TXT文档、PDF文档等，本发明对此不进行特别限定。
102、获取所述感兴趣区域内的文本信息。
103、对所述文本信息进行切词操作，以获得候选词条。
104、选择至少一个候选词条，以作为新词和/或热词。
需要说明的是，101～104的执行主体可以是识别装置，可以位于本地的客户端中，以进行离线识别，或者还可以位于网络侧的服务器中，以进行在线识别，或者也可以部分功能位于客户端中，部分功能位于服务器中，以进行离线与在线结合识别，本实施例对此不进行限定。
可以理解的是，所述客户端可以是安装在终端上的输入法应用程序，或者还可以是浏览器的一个网页，只要能够实现词条获取，以提供识别新词和/或热词的客观存在形式都可以，本实施例对此不进行限定。
这样，通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和/或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和/或热词，从而提高了词条获取的及时性。
另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和/或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。
可选地，在本实施例的一个可能的实现方式中，在101中，具体可以获取所述眼球的视频信息。其中，所述眼球的视频信息可以由若干帧图像组成，可以利用摄像头进行采集。进而，根据所述视频信息，确定所述眼球的位置区域。然后，根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域。由于人眼球的运动弧度范围在一个固定区间内，因此，可以根据该视频信息确定眼球对应的可运动路径。该运动路径可以是一个精确的值，也可以是一个运动区间。通过该可运动路径，可以进一步计算出基于该可运动路劲的可到达面积，该可到达面积即为所述眼球的可移动区域。最后，则可以根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。
具体地，可以将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域。若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。
其中，所述关注条件可以包括但不限于关注时间和关注频次中的至少一项。
例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留时间大于或等于3秒，则可以确定所述眼球的关注区域为所述用户的感兴趣区域。
或者，再例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留次数大于或等于2次，或2次/分钟，则可以确定所述眼球的关注区域为所述用户的感兴趣区域。
可选地，在本实施例的一个可能的实现方式中，在102中，具体可以采用现有技术中的各种文本识别方法，获取所述感兴趣区域内的文本信息，本发明对此不进行特别限定。
例如，可以获取所述感兴趣区域在具有文本信息的用户界面上包围的局部屏幕截图，然后，则可以对获取到的局部屏幕截图进行文本识别，以获取到所述感兴趣区域内的文本信息。
或者，再例如，可以获取所述感兴趣区域的位置信息，根据该位置信息，确定对应的文本信息，以作为所述感兴趣区域内的文本信息。
另外，文本识别的详细描述可以参见现有技术中的相关内容，此处不再赘述。
可选地，在本实施例的一个可能的实现方式中，在103中，具体可以采用现有技术中的各种切词方法，对所获取到的文本信息进行切词操作。例如，基于字符串匹配的分词方法，或者，再例如，基于理解的分词方法，或者，再例如，基于统计的分词方法，本发明对此不进行特别限定。切词方法的详细描述可以参见现有技术中的相关内容，此处不再赘述。
可选地，在本实施例的一个可能的实现方式中，在104中，具体可以将没有出现在预先配置的输入法字典中的候选词条确定为新词。
具体地，可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词条没有出现在预先配置的输入法字典中，则可以将该候选词条确定为新词。
需要说明的是，预先配置的输入法字典可以配置在网络侧的服务器，或者还可以配置在本地的客户端，本实施例对此不进行特别限定。
可选地，在本实施例的一个可能的实现方式中，在104中，具体可以将出现在预先配置的输入法字典中的候选词条，确定为候选热词。进而，根据所述候选热词出现的词频，确定所述候选热词的热度值。然后，则可以将热度值大于或等于热度阈值的候选热词，确定为热词。
具体地，可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词条已经出现在预先配置的输入法字典中，则可以将该候选词条标记为候选热词。然后，可以根据所述输入法字典，获取候选热词在指定时间范围之内出现的词频，并根据该词频，确定所述候选热词的热度值。最后，则可以将热度值大于或等于热度阈值的候选热词，确定为热词。
例如，具体可以根据公式，即候选热词的热度值=（所有候选热词的平均得分*所有候选热词的平均词频+候选热词的得分*候选热词在总统计时间内的总词频）/（所有候选热词的平均词频+候选热词在总统计时间内的总词频），确定候选热词的热度值。其中，
候选热词的得分=候选热词在最近一个单位统计时间内的词频/候选热词在总统计时间内的总词频。
以下结合具体的实施例对上述实施过程进行详细说明，假设四个候选热词即候选热词A、候选热词B、候选热词C和候选热词D，以及单位统计时间为一天，总统计时间为两天。在2013-12-18和2013-12-19这两天内出现的词频如下表所示：

从表格中显示的数据可以看出，根据2013-12-18和2013-12-19这两天的历史数据分别计算出这四个候选热词的得分分别为0.74、0.52、0.8、0.82。此时，可假设已经有320个人预先给每个词都打了0.72分，候选热词A还有额外的135个人打分，每个人都给了0.74分，按照前面所述的计算公式，这四个候选热词的热度值分别可以为：
A：(0.72*320+0.74*135)/(320+135)=0.725
B：(0.72*320+0.52*290)/(320+290)=0.625
C：(0.72*320+0.8*5)/(320+5)=0.721
D：(0.72*320+0.82*850)/(320+850)=0.793
按照热度值，从大到小排序如下：
D>A>C>B
可以看出，候选热词D出现的频率最高，因此排名也最靠前，如果该候选热词的热度值不小于预先设置的热度阈值，则可以将候选热词D确定为热词。
可以理解的是，在识别出新词和/或热词之后，还可以进一步利用这些词条更新本地的输入法字典，或者还可以进一步利用这些词条更新云端（网络侧）的输入法字典，本实施例对此不进行特别限定。具体可以采用所统计的Ngram信息和/或Npos信息中的至少一项，更新本地的输入法字典或云端的输入法字典，详细描述可以参见现有技术中的相关内容，此处不再赘述。
可以理解的是，本实施例提供的技术方案，不仅可以针对一个用户，识别出新词和/或热词，还可以进一步针对多个用户，对多个用户的识别结果进行有效的整理和分析，以获得针对多个用户的新词和/或热词。
可选地，在本实施例的一个可能的实现方式中，在104之后，还可以进一步对所选择的新词和/或热词进行特殊展现。例如，可以给这些新词和/或热词增加图标标识；或者，再例如，可以在特殊的候选位置展现这些新词和/或热词。
本实施例中，通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和/或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和/或热词，从而提高了词条获取的及时性。
另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和/或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的词条的获取装置的结构示意图，如图2所示。本实施例的词条的获取装置可以包括跟踪单元21、获取单元22、切词单元23和选择单元24。其中，跟踪单元21，用于对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；获取单元22，用于获取所述感兴趣区域内的文本信息；切词单元23，用于对所述文本信息进行切词操作，以获得候选词条；选择单元24，用于选择至少一个候选词条，以作为新词和/或热词。
需要说明的是，本实施例提供的词条的获取装置，可以位于本地的客户端中，以进行离线识别，或者还可以位于网络侧的服务器中，以进行在线识别，或者也可以部分功能位于客户端中，部分功能位于服务器中，以进行离线与在线结合识别，本实施例对此不进行限定。
可以理解的是，所述客户端可以是安装在终端上的输入法应用程序，或者还可以是浏览器的一个网页，只要能够实现词条获取，以提供识别新词和/或热词的客观存在形式都可以，本实施例对此不进行限定。
这样，通过跟踪单元对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而由获取单元获取所述感兴趣区域内的文本信息，并由切词单元对所述文本信息进行切词操作，以获得候选词条，使得选择单元能够选择至少一个候选词条，以作为新词和/或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和/或热词，从而提高了词条获取的及时性。
另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和/或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。
可选地，在本实施例的一个可能的实现方式中，所述跟踪单元21具体可以在用户界面上对用户的眼球进行跟踪操作。其中，所述用户界面可以为终端所显示的万维网（World Wide Web，Web）页面，或者还可以为终端所显示的应用文档，例如，电子邮件、WORD文档、TXT文档、PDF文档等，本发明对此不进行特别限定。
可选地，在本实施例的一个可能的实现方式中，所述跟踪单元21具体可以用于获取所述眼球的视频信息；根据所述视频信息，确定所述眼球的位置区域；根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；以及根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。
其中，所述眼球的视频信息可以由若干帧图像组成，可以利用摄像头进行采集。由于人眼球的运动弧度范围在一个固定区间内，因此，可以根据该视频信息确定眼球对应的可运动路径。该运动路径可以是一个精确的值，也可以是一个运动区间。通过该可运动路径，可以进一步计算出基于该可运动路劲的可到达面积，该可到达面积即为所述眼球的可移动区域。
具体地，所述跟踪单元21具体可以将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。
其中，所述关注条件可以包括但不限于关注时间和关注频次中的至少一项。
例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留时间大于或等于3秒，所述跟踪单元21则可以确定所述眼球的关注区域为所述用户的感兴趣区域。
或者，再例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留次数大于或等于2次，或2次/分钟，所述跟踪单元21则可以确定所述眼球的关注区域为所述用户的感兴趣区域。
可选地，在本实施例的一个可能的实现方式中，所述获取单元22具体可以采用现有技术中的各种文本识别方法，获取所述感兴趣区域内的文本信息，本发明对此不进行特别限定。
例如，所述获取单元22可以获取所述感兴趣区域在具有文本信息的用户界面上包围的局部屏幕截图，然后，则可以对获取到的局部屏幕截图进行文本识别，以获取到所述感兴趣区域内的文本信息。
或者，再例如，所述获取单元22可以获取所述感兴趣区域的位置信息，根据该位置信息，确定对应的文本信息，以作为所述感兴趣区域内的文本信息。
另外，文本识别的详细描述可以参见现有技术中的相关内容，此处不再赘述。
可选地，在本实施例的一个可能的实现方式中，切词单元23具体可以采用现有技术中的各种切词方法，对所获取到的文本信息进行切词操作。例如，基于字符串匹配的分词方法，或者，再例如，基于理解的分词方法，或者，再例如，基于统计的分词方法，本发明对此不进行特别限定。切词方法的详细描述可以参见现有技术中的相关内容，此处不再赘述。
可选地，在本实施例的一个可能的实现方式中，所述选择单元24，具体可以用于将没有出现在预先配置的输入法字典中的候选词条确定为新词。
具体地，所述选择单元24可以获取切词操作所获得的候选词条中的任一候选词条；如果该候选词条没有出现在预先配置的输入法字典中，则可以将该候选词条确定为新词。
需要说明的是，预先配置的输入法字典可以配置在网络侧的服务器，或者还可以配置在本地的客户端，本实施例对此不进行特别限定。
可选地，在本实施例的一个可能的实现方式中，所述选择单元24，具体可以用于将出现在预先配置的输入法字典中的候选词条，确定为候选热词；根据所述候选热词出现的词频，确定所述候选热词的热度值；以及将热度值大于或等于热度阈值的候选热词，确定为热词。
具体地，所述选择单元24可以获取切词操作所获得的候选词条中的任一候选词条；如果该候选词条已经出现在预先配置的输入法字典中，则可以将该候选词条标记为候选热词；然后，可以根据所述输入法字典，获取候选热词在指定时间范围之内出现的词频，并根据该词频，确定所述候选热词的热度值；最后，则可以将热度值大于或等于热度阈值的候选热词，确定为热词。
例如，具体可以根据公式，即候选热词的热度值=（所有候选热词的平均得分*所有候选热词的平均词频+候选热词的得分*候选热词在总统计时间内的总词频）/（所有候选热词的平均词频+候选热词在总统计时间内的总词频），确定候选热词的热度值。其中，
候选热词的得分=候选热词在最近一个单位统计时间内的词频/候选热词在总统计时间内的总词频。
详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。
可以理解的是，本实施例提供的的词条的获取装置在识别出新词和/或热词之后，还可以进一步利用这些词条更新本地的输入法字典，或者还可以进一步利用这些词条更新云端（网络侧）的输入法字典，本实施例对此不进行特别限定。具体可以采用所统计的Ngram信息和/或Npos信息中的至少一项，更新本地的输入法字典或云端的输入法字典，详细描述可以参见现有技术中的相关内容，此处不再赘述。
可以理解的是，本实施例提供的技术方案，不仅可以针对一个用户，识别出新词和/或热词，还可以进一步针对多个用户，对多个用户的识别结果进行有效的整理和分析，以获得针对多个用户的新词和/或热词。
可选地，在本实施例的一个可能的实现方式中，本实施例提供的词条的获取装置还可以进一步对所选择的新词和/或热词进行特殊展现。例如，可以给这些新词和/或热词增加图标标识；或者，再例如，可以在特殊的候选位置展现这些新词和/或热词。
本实施例中，通过跟踪单元对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而由获取单元获取所述感兴趣区域内的文本信息，并由切词单元对所述文本信息进行切词操作，以获得候选词条，使得选择单元能够选择至少一个候选词条，以作为新词和/或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和/或热词，从而提高了词条获取的及时性。
另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和/或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置（可以是个人计算机，服务器，或者网络装置等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

资源描述

《词条的获取方法及装置.pdf》由会员分享，可在线阅读，更多相关《词条的获取方法及装置.pdf（14页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103823849 A (43)申请公布日 2014.05.28 CN 103823849 A (21)申请号 201410047094.8 (22)申请日 2014.02.11 G06F 17/30(2006.01) G06F 3/01(2006.01) (71)申请人百度在线网络技术(北京)有限公司地址 100085 北京市海淀区上地十街 10 号百度大厦 (72)发明人陈晓昕吴先超肖日新 (74)专利代理机构北京鸿德海业知识产权代理事务所 ( 普通合伙 ) 11412 代理人袁媛 (54) 发明名称词条的获取方法及装置 (57) 摘要本发明。

2、提供一种词条的获取方法及装置。本发明实施例通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和 / 或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和 / 或热词，从而提高了词条获取的及时性。 (51)Int.Cl. 权利要求书 2 页说明书 10 页附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求。

3、书2页说明书10页附图1页 (10)申请公布号 CN 103823849 A CN 103823849 A 1/2 页 2 1. 一种词条的获取方法，其特征在于，包括：对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；获取所述感兴趣区域内的文本信息；对所述文本信息进行切词操作，以获得候选词条；选择至少一个候选词条，以作为新词和 / 或热词。 2. 根据权利要求 1 所述的方法，其特征在于，所述对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，包括：获取所述眼球的视频信息；根据所述视频信息，确定所述眼球的位置区域；根据所述视频信息，。

4、确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。 3. 根据权利要求 2 所述的方法，其特征在于，所述根据所述眼球的位置和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域，包括：将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。 4. 根据权利要求 3 所述的方法，其特征在于，所述关注条件包括。

5、关注时间和关注频次中的至少一项。 5.根据权利要求14任一权利要求所述的方法，其特征在于，所述选择至少一个候选词条，以作为新词和 / 或热词，包括：将没有出现在预先配置的输入法字典中的候选词条确定为新词。 6.根据权利要求14任一权利要求所述的方法，其特征在于，所述选择至少一个候选词条，以作为新词和 / 或热词，包括：将出现在预先配置的输入法字典中的候选词条，确定为候选热词；根据所述候选热词出现的词频，确定所述候选热词的热度值；将热度值大于或等于热度阈值的候选热词，确定为热词。 7. 一种词条的获取装置，其特征在于，包括：跟踪单元，用于对用。

6、户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；获取单元，用于获取所述感兴趣区域内的文本信息；切词单元，用于对所述文本信息进行切词操作，以获得候选词条；选择单元，用于选择至少一个候选词条，以作为新词和 / 或热词。 8. 根据权利要求 7 所述的装置，其特征在于，所述跟踪单元，具体用于获取所述眼球的视频信息；根据所述视频信息，确定所述眼球的位置区域；根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；以及权利要求书 CN 103823849 A 2 2/2 页 3 根据所述眼球的位置区域。

7、和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。 9. 根据权利要求 8 所述的装置，其特征在于，所述跟踪单元，具体用于将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；以及若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。 10. 根据权利要求 9 所述的装置，其特征在于，所述关注条件包括关注时间和关注频次中的至少一项。 11. 根据权利要求 7 10 任一权利要求所述的装置，其特征在于，所述选择单元，具体用于将没有出现在预先配置的输入法字典中的候选词条确定为新词。

8、。 12. 根据权利要求 7 10 任一权利要求所述的装置，其特征在于，所述选择单元，具体用于将出现在预先配置的输入法字典中的候选词条，确定为候选热词；根据所述候选热词出现的词频，确定所述候选热词的热度值；以及将热度值大于或等于热度阈值的候选热词，确定为热词。权利要求书 CN 103823849 A 3 1/10 页 4 词条的获取方法及装置【技术领域】 0001 本发明涉及输入法技术，尤其涉及一种词条的获取方法及装置。【背景技术】 0002 输入法，是指为将各种字符输入终端而采用的编码方法，不同语言、国家、或地区，有多种不同的输入法，例如。

9、，搜狗拼音输入法、百度输入法、 QQ 拼音输入法等。一般来说，输入法软件的客户端可以采用加载的字典即词库和字典中包含的词频，向用户展现各类候选词条的排序，以方便用户的输入。现有技术中，为了满足用户的输入需求，通过服务器定期采集词条和词条的使用频率即词频，以更新各类专业字典，例如，将新出现的词条识别为新词添加到字典中，或者，再例如，将一些使用频率高的词条识别为热词，等。 0003 然而，在一些情况下，新词和 / 或热词会大量涌现，例如，网络语言的出现如酱紫（这样子）、表（不要）、杯具（悲剧）等，或者，再例如，突发事件如台风海燕，。

10、等，现有的技术方案无法及时地将这些新词和 / 或热词识别出来更新输入法所加载的各类专业字典即输入法字典，从而导致了词条获取的及时性的降低。【发明内容】 0004 本发明的多个方面提供一种词条的获取方法及装置，用以提高词条获取的及时性。 0005 本发明的一方面，提供一种词条的获取方法，包括： 0006 对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域； 0007 获取所述感兴趣区域内的文本信息； 0008 对所述文本信息进行切词操作，以获得候选词条； 0009 选择至少一个候选词条，以作为新词和 / 或热词。 0010 如上所述的方面和任一可能的实现方式，。

11、进一步提供一种实现方式，所述对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，包括： 0011 获取所述眼球的视频信息； 0012 根据所述视频信息，确定所述眼球的位置区域； 0013 根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域； 0014 根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。 0015 如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述眼球的位置和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣。

12、区域，包括： 0016 将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；说明书 CN 103823849 A 4 2/10 页 5 0017 若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。 0018 如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述关注条件包括关注时间和关注频次中的至少一项。 0019 如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择至少一个候选词条，以作为新词和 / 或热词，包括： 0020 将没有出现在预先配置的输入法字典中的候选词条确定。

13、为新词。 0021 如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择至少一个候选词条，以作为新词和 / 或热词，包括： 0022 将出现在预先配置的输入法字典中的候选词条，确定为候选热词； 0023 根据所述候选热词出现的词频，确定所述候选热词的热度值； 0024 将热度值大于或等于热度阈值的候选热词，确定为热词。 0025 本发明的一方面，提供一种词条的获取装置，包括： 0026 跟踪单元，用于对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域； 0027 获取单元，用于获取所述感兴趣区域内的文本信息； 0028 切词单元，用于对。

14、所述文本信息进行切词操作，以获得候选词条； 0029 选择单元，用于选择至少一个候选词条，以作为新词和 / 或热词。 0030 如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述跟踪单元，具体用于 0031 获取所述眼球的视频信息； 0032 根据所述视频信息，确定所述眼球的位置区域； 0033 根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；以及 0034 根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。 0035 如上所述的方面和任一可能的实现。

15、方式，进一步提供一种实现方式，所述跟踪单元，具体用于 0036 将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；以及 0037 若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。 0038 如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述关注条件包括关注时间和关注频次中的至少一项。 0039 如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择单元，具体用于 0040 将没有出现在预先配置的输入法字典中的候选词条确定为新词。 0041 如上所述的方面和任一可能的实现方式。

16、，进一步提供一种实现方式，所述选择单元，具体用于 0042 将出现在预先配置的输入法字典中的候选词条，确定为候选热词；说明书 CN 103823849 A 5 3/10 页 6 0043 根据所述候选热词出现的词频，确定所述候选热词的热度值；以及 0044 将热度值大于或等于热度阈值的候选热词，确定为热词。 0045 由上述技术方案可知，本发明实施例通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和 / 或热词，由于。

17、采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和 / 或热词，从而提高了词条获取的及时性。 0046 另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和 / 或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。【附图说明】 0047 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造。

18、性劳动性的前提下，还可以根据这些附图获得其他的附图。 0048 图 1 为本发明一实施例提供的词条的获取方法的流程示意图； 0049 图 2 为本发明另一实施例提供的词条的获取装置的结构示意图。【具体实施方式】 0050 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。 0051 需要说明的是，本发明实施例。

19、中所涉及的终端可以包括但不限于手机、个人数字助理（Personal Digital Assistant， PDA）、无线手持设备、平板电脑（Tablet Computer）、个人电脑（Personal Computer， PC）、 MP3 播放器、 MP4 播放器等。 0052 另外，本文中术语 “和 / 或” ，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如， A 和 / 或 B，可以表示：单独存在 A，同时存在 A 和 B，单独存在 B 这三种情况。另外，本文中字符 “/” ，一般表示前后关联对象是一种 “或” 的关系。 005。

20、3 图 1 为本发明一实施例提供的词条的获取方法的流程示意图，如图 1 所示。 0054 101、对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域。 0055 可选地，在本实施例的一个可能的实现方式中，在 101 中，具体可以在用户界面上对用户的眼球进行跟踪操作。其中，所述用户界面可以为终端所显示的万维网（World Wide Web， Web）页面，或者还可以为终端所显示的应用文档，例如，电子邮件、 WORD 文档、 TXT 文档、 PDF 文档等，本发明对此不进行特别限定。 0056 102、获取所述感兴趣区域内的文本信息。 0057 103、对所述。

21、文本信息进行切词操作，以获得候选词条。说明书 CN 103823849 A 6 4/10 页 7 0058 104、选择至少一个候选词条，以作为新词和 / 或热词。 0059 需要说明的是， 101 104 的执行主体可以是识别装置，可以位于本地的客户端中，以进行离线识别，或者还可以位于网络侧的服务器中，以进行在线识别，或者也可以部分功能位于客户端中，部分功能位于服务器中，以进行离线与在线结合识别，本实施例对此不进行限定。 0060 可以理解的是，所述客户端可以是安装在终端上的输入法应用程序，或者还可以是浏览器的一个网页，只要能够实现词条获取，以提供。

22、识别新词和 / 或热词的客观存在形式都可以，本实施例对此不进行限定。 0061 这样，通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和 / 或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和 / 或热词，从而提高了词条获取的及时性。 0062 另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和 / 或热词更新输入法所。

23、加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。 0063 可选地，在本实施例的一个可能的实现方式中，在 101 中，具体可以获取所述眼球的视频信息。其中，所述眼球的视频信息可以由若干帧图像组成，可以利用摄像头进行采集。进而，根据所述视频信息，确定所述眼球的位置区域。然后，根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域。由于人眼球的运动弧度范围在一个固定区间内，因此，可以根据该视频信息确定眼球对应的可运动路径。该运动路径可以是一个精确的值，也可以是一个运动区间。通过该可运动路径，。

24、可以进一步计算出基于该可运动路劲的可到达面积，该可到达面积即为所述眼球的可移动区域。最后，则可以根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关注区域，以作为所述用户的感兴趣区域。 0064 具体地，可以将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域。若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的感兴趣区域。 0065 其中，所述关注条件可以包括但不限于关注时间和关注频次中的至少一项。 0066 例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留时间大于或等于 3 秒，则可以确定所述眼球的关注。

25、区域为所述用户的感兴趣区域。 0067 或者，再例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留次数大于或等于 2 次，或 2 次 / 分钟，则可以确定所述眼球的关注区域为所述用户的感兴趣区域。 0068 可选地，在本实施例的一个可能的实现方式中，在 102 中，具体可以采用现有技术中的各种文本识别方法，获取所述感兴趣区域内的文本信息，本发明对此不进行特别限定。 0069 例如，可以获取所述感兴趣区域在具有文本信息的用户界面上包围的局部屏幕截图，然后，则可以对获取到的局部屏幕截图进行文本识别，以获取到所述感兴趣区域内的文本信息。 0070 或者，再例。

26、如，可以获取所述感兴趣区域的位置信息，根据该位置信息，确定对应说明书 CN 103823849 A 7 5/10 页 8 的文本信息，以作为所述感兴趣区域内的文本信息。 0071 另外，文本识别的详细描述可以参见现有技术中的相关内容，此处不再赘述。 0072 可选地，在本实施例的一个可能的实现方式中，在 103 中，具体可以采用现有技术中的各种切词方法，对所获取到的文本信息进行切词操作。例如，基于字符串匹配的分词方法，或者，再例如，基于理解的分词方法，或者，再例如，基于统计的分词方法，本发明对此不进行特别限定。切词方法的详细描述可以参见现有技术。

27、中的相关内容，此处不再赘述。 0073 可选地，在本实施例的一个可能的实现方式中，在 104 中，具体可以将没有出现在预先配置的输入法字典中的候选词条确定为新词。 0074 具体地，可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词条没有出现在预先配置的输入法字典中，则可以将该候选词条确定为新词。 0075 需要说明的是，预先配置的输入法字典可以配置在网络侧的服务器，或者还可以配置在本地的客户端，本实施例对此不进行特别限定。 0076 可选地，在本实施例的一个可能的实现方式中，在 104 中，具体可以将出现在预先配置的输入法字典中的候选词条，确定为。

28、候选热词。进而，根据所述候选热词出现的词频，确定所述候选热词的热度值。然后，则可以将热度值大于或等于热度阈值的候选热词，确定为热词。 0077 具体地，可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词条已经出现在预先配置的输入法字典中，则可以将该候选词条标记为候选热词。然后，可以根据所述输入法字典，获取候选热词在指定时间范围之内出现的词频，并根据该词频，确定所述候选热词的热度值。最后，则可以将热度值大于或等于热度阈值的候选热词，确定为热词。 0078 例如，具体可以根据公式，即候选热词的热度值 =（所有候选热词的平均得分 * 所有候选。

29、热词的平均词频 + 候选热词的得分 * 候选热词在总统计时间内的总词频） /（所有候选热词的平均词频 + 候选热词在总统计时间内的总词频），确定候选热词的热度值。其中， 0079 候选热词的得分=候选热词在最近一个单位统计时间内的词频/候选热词在总统计时间内的总词频。 0080 以下结合具体的实施例对上述实施过程进行详细说明，假设四个候选热词即候选热词 A、候选热词 B、候选热词 C 和候选热词 D，以及单位统计时间为一天，总统计时间为两天。在 2013-12-18 和 2013-12-19 这两天内出现的词频如下表所示： 0081 说明书 CN 103823849。

30、 A 8 6/10 页 9 0082 从表格中显示的数据可以看出，根据 2013-12-18 和 2013-12-19 这两天的历史数据分别计算出这四个候选热词的得分分别为 0.74、 0.52、 0.8、 0.82。此时，可假设已经有 320个人预先给每个词都打了0.72分，候选热词A还有额外的135个人打分，每个人都给了 0.74 分，按照前面所述的计算公式，这四个候选热词的热度值分别可以为： 0083 A ： (0.72*320+0.74*135)/(320+135)=0.725 0084 B ： (0.72*320+0.52*290)/(320+290)=0.625 0。

31、085 C ： (0.72*320+0.8*5)/(320+5)=0.721 0086 D ： (0.72*320+0.82*850)/(320+850)=0.793 0087 按照热度值，从大到小排序如下： 0088 DACB 0089 可以看出，候选热词 D 出现的频率最高，因此排名也最靠前，如果该候选热词的热度值不小于预先设置的热度阈值，则可以将候选热词 D 确定为热词。 0090 可以理解的是，在识别出新词和 / 或热词之后，还可以进一步利用这些词条更新本地的输入法字典，或者还可以进一步利用这些词条更新云端（网络侧）的输入法字典，本实施例对此不进行特别限定。

32、。具体可以采用所统计的 Ngram 信息和 / 或 Npos 信息中的至少一项，更新本地的输入法字典或云端的输入法字典，详细描述可以参见现有技术中的相关内容，此处不再赘述。 0091 可以理解的是，本实施例提供的技术方案，不仅可以针对一个用户，识别出新词和 / 或热词，还可以进一步针对多个用户，对多个用户的识别结果进行有效的整理和分析，以获得针对多个用户的新词和 / 或热词。 0092 可选地，在本实施例的一个可能的实现方式中，在 104 之后，还可以进一步对所选择的新词和 / 或热词进行特殊展现。例如，可以给这些新词和 / 或热词增加图标标识；或者，。

33、再例如，可以在特殊的候选位置展现这些新词和 / 或热词。 0093 本实施例中，通过对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而获取所述感兴趣区域内的文本信息，并对所述文本信息进行切词操作，以获得候选词条，使得能够选择至少一个候选词条，以作为新词和 / 或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和 / 或热词，从而提高了词条获取的及时性。说明书 CN 103823849 A 9 7/10 页 10 0094 另外，采用本发明提供的技术方案，。

34、能够及时地利用所识别出的新词和 / 或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。 0095 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。 0096 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施。

35、例的相关描述。 0097 图 2 为本发明另一实施例提供的词条的获取装置的结构示意图，如图 2 所示。本实施例的词条的获取装置可以包括跟踪单元 21、获取单元 22、切词单元 23 和选择单元 24。其中，跟踪单元 21，用于对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域；获取单元 22，用于获取所述感兴趣区域内的文本信息；切词单元 23，用于对所述文本信息进行切词操作，以获得候选词条；选择单元 24，用于选择至少一个候选词条，以作为新词和 / 或热词。 0098 需要说明的是，本实施例提供的词条的获取装置，可以位于本地的客户端中，以进。

36、行离线识别，或者还可以位于网络侧的服务器中，以进行在线识别，或者也可以部分功能位于客户端中，部分功能位于服务器中，以进行离线与在线结合识别，本实施例对此不进行限定。 0099 可以理解的是，所述客户端可以是安装在终端上的输入法应用程序，或者还可以是浏览器的一个网页，只要能够实现词条获取，以提供识别新词和 / 或热词的客观存在形式都可以，本实施例对此不进行限定。 0100 这样，通过跟踪单元对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而由获取单元获取所述感兴趣区域内的文本信息，并由切词单元对所述文本信息进行切词操作，以获得候选词条，使得选择。

37、单元能够选择至少一个候选词条，以作为新词和 / 或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和 / 或热词，从而提高了词条获取的及时性。 0101 另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和 / 或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。 0102 可选地，在本实施例的一个可能的实现方式中，所述跟踪单元 21 具体可以在用户界面上对用户的眼球进行跟踪操作。其中，所述用户界面可以为终端所显示的万维。

38、网（World Wide Web， Web）页面，或者还可以为终端所显示的应用文档，例如，电子邮件、 WORD 文档、 TXT 文档、 PDF 文档等，本发明对此不进行特别限定。 0103 可选地，在本实施例的一个可能的实现方式中，所述跟踪单元 21 具体可以用于获取所述眼球的视频信息；根据所述视频信息，确定所述眼球的位置区域；根据所述视频信息，确定所述眼球的可运动路径，以及根据所述可运动路径，确定所述眼球的可移动区域；说明书 CN 103823849 A 10 8/10 页 11 以及根据所述眼球的位置区域和所述眼球的可移动区域，确定所述眼球的关。

39、注区域，以作为所述用户的感兴趣区域。 0104 其中，所述眼球的视频信息可以由若干帧图像组成，可以利用摄像头进行采集。由于人眼球的运动弧度范围在一个固定区间内，因此，可以根据该视频信息确定眼球对应的可运动路径。该运动路径可以是一个精确的值，也可以是一个运动区间。通过该可运动路径，可以进一步计算出基于该可运动路劲的可到达面积，该可到达面积即为所述眼球的可移动区域。 0105 具体地，所述跟踪单元 21 具体可以将所述眼球的位置区域在所述眼球的可移动区域内的部分，确定为所述眼球的关注区域；若所述眼球的关注区域满足关注条件，确定所述眼球的关注区域为所述用户的。

40、感兴趣区域。 0106 其中，所述关注条件可以包括但不限于关注时间和关注频次中的至少一项。 0107 例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留时间大于或等于 3 秒，所述跟踪单元 21 则可以确定所述眼球的关注区域为所述用户的感兴趣区域。 0108 或者，再例如，若所述眼球的关注区域在所述眼球的可移动区域内的停留次数大于或等于 2 次，或 2 次 / 分钟，所述跟踪单元 21 则可以确定所述眼球的关注区域为所述用户的感兴趣区域。 0109 可选地，在本实施例的一个可能的实现方式中，所述获取单元 22 具体可以采用现有技术中的各种文本识别方法，获取所述感。

41、兴趣区域内的文本信息，本发明对此不进行特别限定。 0110 例如，所述获取单元 22 可以获取所述感兴趣区域在具有文本信息的用户界面上包围的局部屏幕截图，然后，则可以对获取到的局部屏幕截图进行文本识别，以获取到所述感兴趣区域内的文本信息。 0111 或者，再例如，所述获取单元 22 可以获取所述感兴趣区域的位置信息，根据该位置信息，确定对应的文本信息，以作为所述感兴趣区域内的文本信息。 0112 另外，文本识别的详细描述可以参见现有技术中的相关内容，此处不再赘述。 0113 可选地，在本实施例的一个可能的实现方式中，切词单元 23 具体可以采用现有技术中的。

42、各种切词方法，对所获取到的文本信息进行切词操作。例如，基于字符串匹配的分词方法，或者，再例如，基于理解的分词方法，或者，再例如，基于统计的分词方法，本发明对此不进行特别限定。切词方法的详细描述可以参见现有技术中的相关内容，此处不再赘述。 0114 可选地，在本实施例的一个可能的实现方式中，所述选择单元 24，具体可以用于将没有出现在预先配置的输入法字典中的候选词条确定为新词。 0115 具体地，所述选择单元 24 可以获取切词操作所获得的候选词条中的任一候选词条；如果该候选词条没有出现在预先配置的输入法字典中，则可以将该候选词条确定为新词。 011。

43、6 需要说明的是，预先配置的输入法字典可以配置在网络侧的服务器，或者还可以配置在本地的客户端，本实施例对此不进行特别限定。 0117 可选地，在本实施例的一个可能的实现方式中，所述选择单元 24，具体可以用于将出现在预先配置的输入法字典中的候选词条，确定为候选热词；根据所述候选热词出现的词频，确定所述候选热词的热度值；以及将热度值大于或等于热度阈值的候选热词，确定为说明书 CN 103823849 A 11 9/10 页 12 热词。 0118 具体地，所述选择单元 24 可以获取切词操作所获得的候选词条中的任一候选词条；如果该候选词条已经出现在预。

44、先配置的输入法字典中，则可以将该候选词条标记为候选热词；然后，可以根据所述输入法字典，获取候选热词在指定时间范围之内出现的词频，并根据该词频，确定所述候选热词的热度值；最后，则可以将热度值大于或等于热度阈值的候选热词，确定为热词。 0119 例如，具体可以根据公式，即候选热词的热度值 =（所有候选热词的平均得分 * 所有候选热词的平均词频 + 候选热词的得分 * 候选热词在总统计时间内的总词频） /（所有候选热词的平均词频 + 候选热词在总统计时间内的总词频），确定候选热词的热度值。其中， 0120 候选热词的得分=候选热词在最近一个单位统计时间内的词频/。

45、候选热词在总统计时间内的总词频。 0121 详细描述可以参见图 1 对应的实施例中的相关内容，此处不再赘述。 0122 可以理解的是，本实施例提供的的词条的获取装置在识别出新词和 / 或热词之后，还可以进一步利用这些词条更新本地的输入法字典，或者还可以进一步利用这些词条更新云端（网络侧）的输入法字典，本实施例对此不进行特别限定。具体可以采用所统计的 Ngram信息和/或Npos信息中的至少一项，更新本地的输入法字典或云端的输入法字典，详细描述可以参见现有技术中的相关内容，此处不再赘述。 0123 可以理解的是，本实施例提供的技术方案，不仅可以针对一个用户，识别。

46、出新词和 / 或热词，还可以进一步针对多个用户，对多个用户的识别结果进行有效的整理和分析，以获得针对多个用户的新词和 / 或热词。 0124 可选地，在本实施例的一个可能的实现方式中，本实施例提供的词条的获取装置还可以进一步对所选择的新词和 / 或热词进行特殊展现。例如，可以给这些新词和 / 或热词增加图标标识；或者，再例如，可以在特殊的候选位置展现这些新词和 / 或热词。 0125 本实施例中，通过跟踪单元对用户的眼球进行跟踪操作，以获得所述用户的感兴趣区域，进而由获取单元获取所述感兴趣区域内的文本信息，并由切词单元对所述文本信息进行切词操作，以获得候。

47、选词条，使得选择单元能够选择至少一个候选词条，以作为新词和 / 或热词，由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息，进行候选词条的获取操作，因此，能够基于这些文本信息及时地识别出新词和 / 或热词，从而提高了词条获取的及时性。 0126 另外，采用本发明提供的技术方案，能够及时地利用所识别出的新词和 / 或热词更新输入法所加载的各类专业字典即输入法字典，能够进一步有效提高输入法的字典的准确性。 0127 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过。

48、程，在此不再赘述。 0128 在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦说明书 CN 103823849 A 12 10/10 页 13 合或通信连接，可以是电性，机械或其它的形式。 0129 所述作为分。

49、离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。 0130 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。 0131 上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置（可以是个人。

展开阅读全文