《词条的获取方法及装置.pdf》由会员分享,可在线阅读,更多相关《词条的获取方法及装置.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103823849 A (43)申请公布日 2014.05.28 CN 103823849 A (21)申请号 201410047094.8 (22)申请日 2014.02.11 G06F 17/30(2006.01) G06F 3/01(2006.01) (71)申请人 百度在线网络技术(北京)有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦 (72)发明人 陈晓昕 吴先超 肖日新 (74)专利代理机构 北京鸿德海业知识产权代理 事务所 ( 普通合伙 ) 11412 代理人 袁媛 (54) 发明名称 词条的获取方法及装置 (57) 摘要 本发明。
2、提供一种词条的获取方法及装置。本 发明实施例通过对用户的眼球进行跟踪操作, 以 获得所述用户的感兴趣区域, 进而获取所述感兴 趣区域内的文本信息, 并对所述文本信息进行切 词操作, 以获得候选词条, 使得能够选择至少一个 候选词条, 以作为新词和 / 或热词, 由于采用用户 当前的阅读行为所关注的区域所提取的用户感兴 趣的文本信息, 进行候选词条的获取操作, 因此, 能够基于这些文本信息及时地识别出新词和 / 或 热词, 从而提高了词条获取的及时性。 (51)Int.Cl. 权利要求书 2 页 说明书 10 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求。
3、书2页 说明书10页 附图1页 (10)申请公布号 CN 103823849 A CN 103823849 A 1/2 页 2 1. 一种词条的获取方法, 其特征在于, 包括 : 对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域 ; 获取所述感兴趣区域内的文本信息 ; 对所述文本信息进行切词操作, 以获得候选词条 ; 选择至少一个候选词条, 以作为新词和 / 或热词。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述对用户的眼球进行跟踪操作, 以获得 所述用户的感兴趣区域, 包括 : 获取所述眼球的视频信息 ; 根据所述视频信息, 确定所述眼球的位置区域 ; 根据所述视频信息, 。
4、确定所述眼球的可运动路径, 以及根据所述可运动路径, 确定所述 眼球的可移动区域 ; 根据所述眼球的位置区域和所述眼球的可移动区域, 确定所述眼球的关注区域, 以作 为所述用户的感兴趣区域。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述根据所述眼球的位置和所述眼球的 可移动区域, 确定所述眼球的关注区域, 以作为所述用户的感兴趣区域, 包括 : 将所述眼球的位置区域在所述眼球的可移动区域内的部分, 确定为所述眼球的关注区 域 ; 若所述眼球的关注区域满足关注条件, 确定所述眼球的关注区域为所述用户的感兴趣 区域。 4. 根据权利要求 3 所述的方法, 其特征在于, 所述关注条件包括。
5、关注时间和关注频次 中的至少一项。 5.根据权利要求14任一权利要求所述的方法, 其特征在于, 所述选择至少一个候选 词条, 以作为新词和 / 或热词, 包括 : 将没有出现在预先配置的输入法字典中的候选词条确定为新词。 6.根据权利要求14任一权利要求所述的方法, 其特征在于, 所述选择至少一个候选 词条, 以作为新词和 / 或热词, 包括 : 将出现在预先配置的输入法字典中的候选词条, 确定为候选热词 ; 根据所述候选热词出现的词频, 确定所述候选热词的热度值 ; 将热度值大于或等于热度阈值的候选热词, 确定为热词。 7. 一种词条的获取装置, 其特征在于, 包括 : 跟踪单元, 用于对用。
6、户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域 ; 获取单元, 用于获取所述感兴趣区域内的文本信息 ; 切词单元, 用于对所述文本信息进行切词操作, 以获得候选词条 ; 选择单元, 用于选择至少一个候选词条, 以作为新词和 / 或热词。 8. 根据权利要求 7 所述的装置, 其特征在于, 所述跟踪单元, 具体用于 获取所述眼球的视频信息 ; 根据所述视频信息, 确定所述眼球的位置区域 ; 根据所述视频信息, 确定所述眼球的可运动路径, 以及根据所述可运动路径, 确定所述 眼球的可移动区域 ; 以及 权 利 要 求 书 CN 103823849 A 2 2/2 页 3 根据所述眼球的位置区域。
7、和所述眼球的可移动区域, 确定所述眼球的关注区域, 以作 为所述用户的感兴趣区域。 9. 根据权利要求 8 所述的装置, 其特征在于, 所述跟踪单元, 具体用于 将所述眼球的位置区域在所述眼球的可移动区域内的部分, 确定为所述眼球的关注区 域 ; 以及 若所述眼球的关注区域满足关注条件, 确定所述眼球的关注区域为所述用户的感兴趣 区域。 10. 根据权利要求 9 所述的装置, 其特征在于, 所述关注条件包括关注时间和关注频次 中的至少一项。 11. 根据权利要求 7 10 任一权利要求所述的装置, 其特征在于, 所述选择单元, 具体 用于 将没有出现在预先配置的输入法字典中的候选词条确定为新词。
8、。 12. 根据权利要求 7 10 任一权利要求所述的装置, 其特征在于, 所述选择单元, 具体 用于 将出现在预先配置的输入法字典中的候选词条, 确定为候选热词 ; 根据所述候选热词出现的词频, 确定所述候选热词的热度值 ; 以及 将热度值大于或等于热度阈值的候选热词, 确定为热词。 权 利 要 求 书 CN 103823849 A 3 1/10 页 4 词条的获取方法及装置 【技术领域】 0001 本发明涉及输入法技术, 尤其涉及一种词条的获取方法及装置。 【背景技术】 0002 输入法, 是指为将各种字符输入终端而采用的编码方法, 不同语言、 国家、 或地区, 有多种不同的输入法, 例如。
9、, 搜狗拼音输入法、 百度输入法、 QQ 拼音输入法等。一般来说, 输 入法软件的客户端可以采用加载的字典即词库和字典中包含的词频, 向用户展现各类候选 词条的排序, 以方便用户的输入。现有技术中, 为了满足用户的输入需求, 通过服务器定期 采集词条和词条的使用频率即词频, 以更新各类专业字典, 例如, 将新出现的词条识别为新 词添加到字典中, 或者, 再例如, 将一些使用频率高的词条识别为热词, 等。 0003 然而, 在一些情况下, 新词和 / 或热词会大量涌现, 例如, 网络语言的出现如酱紫 (这样子) 、 表 (不要) 、 杯具 (悲剧) 等, 或者, 再例如, 突发事件如台风海燕, 。
10、等, 现有的技术方 案无法及时地将这些新词和 / 或热词识别出来更新输入法所加载的各类专业字典即输入 法字典, 从而导致了词条获取的及时性的降低。 【发明内容】 0004 本发明的多个方面提供一种词条的获取方法及装置, 用以提高词条获取的及时 性。 0005 本发明的一方面, 提供一种词条的获取方法, 包括 : 0006 对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域 ; 0007 获取所述感兴趣区域内的文本信息 ; 0008 对所述文本信息进行切词操作, 以获得候选词条 ; 0009 选择至少一个候选词条, 以作为新词和 / 或热词。 0010 如上所述的方面和任一可能的实现方式, 。
11、进一步提供一种实现方式, 所述对用户 的眼球进行跟踪操作, 以获得所述用户的感兴趣区域, 包括 : 0011 获取所述眼球的视频信息 ; 0012 根据所述视频信息, 确定所述眼球的位置区域 ; 0013 根据所述视频信息, 确定所述眼球的可运动路径, 以及根据所述可运动路径, 确定 所述眼球的可移动区域 ; 0014 根据所述眼球的位置区域和所述眼球的可移动区域, 确定所述眼球的关注区域, 以作为所述用户的感兴趣区域。 0015 如上所述的方面和任一可能的实现方式, 进一步提供一种实现方式, 所述根据所 述眼球的位置和所述眼球的可移动区域, 确定所述眼球的关注区域, 以作为所述用户的感 兴趣。
12、区域, 包括 : 0016 将所述眼球的位置区域在所述眼球的可移动区域内的部分, 确定为所述眼球的关 注区域 ; 说 明 书 CN 103823849 A 4 2/10 页 5 0017 若所述眼球的关注区域满足关注条件, 确定所述眼球的关注区域为所述用户的感 兴趣区域。 0018 如上所述的方面和任一可能的实现方式, 进一步提供一种实现方式, 所述关注条 件包括关注时间和关注频次中的至少一项。 0019 如上所述的方面和任一可能的实现方式, 进一步提供一种实现方式, 所述选择至 少一个候选词条, 以作为新词和 / 或热词, 包括 : 0020 将没有出现在预先配置的输入法字典中的候选词条确定。
13、为新词。 0021 如上所述的方面和任一可能的实现方式, 进一步提供一种实现方式, 所述选择至 少一个候选词条, 以作为新词和 / 或热词, 包括 : 0022 将出现在预先配置的输入法字典中的候选词条, 确定为候选热词 ; 0023 根据所述候选热词出现的词频, 确定所述候选热词的热度值 ; 0024 将热度值大于或等于热度阈值的候选热词, 确定为热词。 0025 本发明的一方面, 提供一种词条的获取装置, 包括 : 0026 跟踪单元, 用于对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域 ; 0027 获取单元, 用于获取所述感兴趣区域内的文本信息 ; 0028 切词单元, 用于对。
14、所述文本信息进行切词操作, 以获得候选词条 ; 0029 选择单元, 用于选择至少一个候选词条, 以作为新词和 / 或热词。 0030 如上所述的方面和任一可能的实现方式, 进一步提供一种实现方式, 所述跟踪单 元, 具体用于 0031 获取所述眼球的视频信息 ; 0032 根据所述视频信息, 确定所述眼球的位置区域 ; 0033 根据所述视频信息, 确定所述眼球的可运动路径, 以及根据所述可运动路径, 确定 所述眼球的可移动区域 ; 以及 0034 根据所述眼球的位置区域和所述眼球的可移动区域, 确定所述眼球的关注区域, 以作为所述用户的感兴趣区域。 0035 如上所述的方面和任一可能的实现。
15、方式, 进一步提供一种实现方式, 所述跟踪单 元, 具体用于 0036 将所述眼球的位置区域在所述眼球的可移动区域内的部分, 确定为所述眼球的关 注区域 ; 以及 0037 若所述眼球的关注区域满足关注条件, 确定所述眼球的关注区域为所述用户的感 兴趣区域。 0038 如上所述的方面和任一可能的实现方式, 进一步提供一种实现方式, 所述关注条 件包括关注时间和关注频次中的至少一项。 0039 如上所述的方面和任一可能的实现方式, 进一步提供一种实现方式, 所述选择单 元, 具体用于 0040 将没有出现在预先配置的输入法字典中的候选词条确定为新词。 0041 如上所述的方面和任一可能的实现方式。
16、, 进一步提供一种实现方式, 所述选择单 元, 具体用于 0042 将出现在预先配置的输入法字典中的候选词条, 确定为候选热词 ; 说 明 书 CN 103823849 A 5 3/10 页 6 0043 根据所述候选热词出现的词频, 确定所述候选热词的热度值 ; 以及 0044 将热度值大于或等于热度阈值的候选热词, 确定为热词。 0045 由上述技术方案可知, 本发明实施例通过对用户的眼球进行跟踪操作, 以获得所 述用户的感兴趣区域, 进而获取所述感兴趣区域内的文本信息, 并对所述文本信息进行切 词操作, 以获得候选词条, 使得能够选择至少一个候选词条, 以作为新词和 / 或热词, 由于 。
17、采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息, 进行候选词条的 获取操作, 因此, 能够基于这些文本信息及时地识别出新词和 / 或热词, 从而提高了词条获 取的及时性。 0046 另外, 采用本发明提供的技术方案, 能够及时地利用所识别出的新词和 / 或热词 更新输入法所加载的各类专业字典即输入法字典, 能够进一步有效提高输入法的字典的准 确性。 【附图说明】 0047 为了更清楚地说明本发明实施例中的技术方案, 下面将对实施例或现有技术描述 中所需要使用的附图作一简单地介绍, 显而易见地, 下面描述中的附图是本发明的一些实 施例, 对于本领域普通技术人员来讲, 在不付出创造。
18、性劳动性的前提下, 还可以根据这些附 图获得其他的附图。 0048 图 1 为本发明一实施例提供的词条的获取方法的流程示意图 ; 0049 图 2 为本发明另一实施例提供的词条的获取装置的结构示意图。 【具体实施方式】 0050 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例 中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是 本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员 在没有作出创造性劳动前提下所获得的全部其他实施例, 都属于本发明保护的范围。 0051 需要说明的是, 本发明实施例。
19、中所涉及的终端可以包括但不限于手机、 个人数字 助理 (Personal Digital Assistant, PDA) 、 无线手持设备、 平板电脑 (Tablet Computer) 、 个人电脑 (Personal Computer, PC) 、 MP3 播放器、 MP4 播放器等。 0052 另外, 本文中术语 “和 / 或” , 仅仅是一种描述关联对象的关联关系, 表示可以存在 三种关系, 例如, A 和 / 或 B, 可以表示 : 单独存在 A, 同时存在 A 和 B, 单独存在 B 这三种情 况。另外, 本文中字符 “/” , 一般表示前后关联对象是一种 “或” 的关系。 005。
20、3 图 1 为本发明一实施例提供的词条的获取方法的流程示意图, 如图 1 所示。 0054 101、 对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域。 0055 可选地, 在本实施例的一个可能的实现方式中, 在 101 中, 具体可以在用户界面上 对用户的眼球进行跟踪操作。 其中, 所述用户界面可以为终端所显示的万维网 (World Wide Web, Web) 页面, 或者还可以为终端所显示的应用文档, 例如, 电子邮件、 WORD 文档、 TXT 文 档、 PDF 文档等, 本发明对此不进行特别限定。 0056 102、 获取所述感兴趣区域内的文本信息。 0057 103、 对所述。
21、文本信息进行切词操作, 以获得候选词条。 说 明 书 CN 103823849 A 6 4/10 页 7 0058 104、 选择至少一个候选词条, 以作为新词和 / 或热词。 0059 需要说明的是, 101 104 的执行主体可以是识别装置, 可以位于本地的客户端 中, 以进行离线识别, 或者还可以位于网络侧的服务器中, 以进行在线识别, 或者也可以部 分功能位于客户端中, 部分功能位于服务器中, 以进行离线与在线结合识别, 本实施例对此 不进行限定。 0060 可以理解的是, 所述客户端可以是安装在终端上的输入法应用程序, 或者还可以 是浏览器的一个网页, 只要能够实现词条获取, 以提供。
22、识别新词和 / 或热词的客观存在形 式都可以, 本实施例对此不进行限定。 0061 这样, 通过对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域, 进而获取 所述感兴趣区域内的文本信息, 并对所述文本信息进行切词操作, 以获得候选词条, 使得能 够选择至少一个候选词条, 以作为新词和 / 或热词, 由于采用用户当前的阅读行为所关注 的区域所提取的用户感兴趣的文本信息, 进行候选词条的获取操作, 因此, 能够基于这些文 本信息及时地识别出新词和 / 或热词, 从而提高了词条获取的及时性。 0062 另外, 采用本发明提供的技术方案, 能够及时地利用所识别出的新词和 / 或热词 更新输入法所。
23、加载的各类专业字典即输入法字典, 能够进一步有效提高输入法的字典的准 确性。 0063 可选地, 在本实施例的一个可能的实现方式中, 在 101 中, 具体可以获取所述眼球 的视频信息。其中, 所述眼球的视频信息可以由若干帧图像组成, 可以利用摄像头进行采 集。进而, 根据所述视频信息, 确定所述眼球的位置区域。然后, 根据所述视频信息, 确定所 述眼球的可运动路径, 以及根据所述可运动路径, 确定所述眼球的可移动区域。 由于人眼球 的运动弧度范围在一个固定区间内, 因此, 可以根据该视频信息确定眼球对应的可运动路 径。该运动路径可以是一个精确的值, 也可以是一个运动区间。通过该可运动路径, 。
24、可以进 一步计算出基于该可运动路劲的可到达面积, 该可到达面积即为所述眼球的可移动区域。 最后, 则可以根据所述眼球的位置区域和所述眼球的可移动区域, 确定所述眼球的关注区 域, 以作为所述用户的感兴趣区域。 0064 具体地, 可以将所述眼球的位置区域在所述眼球的可移动区域内的部分, 确定为 所述眼球的关注区域。若所述眼球的关注区域满足关注条件, 确定所述眼球的关注区域为 所述用户的感兴趣区域。 0065 其中, 所述关注条件可以包括但不限于关注时间和关注频次中的至少一项。 0066 例如, 若所述眼球的关注区域在所述眼球的可移动区域内的停留时间大于或等于 3 秒, 则可以确定所述眼球的关注。
25、区域为所述用户的感兴趣区域。 0067 或者, 再例如, 若所述眼球的关注区域在所述眼球的可移动区域内的停留次数大 于或等于 2 次, 或 2 次 / 分钟, 则可以确定所述眼球的关注区域为所述用户的感兴趣区域。 0068 可选地, 在本实施例的一个可能的实现方式中, 在 102 中, 具体可以采用现有技术 中的各种文本识别方法, 获取所述感兴趣区域内的文本信息, 本发明对此不进行特别限定。 0069 例如, 可以获取所述感兴趣区域在具有文本信息的用户界面上包围的局部屏幕截 图, 然后, 则可以对获取到的局部屏幕截图进行文本识别, 以获取到所述感兴趣区域内的文 本信息。 0070 或者, 再例。
26、如, 可以获取所述感兴趣区域的位置信息, 根据该位置信息, 确定对应 说 明 书 CN 103823849 A 7 5/10 页 8 的文本信息, 以作为所述感兴趣区域内的文本信息。 0071 另外, 文本识别的详细描述可以参见现有技术中的相关内容, 此处不再赘述。 0072 可选地, 在本实施例的一个可能的实现方式中, 在 103 中, 具体可以采用现有技术 中的各种切词方法, 对所获取到的文本信息进行切词操作。 例如, 基于字符串匹配的分词方 法, 或者, 再例如, 基于理解的分词方法, 或者, 再例如, 基于统计的分词方法, 本发明对此不 进行特别限定。切词方法的详细描述可以参见现有技术。
27、中的相关内容, 此处不再赘述。 0073 可选地, 在本实施例的一个可能的实现方式中, 在 104 中, 具体可以将没有出现在 预先配置的输入法字典中的候选词条确定为新词。 0074 具体地, 可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词 条没有出现在预先配置的输入法字典中, 则可以将该候选词条确定为新词。 0075 需要说明的是, 预先配置的输入法字典可以配置在网络侧的服务器, 或者还可以 配置在本地的客户端, 本实施例对此不进行特别限定。 0076 可选地, 在本实施例的一个可能的实现方式中, 在 104 中, 具体可以将出现在预先 配置的输入法字典中的候选词条, 确定为。
28、候选热词。进而, 根据所述候选热词出现的词频, 确定所述候选热词的热度值。 然后, 则可以将热度值大于或等于热度阈值的候选热词, 确定 为热词。 0077 具体地, 可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词 条已经出现在预先配置的输入法字典中, 则可以将该候选词条标记为候选热词。 然后, 可以 根据所述输入法字典, 获取候选热词在指定时间范围之内出现的词频, 并根据该词频, 确定 所述候选热词的热度值。 最后, 则可以将热度值大于或等于热度阈值的候选热词, 确定为热 词。 0078 例如, 具体可以根据公式, 即候选热词的热度值 =(所有候选热词的平均得分 * 所 有候选。
29、热词的平均词频 + 候选热词的得分 * 候选热词在总统计时间内的总词频) /(所有候 选热词的平均词频 + 候选热词在总统计时间内的总词频) , 确定候选热词的热度值。其中, 0079 候选热词的得分=候选热词在最近一个单位统计时间内的词频/候选热词在总统 计时间内的总词频。 0080 以下结合具体的实施例对上述实施过程进行详细说明, 假设四个候选热词即候选 热词 A、 候选热词 B、 候选热词 C 和候选热词 D, 以及单位统计时间为一天, 总统计时间为两 天。在 2013-12-18 和 2013-12-19 这两天内出现的词频如下表所示 : 0081 说 明 书 CN 103823849。
30、 A 8 6/10 页 9 0082 从表格中显示的数据可以看出, 根据 2013-12-18 和 2013-12-19 这两天的历史数 据分别计算出这四个候选热词的得分分别为 0.74、 0.52、 0.8、 0.82。此时, 可假设已经有 320个人预先给每个词都打了0.72分, 候选热词A还有额外的135个人打分, 每个人都给了 0.74 分, 按照前面所述的计算公式, 这四个候选热词的热度值分别可以为 : 0083 A : (0.72*320+0.74*135)/(320+135)=0.725 0084 B : (0.72*320+0.52*290)/(320+290)=0.625 0。
31、085 C : (0.72*320+0.8*5)/(320+5)=0.721 0086 D : (0.72*320+0.82*850)/(320+850)=0.793 0087 按照热度值, 从大到小排序如下 : 0088 DACB 0089 可以看出, 候选热词 D 出现的频率最高, 因此排名也最靠前, 如果该候选热词的热 度值不小于预先设置的热度阈值, 则可以将候选热词 D 确定为热词。 0090 可以理解的是, 在识别出新词和 / 或热词之后, 还可以进一步利用这些词条更新 本地的输入法字典, 或者还可以进一步利用这些词条更新云端 (网络侧) 的输入法字典, 本 实施例对此不进行特别限定。
32、。具体可以采用所统计的 Ngram 信息和 / 或 Npos 信息中的至 少一项, 更新本地的输入法字典或云端的输入法字典, 详细描述可以参见现有技术中的相 关内容, 此处不再赘述。 0091 可以理解的是, 本实施例提供的技术方案, 不仅可以针对一个用户, 识别出新词和 / 或热词, 还可以进一步针对多个用户, 对多个用户的识别结果进行有效的整理和分析, 以 获得针对多个用户的新词和 / 或热词。 0092 可选地, 在本实施例的一个可能的实现方式中, 在 104 之后, 还可以进一步对所选 择的新词和 / 或热词进行特殊展现。例如, 可以给这些新词和 / 或热词增加图标标识 ; 或 者, 。
33、再例如, 可以在特殊的候选位置展现这些新词和 / 或热词。 0093 本实施例中, 通过对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域, 进 而获取所述感兴趣区域内的文本信息, 并对所述文本信息进行切词操作, 以获得候选词条, 使得能够选择至少一个候选词条, 以作为新词和 / 或热词, 由于采用用户当前的阅读行为 所关注的区域所提取的用户感兴趣的文本信息, 进行候选词条的获取操作, 因此, 能够基于 这些文本信息及时地识别出新词和 / 或热词, 从而提高了词条获取的及时性。 说 明 书 CN 103823849 A 9 7/10 页 10 0094 另外, 采用本发明提供的技术方案, 。
34、能够及时地利用所识别出的新词和 / 或热词 更新输入法所加载的各类专业字典即输入法字典, 能够进一步有效提高输入法的字典的准 确性。 0095 需要说明的是, 对于前述的各方法实施例, 为了简单描述, 故将其都表述为一系列 的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描述的动作顺序的限制, 因为 依据本发明, 某些步骤可以采用其他顺序或者同时进行。其次, 本领域技术人员也应该知 悉, 说明书中所描述的实施例均属于优选实施例, 所涉及的动作和模块并不一定是本发明 所必须的。 0096 在上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没有详述的部 分, 可以参见其他实施。
35、例的相关描述。 0097 图 2 为本发明另一实施例提供的词条的获取装置的结构示意图, 如图 2 所示。本 实施例的词条的获取装置可以包括跟踪单元 21、 获取单元 22、 切词单元 23 和选择单元 24。 其中, 跟踪单元 21, 用于对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域 ; 获取 单元 22, 用于获取所述感兴趣区域内的文本信息 ; 切词单元 23, 用于对所述文本信息进行 切词操作, 以获得候选词条 ; 选择单元 24, 用于选择至少一个候选词条, 以作为新词和 / 或 热词。 0098 需要说明的是, 本实施例提供的词条的获取装置, 可以位于本地的客户端中, 以进 。
36、行离线识别, 或者还可以位于网络侧的服务器中, 以进行在线识别, 或者也可以部分功能位 于客户端中, 部分功能位于服务器中, 以进行离线与在线结合识别, 本实施例对此不进行限 定。 0099 可以理解的是, 所述客户端可以是安装在终端上的输入法应用程序, 或者还可以 是浏览器的一个网页, 只要能够实现词条获取, 以提供识别新词和 / 或热词的客观存在形 式都可以, 本实施例对此不进行限定。 0100 这样, 通过跟踪单元对用户的眼球进行跟踪操作, 以获得所述用户的感兴趣区域, 进而由获取单元获取所述感兴趣区域内的文本信息, 并由切词单元对所述文本信息进行切 词操作, 以获得候选词条, 使得选择。
37、单元能够选择至少一个候选词条, 以作为新词和 / 或热 词, 由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息, 进行候 选词条的获取操作, 因此, 能够基于这些文本信息及时地识别出新词和 / 或热词, 从而提高 了词条获取的及时性。 0101 另外, 采用本发明提供的技术方案, 能够及时地利用所识别出的新词和 / 或热词 更新输入法所加载的各类专业字典即输入法字典, 能够进一步有效提高输入法的字典的准 确性。 0102 可选地, 在本实施例的一个可能的实现方式中, 所述跟踪单元 21 具体可以在用 户界面上对用户的眼球进行跟踪操作。其中, 所述用户界面可以为终端所显示的万维。
38、网 (World Wide Web, Web) 页面, 或者还可以为终端所显示的应用文档, 例如, 电子邮件、 WORD 文档、 TXT 文档、 PDF 文档等, 本发明对此不进行特别限定。 0103 可选地, 在本实施例的一个可能的实现方式中, 所述跟踪单元 21 具体可以用于获 取所述眼球的视频信息 ; 根据所述视频信息, 确定所述眼球的位置区域 ; 根据所述视频信 息, 确定所述眼球的可运动路径, 以及根据所述可运动路径, 确定所述眼球的可移动区域 ; 说 明 书 CN 103823849 A 10 8/10 页 11 以及根据所述眼球的位置区域和所述眼球的可移动区域, 确定所述眼球的关。
39、注区域, 以作 为所述用户的感兴趣区域。 0104 其中, 所述眼球的视频信息可以由若干帧图像组成, 可以利用摄像头进行采集。 由 于人眼球的运动弧度范围在一个固定区间内, 因此, 可以根据该视频信息确定眼球对应的 可运动路径。该运动路径可以是一个精确的值, 也可以是一个运动区间。通过该可运动路 径, 可以进一步计算出基于该可运动路劲的可到达面积, 该可到达面积即为所述眼球的可 移动区域。 0105 具体地, 所述跟踪单元 21 具体可以将所述眼球的位置区域在所述眼球的可移动 区域内的部分, 确定为所述眼球的关注区域 ; 若所述眼球的关注区域满足关注条件, 确定所 述眼球的关注区域为所述用户的。
40、感兴趣区域。 0106 其中, 所述关注条件可以包括但不限于关注时间和关注频次中的至少一项。 0107 例如, 若所述眼球的关注区域在所述眼球的可移动区域内的停留时间大于或等于 3 秒, 所述跟踪单元 21 则可以确定所述眼球的关注区域为所述用户的感兴趣区域。 0108 或者, 再例如, 若所述眼球的关注区域在所述眼球的可移动区域内的停留次数大 于或等于 2 次, 或 2 次 / 分钟, 所述跟踪单元 21 则可以确定所述眼球的关注区域为所述用 户的感兴趣区域。 0109 可选地, 在本实施例的一个可能的实现方式中, 所述获取单元 22 具体可以采用现 有技术中的各种文本识别方法, 获取所述感。
41、兴趣区域内的文本信息, 本发明对此不进行特 别限定。 0110 例如, 所述获取单元 22 可以获取所述感兴趣区域在具有文本信息的用户界面上 包围的局部屏幕截图, 然后, 则可以对获取到的局部屏幕截图进行文本识别, 以获取到所述 感兴趣区域内的文本信息。 0111 或者, 再例如, 所述获取单元 22 可以获取所述感兴趣区域的位置信息, 根据该位 置信息, 确定对应的文本信息, 以作为所述感兴趣区域内的文本信息。 0112 另外, 文本识别的详细描述可以参见现有技术中的相关内容, 此处不再赘述。 0113 可选地, 在本实施例的一个可能的实现方式中, 切词单元 23 具体可以采用现有技 术中的。
42、各种切词方法, 对所获取到的文本信息进行切词操作。 例如, 基于字符串匹配的分词 方法, 或者, 再例如, 基于理解的分词方法, 或者, 再例如, 基于统计的分词方法, 本发明对此 不进行特别限定。切词方法的详细描述可以参见现有技术中的相关内容, 此处不再赘述。 0114 可选地, 在本实施例的一个可能的实现方式中, 所述选择单元 24, 具体可以用于将 没有出现在预先配置的输入法字典中的候选词条确定为新词。 0115 具体地, 所述选择单元 24 可以获取切词操作所获得的候选词条中的任一候选词 条 ; 如果该候选词条没有出现在预先配置的输入法字典中, 则可以将该候选词条确定为新 词。 011。
43、6 需要说明的是, 预先配置的输入法字典可以配置在网络侧的服务器, 或者还可以 配置在本地的客户端, 本实施例对此不进行特别限定。 0117 可选地, 在本实施例的一个可能的实现方式中, 所述选择单元 24, 具体可以用于将 出现在预先配置的输入法字典中的候选词条, 确定为候选热词 ; 根据所述候选热词出现的 词频, 确定所述候选热词的热度值 ; 以及将热度值大于或等于热度阈值的候选热词, 确定为 说 明 书 CN 103823849 A 11 9/10 页 12 热词。 0118 具体地, 所述选择单元 24 可以获取切词操作所获得的候选词条中的任一候选词 条 ; 如果该候选词条已经出现在预。
44、先配置的输入法字典中, 则可以将该候选词条标记为候 选热词 ; 然后, 可以根据所述输入法字典, 获取候选热词在指定时间范围之内出现的词频, 并根据该词频, 确定所述候选热词的热度值 ; 最后, 则可以将热度值大于或等于热度阈值的 候选热词, 确定为热词。 0119 例如, 具体可以根据公式, 即候选热词的热度值 =(所有候选热词的平均得分 * 所 有候选热词的平均词频 + 候选热词的得分 * 候选热词在总统计时间内的总词频) /(所有候 选热词的平均词频 + 候选热词在总统计时间内的总词频) , 确定候选热词的热度值。其中, 0120 候选热词的得分=候选热词在最近一个单位统计时间内的词频/。
45、候选热词在总统 计时间内的总词频。 0121 详细描述可以参见图 1 对应的实施例中的相关内容, 此处不再赘述。 0122 可以理解的是, 本实施例提供的的词条的获取装置在识别出新词和 / 或热词之 后, 还可以进一步利用这些词条更新本地的输入法字典, 或者还可以进一步利用这些词条 更新云端 (网络侧) 的输入法字典, 本实施例对此不进行特别限定。具体可以采用所统计的 Ngram信息和/或Npos信息中的至少一项, 更新本地的输入法字典或云端的输入法字典, 详 细描述可以参见现有技术中的相关内容, 此处不再赘述。 0123 可以理解的是, 本实施例提供的技术方案, 不仅可以针对一个用户, 识别。
46、出新词和 / 或热词, 还可以进一步针对多个用户, 对多个用户的识别结果进行有效的整理和分析, 以 获得针对多个用户的新词和 / 或热词。 0124 可选地, 在本实施例的一个可能的实现方式中, 本实施例提供的词条的获取装置 还可以进一步对所选择的新词和 / 或热词进行特殊展现。例如, 可以给这些新词和 / 或热 词增加图标标识 ; 或者, 再例如, 可以在特殊的候选位置展现这些新词和 / 或热词。 0125 本实施例中, 通过跟踪单元对用户的眼球进行跟踪操作, 以获得所述用户的感兴 趣区域, 进而由获取单元获取所述感兴趣区域内的文本信息, 并由切词单元对所述文本信 息进行切词操作, 以获得候。
47、选词条, 使得选择单元能够选择至少一个候选词条, 以作为新词 和 / 或热词, 由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信 息, 进行候选词条的获取操作, 因此, 能够基于这些文本信息及时地识别出新词和 / 或热 词, 从而提高了词条获取的及时性。 0126 另外, 采用本发明提供的技术方案, 能够及时地利用所识别出的新词和 / 或热词 更新输入法所加载的各类专业字典即输入法字典, 能够进一步有效提高输入法的字典的准 确性。 0127 所属领域的技术人员可以清楚地了解到, 为描述的方便和简洁, 上述描述的系统, 装置和单元的具体工作过程, 可以参考前述方法实施例中的对应过。
48、程, 在此不再赘述。 0128 在本发明所提供的几个实施例中, 应该理解到, 所揭露的系统, 装置和方法, 可以 通过其它的方式实现。例如, 以上所描述的装置实施例仅仅是示意性的, 例如, 所述单元的 划分, 仅仅为一种逻辑功能划分, 实际实现时可以有另外的划分方式, 例如多个单元或组件 可以结合或者可以集成到另一个系统, 或一些特征可以忽略, 或不执行。另一点, 所显示或 讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口, 装置或单元的间接耦 说 明 书 CN 103823849 A 12 10/10 页 13 合或通信连接, 可以是电性, 机械或其它的形式。 0129 所述作为分。
49、离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显 示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个 网络单元上。 可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。 0130 另外, 在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以 是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现, 也可以采用硬件加软件功能单元的形式实现。 0131 上述以软件功能单元的形式实现的集成的单元, 可以存储在一个计算机可读取 存储介质中。上述软件功能单元存储在一个存储介质中, 包括若干指令用以使得一台计 算机装置 (可以是个人。