《一种基于查询日志的新词自动查找系统和方法.pdf》由会员分享,可在线阅读,更多相关《一种基于查询日志的新词自动查找系统和方法.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102831194 A (43)申请公布日 2012.12.19 C N 1 0 2 8 3 1 1 9 4 A *CN102831194A* (21)申请号 201210274901.0 (22)申请日 2012.08.03 G06F 17/30(2006.01) (71)申请人人民搜索网络股份公司 地址 100020 北京市朝阳区东三环中路1号 环球金融中心西塔16层 (72)发明人张爱琦 崔世起 杨青 (74)专利代理机构北京汇泽知识产权代理有限 公司 11228 代理人刘淑敏 (54) 发明名称 一种基于查询日志的新词自动查找系统和方 法 (57) 摘要 本发。
2、明公开了一种基于查询日志的新词自动 查找系统及方法,主要包括:查询日志预处理模 块,用于根据设置的定时新词发现的时间,定期从 查询日志中获取定时间隔的这一段时间内的查询 串及查询频次等;新词发现模块,根据所述查询 串的分词结果,统计相同n-gram串的频次;计算 n-gram词串的共现率;归并候选新词集合中相近 频次的父子串;新词生成模块,对候选新词集合 应用过滤和剪枝策略,去除候选新词集合中的垃 圾串,得到最终的新词集合。采用本发明,解决现 有统计方法的语料库难获取和规则方法的不易扩 展等问题,通过使用词串共现率,辅以过滤策略, 能够简便易行地从查询日志中自动发现新词,将 最终新词集合导入分。
3、词词库中,从而实现增量式 新词发现。 (51)Int.Cl. 权利要求书2页 说明书5页 附图2页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 5 页 附图 2 页 1/2页 2 1. 一种基于查询日志的新词自动查找系统,其特征在于,主要包括查询日志预处理模 块、新词发现模块和新词生成模块;其中: 查询日志预处理模块,用于根据设置的定时新词发现的时间,定期的从查询日志中 获取定时间隔的这一段时间内的查询串及查询频次,并对查询串进行分词处理,保存每个 n-gram串及相应的频次; 新词发现模块,根据所述查询串的分词结果,统计相同n-gram串的频次;根。
4、据单个词 的频次和n-gram串的频次计算n-gram词串的共现率,并选取共现率较高的词串作为候选 新词集合;归并候选新词集合中相近频次的父子串; 新词生成模块,对候选新词集合应用过滤和剪枝策略,去除候选新词集合中的垃圾串, 得到最终的新词集合。 2.将最终新词集合导入分词词库中,从而实现增量式新词发现。 3.根据权利要求1所述的基于查询日志的新词自动查找系统,其特征在于,所述过滤 和剪枝策略包括基本语言学构词规则策略和成词模式过滤策略。 4.根据权利要求2所述的基于查询日志的新词自动查找系统,其特征在于,所述基本 语言学构词规则策略,包括字数过滤规则,纯数字字母串和日期过滤规则,常见辅助词过。
5、滤 规则和常见查询搭配词过滤规则。 5.根据权利要求2所述的基于查询日志的新词自动查找系统,其特征在于,所述成词 模式过滤策略,包括叠词模式过滤和四字词的2-2模式剪枝。 6.一种基于查询日志的新词自动查找方法,其特征在于,该方法包括: A、查询串的分词处理步骤:选取一段时间的查询日志,使用查询串及查询频次,删除该 查询日志中的其他信息,并使用分词工具对查询串进行切分; B、新词发现的实现步骤,包括词串频率的统计、词串共现率计算以及父子串归并; C、新词过滤的步骤,包括对生成的候选新词集合进行过滤,去除垃圾串。 7.根据权利要求5所述的基于查询日志的新词自动查找方法,其特征在于,步骤A所述 使。
6、用分词工具对查询串进行切分,对于一个查询串,分词切分时会返回多个粒度的结果;采 用分词的最大粒度结果,以保证词串中任意词的组合均不为已经存在的词。 8.根据权利要求6所述的基于查询日志的新词自动查找方法,其特征在于,步骤A进 一步包括:按照传统语言学概念,将词语根据成词字数分为单元词、二元词、三元词、四元 词和多元词,并通过扩展该语言学概念,根据数据串进行分词处理后成词的词数,将所述 词串分为2-gram、3-gram、n-gram;词串中的每个词称为token,则n-gram的格式为: token-1空格token-2token-n。 9.根据权利要求5、6或7所述的基于查询日志的新词自动查。
7、找方法,其特征在于: 词串频率统计,具体为:统计1-gram、2-gram、3-gram、4-gram和5-gram的词串的频次, 并将相同词串的词频进行累加,输出为n-gram及其词频,表示为;其 中,1-gram的词是已存在的词,不需进入候选新词集合,但在计算词串共现率时需要使用, 因此仍需统计该类词串的词频并单独保存起来; 词串共现率计算,具体为:使用词串中所有词共同出现的概率来表示其组合成词的可 能性,选取共现率较高的词串作为候选新词集合;所述共现率根据每个词的词频和整个词 串的词频计算得到,以解决基于统计的方法中单纯根据单个词的词频筛选时,由于数据稀 权 利 要 求 书CN 1028。
8、31194 A 2/2页 3 疏而导致的漏识别低频新词的问题; 父子串归并,具体为:遍历获取到的所有n-gram串,如果两个词串存在父子包含关系, 且两者的查询频率相同或相近,则从候选新词集合中删除子串。 10.根据权利要求5所述的基于查询日志的新词自动查找方法,其特征在于,步骤C所 述新词过滤策略,具体为:根据语言学构词规则统计及成词模式研究获得垃圾串过滤规则, 主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见查询词 过滤枝规则及叠词模式过滤规则、2-2模式剪枝规则。 权 利 要 求 书CN 102831194 A 1/5页 4 一种基于查询日志的新词自动查找系统和。
9、方法 技术领域 0001 本发明涉及互联网信息处理领域,特别涉及一种基于查询日志的新词自动查找 系统和方法。 背景技术 0002 随着互联网的飞速发展,网络信息的发布和传播越来越快,网络新词也随之层出 不穷。根据中国语言文字工作委员会的专家所做的统计,自改革开放以来20年内平均每 年产生800多个新词语,而近年来,网络的发达早已使新词的产生速度远远超过这一数字。 新词的产生导致进行互联网信息处理时,对词语的切分、理解和信息检索的能力大大下降。 因此如何有效地发现新词,是互联网信息处理领域的一项重要工作。因此,这里所称的“新 词”,不仅包含传统语言学上的词语,还包括互联网上最新出现的广为传颂的短。
10、语。 0003 目前的新词发现方法主要有基于统计和基于规则两种方法。基于统计的方法,首 先利用统计模型,根据词语的特征信息获取候选串,再利用词频等信息过滤垃圾串,该方法 依赖于语料库的完善,并且倾向于识别较短或高频的新词,识别新短语及低频词的能力较 差。基于规则的方法,一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词 典或模式库,然后通过模式匹配发现新词,该方法需要专业领域知识及语言学基础,可移植 性和可扩展性较差,更新速度较慢。 0004 新词常常是对新事物或新事件的概述,在构成方面没有普遍统一的规律,常常不 符合汉字的构词规则,并且新词产生速度快,覆盖范围广,语料收集工作较难同。
11、步。因此 传统的基于统计和基于规则进行新词识别的方法已无法满足当前快速、准确发现新词的需 求。 0005 但是现有技术采用基于统计的方法,对语料库的要求较高,容易产生垃圾串,且常 常由于数据稀疏导致无法识别出低频新词;而基于规则的方法又依赖规则获取的有效性和 完备性,无法满足新词快速更新的需求。 发明内容 0006 有鉴于此,本发明的主要目的在于提供一种基于查询日志的新词自动查找系统 和方法,以解决现有统计方法的语料库难获取和规则方法的不易扩展等问题,通过使用词 串共现率,辅以过滤策略,该新词自动查找系统和方法不需要构建语料库和特殊规则,能够 简便易行地从查询日志中自动发现新词。 0007 为。
12、达到上述目的,本发明的技术方案是这样实现的: 一种基于查询日志的新词自动查找系统,主要包括查询日志预处理模块、新词发现模 块和新词生成模块;其中: 查询日志预处理模块,用于根据设置的定时新词发现的时间,定期的从查询日志中 获取定时间隔的这一段时间内的查询串及查询频次,并对查询串进行分词处理,保存每个 n-gram串及相应的频次; 说 明 书CN 102831194 A 2/5页 5 新词发现模块,根据所述查询串的分词结果,统计相同n-gram串的频次;根据单个词 的频次和n-gram串的频次计算n-gram词串的共现率,并选取共现率较高的词串作为候选 新词集合;归并候选新词集合中相近频次的父子。
13、串; 新词生成模块,对候选新词集合应用过滤和剪枝策略,去除候选新词集合中的垃圾串, 得到最终的新词集合。将最终新词集合导入分词词库中,从而实现增量式新词发现。 0008 其中:所述过滤和剪枝策略包括基本语言学构词规则策略和成词模式过滤策略。 0009 所述基本语言学构词规则策略,包括字数过滤规则,纯数字字母串和日期过滤规 则,常见辅助词过滤规则和常见查询搭配词过滤规则。 0010 所述成词模式过滤策略,包括叠词模式过滤和四字词的2-2模式剪枝。 0011 一种基于查询日志的新词自动查找方法,该方法包括: A、查询串的分词处理步骤:选取一段时间的查询日志,使用查询串及查询频次,删除该 查询日志中。
14、的其他信息,并使用分词工具对查询串进行切分; B、新词发现的实现步骤,包括词串频率的统计、词串共现率计算以及父子串归并; C、新词过滤的步骤,包括对生成的候选新词集合进行过滤,去除垃圾串。 0012 其中:步骤A所述使用分词工具对查询串进行切分,对于一个查询串,分词切分时 会返回多个粒度的结果;采用分词的最大粒度结果,以保证词串中任意词的组合均不为已 经存在的词。 0013 步骤A进一步包括:按照传统语言学概念,将词语根据成词字数分为单元词、二 元词、三元词、四元词和多元词,并通过扩展该语言学概念,根据数据串进行分词处理后成 词的词数,将所述词串分为2-gram、3-gram、n-gram;词。
15、串中的每个词称为token,则 n-gram的格式为:token-1空格token-2token-n。 0014 其中:词串频率统计,具体为:统计1-gram、2-gram、3-gram、4-gram和5-gram的 词串的频次,并将相同词串的词频进行累加,输出为n-gram及其词频,表示为;其中,1-gram的词是已存在的词,不需进入候选新词集合,但在计算词串共 现率时需要使用,因此仍需统计该类词串的词频并单独保存起来; 词串共现率计算,具体为:使用词串中所有词共同出现的概率来表示其组合成词的可 能性,选取共现率较高的词串作为候选新词集合;所述共现率根据每个词的词频和整个词 串的词频计算得到。
16、,以解决基于统计的方法中单纯根据单个词的词频筛选时,由于数据稀 疏而导致的漏识别低频新词的问题; 父子串归并,具体为:遍历获取到的所有n-gram串,如果两个词串存在父子包含关系, 且两者的查询频率相同或相近,则从候选新词集合中删除子串。 0015 步骤C所述新词过滤策略,具体为:根据语言学构词规则统计及成词模式研究获 得垃圾串过滤规则,主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过 滤规则、常见查询词过滤枝规则及叠词模式过滤规则、2-2模式剪枝规则。 0016 本发明所提供的基于查询日志的新词自动查找系统和方法,具有以下优点: 该发明使用词串共现率,辅以过滤策略的基于查询日志。
17、的新词发现方法,解决了基于 统计方法中由于语料库导致的垃圾串多、低频新词无法识别的问题,及基于规则方法中依 赖规则定义而不易扩展的问题。本发明还采用了增量式的新词发现技术,新词一经发现,可 立即加入分词词库中,能够确保新词不被重复发现。本发明的新词自动查找系统和方法,应 说 明 书CN 102831194 A 3/5页 6 用于任意技术领域的查询日志样本数据集中,尤其适用于分词词典扩充及热词挖掘等方面 的应用。 附图说明 0017 图1为本发明提供的基于查询日志的新词自动查找方法流程图; 图2为本发明所述的新词发现过程示意图; 图3为本发明提供的基于查询日志的新词自动查找系统示意图。 具体实施。
18、方式 0018 下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。 0019 本发明的基本思想是:针对统计方法的语料库难获取和规则方法的不易扩展等问 题,提出本发明的使用词串共现率,辅以过滤策略的基于查询日志的新词自动发现系统和 方法。其目的在于,达到不需构建语料库和特殊规则,能够简便易行地从查询日志中自动发 现新词。本发明还实现了增量式新词发现,新词一经发现,可立即加入分词词库中,确保新 词不被重复发现。其适用于分词词典扩充及热词挖掘等各方面应用。 0020 新词识别技术,通常分为基于字和基于词两种。一般来说,基于字的新词识别方法 以单个字为基本元素,能获取较高的召回率,而基于词。
19、的新词识别方法以每个词为基本元 素,具有较高的准确率。随着样本集的增大,两者的差距呈先大后小的趋势,当样本集较为 巨大时,差距可以忽略不计。然而,样本数据集毕竟有限,因此本发明采用基于词的方法,即 先利用分词工具对查询串做分词处理,再进行新词的识别。 0021 图3为本发明提供的基于查询日志的新词自动查找系统示意图,如图3所示,该基 于查询日志的新词查找系统主要包括查询日志预处理模块301、新词发现模块302和新词 生成模块303。其中: 所述查询日志预处理模块301,用于根据设置的定时新词发现的时间,定期的从查询日 志中获取定时间隔的这一段时间内的查询串及查询频次,并对查询串进行分词处理,保。
20、存 每个n-gram串及相应的频次。 0022 新词发现模块302,根据所述查询串的分词结果,统计相同n-gram串的频次;根据 单个词的频次和n-gram串的频次计算n-gram词串的共现率,并选取共现率较高的词串作 为候选新词集合;归并候选新词集合中相近频次的父子串。 0023 新词生成模块303,对候选新词集合进行过滤和剪枝,去除候选新词集合中的垃圾 串,得到最终的新词集合。将最终新词集合导入分词词库中,实现增量式新词发现。 0024 基于某搜索引擎的查询日志集合,结合附图3所示的查询日志预处理模块301、新 词发现模块302和新词生成模块303,对本发明的新词自动查找/发现方法作进一步。
21、的详细 说明。 0025 图1为本发明提供的基于查询日志的新词自动发现方法流程图,如图1所示,该方 法包括如下步骤: 步骤101:查询串的分词处理步骤。首先根据设置的定时新词发现的时间,定期的从查 询日志中获取定时间隔的这一段时间内的查询串及查询频次。使用分词工具对查询串进行 切分,对于一个查询串,分词切分时会返回多个粒度的结果,本发明采用分词的最大粒度结 说 明 书CN 102831194 A 4/5页 7 果,从而保证词串中任意词的组合都不是已经存在的词。按照传统语言学概念,词语根据成 词字数分为单元词、二元词、三元词、四元词和多元词等。本发明扩展了该概念,根据数据串 进行分词处理后成词的。
22、词数,将词串分为2-gram、3-gram、n-gram。词串中的每个词称 为token,则n-gram的格式为:token-1空格token-2token-n。 0026 步骤102:新词发现的具体实现步骤。如附图2所示,所述新词发现的具体实现过 程,主要包括步骤201步骤203。 0027 步骤201:串频统计的步骤。虽然从查询日志中获取的查询串是唯一的,但是其切 分后的n-gram子串却会有所重复。串频统计阶段,先统计1-gram、2-gram、3-gram、4-gram 和5-gram的词串的频次,并将相同词串的词频进行累加,输出为n-gram及其词频,表示为 。其中1-gram的词是。
23、已存在的词,不需进入候选新词集合,但在计算 词串共现率时需要使用,因此仍需统计该类词串的词频并单独保存起来。其数据结构采用 stl的hash_map,实现快速地串频统计。 0028 步骤202:词串共现率计算的步骤;使用词串中所有词共同出现的概率来表示其 组合成词的可能性,选取共现率较高的词串作为候选新词集合。 0029 基于假设:如果组成词串的所有词经常同时出现,且该组合在这些词的所有组合 中出现的概率较高,则认为这个词串是一个新词。共现率根据每个词的词频和整个词串的 词频计算得到,不是单纯使用词频阈值进行新词过滤,解决了基于统计的方法中由于数据 稀疏导致的漏识别低频新词的问题。 0030 。
24、所述词串共现率计算公式如下: 其中,n-gram为候选新词串,tf(n-gram)是n-gram串在查询日志中的查询频次, tf(token-k)是第k个词在查询日志中的查询频次。 0031 步骤203:父子串归并的步骤。根据n-gram串的定义,高阶gram串会包含低阶 gram串,则称高阶gram串为父串,低阶gram串为子串。若两者的频次相同或相近,说明低 阶gram串每次都是作为高阶gram串的子串出现,从未或很少单独出现,因此其无法单独作 为新词,应舍弃子串,保留父串。遍历获取到的所有n-gram串,如果两个串存在父子包含关 系,且两者的出现频率相同或相近,则从候选新词集合中删除子串。
25、。具体实现如下: 步骤2031,遍历n-gram集合,假设当前n-gram的频次是n,则输出其每一个后缀,频次 也置为n,但为其置上特殊位,标识其为衍生的n-gram。 0032 步骤2032,按字典序排序包含衍生n-gram的新候选n-gram集合。 0033 步骤2033,遍历排序后的n-gram集合,读取当前行,如果当前n-gram为衍生的 n-gram,则从n-gram集合中删除当前词串,读取下一行词串,假设待处理的n-gram为s。 0034 步骤2034,读取s后续行对应的词串,直到第一个不是以s为前缀的n-gram结束; 根据频次比值,判断以s为前缀的n-gram的频次是否与s相。
26、同或相近;如果存在频次相同 或相近的父串,从初始n-gram集合中删除s,否则保留s。 0035 步骤2035,转步骤2033处理s的下一行词串,直至处理完所有候选n-gram串。 0036 步骤103:新词过滤的步骤。该步骤对生成的候选新词集合进行过滤,去除垃圾 串。过滤和剪枝策略分为基本语言学构词规则策略和成词模式过滤策略。根据语言学构词 规则,定义了以下几种过滤规则: 1)字数过滤规则:由于新词一般都是概括性词语,因此字数不会过长,根据统计得知, 说 明 书CN 102831194 A 5/5页 8 新词一般均在10字以内。因此,本发明过滤掉过长的候选新词串。 0037 2)纯数字字母串。
27、和日期过滤规则:一般不会出现单纯由数字和字母组成的新词或 日期与汉字混合组成新词的情况,如“56kv”或“2012年1月1日”,因此将纯数字串或包含 日期的词串过滤掉。本发明定义了识别数字、字母和日期的正则表达式进行过滤处理。 0038 3)常见辅助词过滤规则:有些常见辅助词,如“的”、“了”、“是”等,虽然出现频率 较高,但是不应作为新词的词首或词尾。使用历史查询日志数据,统计获得两个词库:词首 过滤词库和词尾过滤词库。若当前词串的词首或词尾分别在这两个词库中,则过滤掉当前 词串。 0039 4)常见查询搭配词过滤规则:有些常见查询词,如“高清”、“全集”、“优酷”等,虽 然经常与影视剧搭配。
28、使用,但是不应为新词的一部分,而将这些词去除后的串常常为新词。 因此对包含这种类型词的串,判断删除该类词后的词串是否存在于候选新词集合中,若不 存在,则将做删除操作后的词串添加到新词集合中。 0040 词语模式是指词串中词的组成方式,如“1-1-1模式”是指词语由三个单字词组成、 “2-1模式”是指词语由一个两字词和一个单字词组成。根据组成词语的模式,即成词模式 过滤策略,分为如下几类: 1)叠词模式过滤:当词串为1-11-1模式时,由于共现率的计算方式,导致若词串包 含多个相同单字词时,其共现率会较高,然而大部分情况下,由多个相同字重叠组成的串不 应作为词语,因此过滤掉满足这种条件的1-11-1模式串。 0041 2)四字词的2-2模式剪枝:当四字词由两个二字词组成,且其中一个二字词为人 称代词,如“我们”、“你们”等,应舍弃该词串。 0042 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 说 明 书CN 102831194 A 1/2页 9 图1 图2 说 明 书 附 图CN 102831194 A 2/2页 10 图3 说 明 书 附 图CN 102831194 A 10 。