《一种从文档集中抽取热词短语的方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种从文档集中抽取热词短语的方法和装置.pdf(19页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104077274A43申请公布日20141001CN104077274A21申请号201410265383522申请日20140613G06F17/2720060171申请人清华大学地址100084北京市海淀区清华园1号清华大学72发明人黄民烈朱小燕74专利代理机构北京汉昊知识产权代理事务所普通合伙11370代理人朱海波54发明名称一种从文档集中抽取热词短语的方法和装置57摘要本发明公开了一种从文档集中抽取热词短语的方法和装置,其中分词单元对所述文档集中的每个分句进行分词;判断单元为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密。
2、程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;热词短语抽取单元为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。与现有技术相比,本发明提供的方法和装置可以更准确地从各种语料库中抽取热词短语。51INTCL权利要求书4页说明书13页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书13页附图1页10申请公布号CN104077274ACN104077274A1/4页21一种从文档集中抽取热词短语的方法,包括对所述文档集中的每个分句进行分词;针对每个分句中所有K个以下连。
3、续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。2根据权利要求1所述的方法,还包括基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,A1,短语频率TF表示所述短语在所述文档集中出现的总次数,语段频率,DF表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的。
4、数目。3根据权利要求1所述的方法,其中判断短语边界明显度包括通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度。4根据权利要求1所述的方法,其中所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。5根据权利要求3所述的方法,其中通过以下公式计算所述短语的左、右信息熵所述短语的左信息熵的计算如下或其中,W表示所述短语,AI表示所述文档集中紧挨着短语W的左侧词集合A1,A2,A。
5、3,AS中的任一词,NW表示短语W在所述文档集中出现的总次数,A1,CAI,W表示紧挨着短语W的左边出现在所述文档集中的次数,LCEW表示短语W的左信息熵;所述短语的右信息熵的计算如下或其中,W表示所述短语,BI表示所述文档集中紧挨着短语W的右侧词集合B1,B2,B3,BP中的任一词,NW表示短语W在所述文档集中出现的总次数,N1,CW,BI表示词BI紧挨着短语W的右边出现在所述文档集中的次数,RCEW表示短语W的右信息熵。6根据权利要求4所述的方法,其中权利要求书CN104077274A2/4页3如果所述短语是由两个词组成的短语,采用二元短语词间关联度PMIW或不定元短语词间关联度MMIW计。
6、算短语的词间关联度;如果所述短语是由三个以上词组成的短语,采用三元以上短语词间关联度EMIW或不定元短语词间关联度MMIW计算短语的词间关联度,其中,PMIW、EMIW和MMIW的表达式分别如下PMIWCW1,W2/NW1NW2W表示所述短语,W1表示短语W的第一个词,W2表示短语W的第二个词,NW1和NW2分别表示词W1和W2在所述文档集中出现的次数,CW1,W2表示词W1和W2有序连续出现在所述文档集中的次数;N表示文档集中的语段数,K表示组成所述短语W的词语个数,FI表示文档集中包含组成短语W的第I个词的语段数,F表示文档集中包含短语W的语段数,A1;K表示组成短语W的词语个数,WI表示。
7、短语W中的第I个词,NWI表示词WI在文档集中出现的次数,CW表示短语W在文档集中出现的次数。7根据权利要求4所述的方法,其中采用MEDW、AVG_PMIW、MAX_PMIW、AVG_SCPW、MAX_SCPW和NMEDW中的至少一个计算所述短语的内聚度,其中,MEDW的表达式如下其中,N1表示文档集中包含短语W的语段数,N2表示文档集中包含短语W的所有词的语段数;AVG_PMIW的表达式如下其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI。
8、1WK表示词语WI1至WK有序连续出现在所述文档集中的次数,M1;MAX_PMIW的表达式如下其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组权利要求书CN104077274A3/4页4成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数,M1;AVG_SCPW的表达式如下其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI。
9、有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数;MAX_SCPW的表达式如下其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数;NMEDW的表达式如下或其中,W表示文档集中含有短语W中所有词的语段数,表示文档集中含有短语W的语段数,N为文档集中语段数,M1。8根据权利要求4所述的方法,其中判断短语边界明显度和短语中各词之间关系的紧密程。
10、度包括先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。9一种从文档集中抽取热词短语的装置,包括分词单元,被配置为对所述文档集中的每个分句进行分词;判断单元,被配置为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;热词短语抽取单元,被配置为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。权利要求书CN104077274A4/4页510根。
11、据权利要求9所述的装置,其中所述热词短语抽取单元被配置为基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,A1,短语频率TF表示所述短语在所述文档集中出现的总次数,语段频率DF表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目。权利要求书CN104077274A1/13页6一种从文档集中抽取热词短语的方法和装置技术领域0001本发明涉及信息处理技术,尤其涉及一种从文档集中抽取热词短语的方法和装置。背景技术0002随着互联网信息的爆炸式增长,人们针对热点话题来获取。
12、热点信息的需求越来越高,例如针对话题“发改委”、“证监会”、“余额宝”等来获取与之相关的对象、事件和热门话题的讨论热点,因而如何更好地从各种语料资源中抽取热词短语已成为自然语言处理领域的重要课题。就现有的热词短语抽取技术而言,通常比较依赖于分词系统,如果分词系统的分词效果不好,直接导致热词短语抽取的效果很差,而现有的分词系统通常对诸如期刊、报纸上等正规文献上的语句进行分词的效果较好,而对于用词不规范的网络用词进行分词的效果较差,由此进一步导致大部分网络热词短语不能很好地被抽取;而且,现有的热词短语抽取技术通常只能抽取包含较少词的短语,比如包含两个词或三个词,并且对短语的抽取比较依赖于语言学规则。
13、诸如语法、句法规则,灵活度不高;另外,现有的热词短语抽取技术通常采用的策略是将较短的词语扩充为较长的词语,导致不能将大部分较长的且含有噪声词如“的”、“了”、“致”的热词短语成功抽取,也即现有的热词短语抽取技术的鲁棒性较差。发明内容0003本发明解决的技术问题之一是提升热词短语抽取的准确性。0004根据本发明的一个方面的一个实施例,提供了一种从文档集中抽取热词短语的方法,包括0005对所述文档集中的每个分句进行分词;0006针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;0007基于。
14、短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。0008根据本发明的一个实施例,本方法还包括0009基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,A1,短语频率TF表示所述短语在所述文档集中出现的总次数,语段频率DF表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目。0010根据本发明的一个实施例,判断短语边界明显度的步骤包括0011通过计算所述短语的左、右信息熵并与相应阈值比较。
15、,判断短语边界明显度;或0012通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在说明书CN104077274A2/13页7所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度。0013根据本发明的一个实施例,所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。0014根据本发明的一个实施例,所述判断短语边界明显度和短语中各词之间关系的紧密程度的步骤包括先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。0015根据本发明的另一个。
16、方面的一个实施例,还提供了一种从文档集中抽取热词短语的装置,包括0016分词单元,被配置为对所述文档集中的每个分句进行分词;0017判断单元,被配置为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;0018热词短语抽取单元,被配置为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。0019根据本发明的一个实施例,所述热词短语抽取单元被配置为基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少。
17、一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,短语频率TF表示所述短语在所述文档集中出现的总次数,语段频率DF表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目,A1。0020根据本发明的一个实施例,判断单元被配置为基于以下中的任一项判断短语边界明显度0021通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或0022通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显。
18、度。0023根据本发明的一个实施例,所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。0024根据本发明的一个实施例,所述判断单元被配置为在判断短语边界明显度和短语中各词之间关系的紧密程度中先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。0025与依赖分词的现有技术相比,本发明一个实施例提供的从文档集中抽取热词短语的方法针对每个分句中所有K个以下连续词组成的短语进行统计学上的判断,这样,即使分词不准确,由于一些词语从统计学上仍然会连在一起频繁出现而被识别成热词短语,因此相比于现有技术的方案,可以有效提升热词短语。
19、抽取的鲁棒性,无论对于正规文献上的语句还是网络用语,都能很好地从中抽取热词短语。0026另外,对于包含较多词或/和包含噪声词的热点短语,本发明的一个实施例也可以有效地抽取,抽取的热点短语如“致我们逝去的青春”、“关注越南局势”、“雾霾天气”等说明书CN104077274A3/13页8等。噪声词是指如“的”等无实际意义的词。0027再者,本发明提供的方法是无需人干预的,完全数据驱动的,无需根据业务需要进行繁琐复杂的规则处理。0028并且,本发明一个实施例提供的从文档集中抽取热词短语的方法,基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少一个,对所述抽取的一部分短语进行排序,并基于。
20、排序从抽取出的热词短语中进一步过滤掉一部分热词短语,从而更准确地从文档集中抽取热词短语。0029并且,本发明的一个实施例提供的从文档集中抽取热词短语的方法,通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差并与相应阈值比较,判断短语边界明显度,可以进一步提升热词短语抽取的鲁棒性。0030并且,本发明一个实施例提供的从文档集中抽取热词短语的方法,通过先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度。
21、都大于相应阈值,判断短语中词间内聚度,可以进一步提升热词短语抽取的准确性和鲁棒性。0031本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。附图说明0032通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显0033图1示出根据本发明一个实施例的从文档集中抽取热词短语的方法流程图;0034图2示出根据本发明另一个实施例的从文档集中抽取热词短语的装置的示意性框图。0035附图中相同或相似的附图标记代表相同或相似的部件。具体实施。
22、方式0036下面结合附图对本发明作进一步详细描述。0037图1示出根据本发明一个实施例的从文档集中抽取热词短语的方法1流程图。根据本发明的一个实施例,方法1包括0038步骤S101,对所述文档集中的每个分句进行分词;0039步骤S102,针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,可由用户根据需要提前设置。边界明显度指示短语与短语左右的词的搭配自由度;0040步骤S103,基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。0041其中,文档集可。
23、以指单个文档或多个文档的集合,当然,此处的文档集仅为示例,还可以为其他的语料资源,诸如词典、微博数据库等,同样适用于本发明。其中,分句可以指说明书CN104077274A4/13页9文档中诸如逗号、分号等停顿符号之间的相对独立的意群。0042具体地,在步骤S101中,对所述文档集中的每个分句进行分词。此处的分词方法具体不作限定,诸如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等,都可适用于本发明,并在此以引用方式包含于此。例如,对文档集中的分句“ABCDEFGHIJK”进行分词,得到A_B_C_D_E_F_G_H_I_J_K其中的下划线表示空格,其中的空格经分词处理得到,字。
24、母AK中的每个字母代表该分句经过分词处理依次得到的词。0043在步骤S102中,针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度。0044具体地,仍以分句“ABCDEFGHIJK”为例,设定一个初始值K,例如K为6,针对该分句中所有6个以下连续词组成的短语,判断其边界明显度和/或短语中各词之间关系的紧密程度。对于分句“ABCDEFGHIJK”而言,其中所有6个以下连续词组成的短语包括0045A0046AB0047ABC0048ABCD0049ABCDE0050ABCDEF0051B00。
25、52BC0053BCD0054BCDE0055BCDEF0056BCDEFG0057C0058CD00590060可选地,所述判断短语边界明显度的步骤包括0061通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或0062通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度。0063以短语“给力”为例,其出现在文档集中的左侧词集合为“太、好”,假设“太”出现了30次,“好”出现了20次,则00640065此方差较小,说明“给力”左搭配的词经。
26、常不同,左边界明显。0066再以“我们逝去的青春”为例,发现其在文档中的左侧词集合为“致”和,其中说明书CN104077274A5/13页10表示无左侧词,“致”出现了49次,无左侧词出现了1次,则00670068显示此方差较大,说明“我们逝去的青春”左边经常固定搭配,左边界不明显。“致”和“我们逝去的青春”连起来更可能是一个短语。0069通常,如果所述短语的左、右信息熵越高,那么所述短语边界明显度越高,也即短语与短语左右的词的搭配自由度越高。0070可选地,通过以下公式计算所述短语的左、右信息熵0071所述短语的左信息熵的计算如下0072或00730074其中,W表示所述短语,AI表示所述文。
27、档集中紧挨着短语W的左侧词集合A1,A2,A3,AS中的任一词,NW表示短语W在所述文档集中出现的总次数,M1,CAI,W表示紧挨着短语W的左边出现在所述文档集中的次数,LCEW表示短语W的左信息熵;0075所述短语的右信息熵的计算如下0076或00770078其中,W表示所述短语,BI表示所述文档集中紧挨着短语W的右侧词集合B1,B2,B3,BP中的任一词,NW表示短语W在所述文档集中出现的总次数,N1,CW,BI表示词BI紧挨着短语W的右边出现在所述文档集中的次数,RCEW表示短语W的右信息熵。0079其中所述短语中各词之间关系的紧密程度可以进一步包括短语中词间关联度或/和内聚度。0080。
28、可选地,采用以下方式计算所述短语的词间关联度0081如果所述短语是由两个词组成的短语,采用二元短语词间关联度PMIW或不定元指超过二元短语词间关联度MMIW计算短语的词间关联度;通常,如果二元短语对应的PMIW值越高,则表示组成该短语的各词的密切程度越高。优选地,采用二元短语词间关联度PMIW计算二元短语的词间关联度,可以有效地节约计算资源。0082如果所述短语是由三个以上词组成的短语,采用三元以上短语词间关联度EMIW或不定元短语词间关联度MMIW计算短语的词间关联度;就采用不定元短语词间关联度MMIW计算短语的词间关联度而言,该方法的计算复杂度适中,所得到的词间关联度的值较接近于该短语中各。
29、词的实际关联情况,因而准确性较高。0083其中,PMIW、EMIW和MMIW的表达式分别如下0084PMIWLOGACW1,W2N/NW1NW2说明书CN104077274A106/13页110085W表示所述短语,W1表示短语W的第一个词,W2表示短语W的第二个词,NW1和NW2分别表示词W1和W2在所述文档集中出现的次数,CW1,W2表示词W1和W2有序连续出现在所述文档集中的次数,A1,N表示文档集中的语段数;00860087N表示文档集中的语段数,K表示组成所述短语W的词语个数,FI表示文档集中包含组成短语W的第I个词的语段数,F表示文档集中包含短语W的语段数,A1;00880089K。
30、表示组成短语W的词语个数,WI表示短语W中的第I个词,NWI表示词WI在文档集中出现的次数,CW表示短语W在文档集中出现的次数。0090可选地,采用MEDW、AVG_PMIW、MAX_PMIW、AVG_SCPW、MAX_SCPW和NMEDW中的至少一个计算所述短语的内聚度,0091其中,MEDW的表达式如下00920093其中,N1表示文档集中包含短语W指与短语W严格匹配的语段数,N2表示文档集中包含短语W的所有词指短语W中各个词同时出现在一个语段中的语段数;由上可明显地看到,如果短语W的MEDW值最高,说明该短语W的内聚度越高。0094其中,AVG_PMIW的表达式如下00950096009。
31、7其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数,M1;0098MAX_PMIW的表达式如下009901000101其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数,M1。
32、;0102AVG_SCPW的表达式如下说明书CN104077274A117/13页12010301040105其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数;0106MAX_SCPW的表达式如下010701080109其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有。
33、序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数;0110NMEDW的表达式如下0111或01120113其中,W表示文档集中含有短语W中所有词的语段数,表示文档集中含有短语W的语段数,N为文档集中语段数,M1。0114在步骤S103中,基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。0115具体地,可以基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,对所述K个以下连续词组成的短语进行排序,基于排序从所述K个以下连续词组成的短语中至少抽取一部分短语。
34、作为热词短语输出。0116可选地,将所述K个以下连续词组成的短语中排在前F名的短语作为热词短语输出,或者,将所述K个以下连续词组成的短语所对应的判断结果超过一定阈值的短语作为热词短语输出。0117为了更清楚地描述步骤S101至步骤S103,以下给出了通过对文档集D中的每个分句进行分词,针对每个分句中所有K个以下连续词组成的短语,判断短语左、右信息熵和短语中词间关联度、内聚度,基于判断结果从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出的对应算法0118输入某一特定话题的文档集合DD1,D2,DN0119T1,T2,T3,T4为事先指定的阈值,可以根据需要灵活设置说明书CN10。
35、4077274A128/13页130120初始化热词短语集合0121FORDIIND,DO0122利用任何一个分词工具进行分词,并且将每个文档中所有的K元以下的短语找出0123将DI中的所有K元以下的短语加入集合H01240125输出热词短语集合H如与HI对应的FLAG为FALSE,则将其从H中去掉,最后输入的集合H仅包括FLAG为TRUE的HI0126需要说明的是,上述算法仅是本方法中优选实施例的示例,并不是对本方法的限定。0127由于对短语进行词间内聚度的计算所耗费的计算资源较多,计算复杂度较高,导致计算时间的周期较长,因而为了大幅度减少计算时间,优选地,在所述判断短语边界明显度和短语中各。
36、词之间关系的紧密程度的步骤中先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。为了更清楚地描述该优选实施例,以下给出了与该优选实施例对应的算法,本算法与上述算法的区别仅在于判断短语边界明显度、词间关联度和词间内聚度的顺序的不同0128输入某一特定话题的文档集合DD1,D2,DN0129T1,T2,T3,T4为事先指定的阈值,可以根据需要灵活设置0130初始化热词短语集合0131FORDIIND,DO0132利用任何一个分词工具进行分词,并且将每个文档中所有的K元以下的短语找出说明书CN104077274A139/13页14013。
37、3将DI中的所有K元以下的短语加入集合H013401350136输出热词短语集合H如与HI对应的FLAG为FALSE,则将其从H中去掉,最后输入的集合H仅包括FLAG为TRUE的HI。0137优选地,方法1还包括0138步骤S104未在附图示出,基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,仅输出剩下的热词短语作为找到的热词短语。其中,A1,用户可以预先设置,短语频率TF表示所述短语在所述文档集中出现的总次数,语段频率DF表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语。
38、段的数目。0139例如,基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少一个,对所述输出的热词短语分别进行计算,并基于计算的结果进行排序。如果设定需要保留K名的热词短语,则取排序在前K名的热词短语作为最后选定的热词短语。如果是基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的两个或三个进行排序,则为短语频率TF、语段频率DF、以及TFLOGAM/DF中的所述两个或三个加权后相加,得到一个综合分数,按照该综合说明书CN104077274A1410/13页15分数进行排序。0140或者,设定一定阈值。如果是基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的一个进。
39、行过滤,则当短语频率TF、语段频率DF、以及TFLOGAM/DF小于阈值时将其过滤掉。如果是基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的两个或三个进行过滤,将短语频率TF、语段频率DF、以及TFLOGAM/DF中的所述两个或三个分别与相应的阈值比较,如果小于相应阈值则将其过滤掉。另外,也可以为短语频率TF、语段频率DF、以及TFLOGAM/DF中的所述两个或三个加权后相加,得到一个综合分数,该综合分数低于阈值则将其过滤掉。0141利用综合分数进行排序后过滤的有益效果是,使过滤结果更能综合反映不同的需求指标。0142图2示出根据本发明另一个实施例的从文档集中抽取热词短语的装置的示。
40、意性框图。根据本发明的另一实施例,从文档集中抽取热词短语的装置2包括0143分词单元201,被配置为对所述文档集中的每个分句进行分词;0144判断单元202,被配置为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;0145热词短语抽取单元203,被配置为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。0146应当理解,图2所示的框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据。
41、具体情况增加或减少某些单元或装置。0147可选地,所述热词短语抽取单元被配置为基于短语频率TF、语段频率DF、以及TFLOGAM/DF中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,短语频率TF表示所述短语在所述文档集中出现的总次数,语段频率DF表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目,A1。0148可选地,所述判断单元被配置为基于以下中的任一项判断短语边界明显度0149通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或0150通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算。
42、集合中各词在所述文档集中与所述短语相邻出现的次数的平均值,并与相应阈值比较,判断短语边界明显度。0151可选地,所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。0152可选地,所述判断单元被配置为基于以下公式计算所述短语的左、右信息熵0153所述短语的左信息熵的计算如下0154或说明书CN104077274A1511/13页1601550156其中,W表示所述短语,AI表示所述文档集中紧挨着短语W的左侧词集合A1,A2,A3,AS中的任一词,NW表示短语W在所述文档集中出现的总次数,M1,CAI,W表示紧挨着短语W的左边出现在所述文档集中的次数,LCEW表示短语W的左信息熵;。
43、0157所述短语的右信息熵的计算如下0158或01590160其中,W表示所述短语,BI表示所述文档集中紧挨着短语W的右侧词集合B1,B2,B3,BP中的任一词,NW表示短语W在所述文档集中出现的总次数,N1,CW,BI表示词BI紧挨着短语W的右边出现在所述文档集中的次数,RCEW表示短语W的右信息熵。0161可选地,所述判断单元被配置为根据组成所述短语的词数,采用对应的方式计算短语的词间关联度0162如果所述短语是由两个词组成的短语,采用二元短语词间关联度PMIW或不定元短语词间关联度MMIW计算短语的词间关联度;0163如果所述短语是由三个以上词组成的短语,采用三元以上短语词间关联度EMI。
44、W或不定元短语词间关联度MMIW计算短语的词间关联度,0164其中,PMIW、EMIW和MMIW的表达式分别如下0165PMIWCW1,W2/NW1NW20166W表示所述短语,W1表示短语W的第一个词,W2表示短语W的第二个词,NW1和NW2分别表示词W1和W2在所述文档集中出现的次数,CW1,W2表示词W1和W2有序连续出现在所述文档集中的次数;01670168N表示文档集中的语段数,K表示组成所述短语W的词语个数,FI表示文档集中包含组成短语W的第I个词的语段数,F表示文档集中包含短语W的语段数,A1;01690170K表示组成短语W的词语个数,WI表示短语W中的第I个词,NWI表示词W。
45、I在文档集中出现的次数,CW表示短语W在文档集中出现的次数。0171可选地,所述判断单元被配置为采用MEDW、AVG_PMIW、MAX_PMIW、AVG_SCPW、MAX_SCPW和NMEDW中的至少一个计算所述短语的内聚度,0172其中,MEDW的表达式如下0173说明书CN104077274A1612/13页170174其中,N1表示文档集中包含短语W的语段数,N2表示文档集中包含短语W的所有词的语段数;0175AVG_PMIW的表达式如下017601770178其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中。
46、的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数,M1;0179MAX_PMIW的表达式如下018001810182其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数,M1;0183AVG_SCPW的表达式如下018401850186其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1。
47、WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数;0187MAX_SCPW的表达式如下018801890190其中,K表示组成短语W的词语个数,WI表示短语W中的第I个词,PW1WK表示组成短语W的词语W1至WK有序连续出现在所述文档集中的次数,PW1WI表示词语W1至WI有序连续出现在所述文档集中的次数,PWI1WK表示词语WI1至WK有序连续出现在所述文档集中的次数;0191NMEDW的表达式如下说明书CN104077274A1713/13页18。
48、0192或01930194其中,W表示文档集中含有短语W中所有词的语段数,表示文档集中含有短语W的语段数,N为文档集中语段数,M1。0195可选地,所述判断单元被配置为在判断短语边界明显度和短语中各词之间关系的紧密程度中先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。0196所属技术领域的技术人员知道,本发明可以实现为设备、装置、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即可以是完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。0197附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计。
49、算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。0198对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。说明书CN104077274A181/1页19图1图2说明书附图CN104077274A19。