《社交网络中领域的特征词库迭代更新方法和装置.pdf》由会员分享,可在线阅读,更多相关《社交网络中领域的特征词库迭代更新方法和装置.pdf(18页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104063422A43申请公布日20140924CN104063422A21申请号201410213846322申请日20140520G06F17/3020060171申请人微梦创科网络科技(中国)有限公司地址100080北京市海淀区彩和坊路6号710层72发明人李金奎谌贻荣74专利代理机构北京市京大律师事务所11321代理人张璐方晓明54发明名称社交网络中领域的特征词库迭代更新方法和装置57摘要本发明公开了一种社交网络中领域的特征词库迭代更新方法和装置,所述方法包括根据社交网络中领域的用户群体发布的文本内容,对该领域的特征词库进行迭代更新;其中一次迭代更新过程包括对于该领。
2、域的用户群体中的每个用户,根据当前的该领域的特征词库计算该用户发布的每篇文本内容与该领域的相关度;根据该用户发布的每篇文本内容与该领域的相关度,计算该用户与该领域的相关度;从该领域的用户群体中确定出与该领域的相关度大于第一相关度阈值的用户,将确定出的用户发布的、与该领域的相关度大于第二相关度阈值的文本内容作为该领域的语料,从中提取出该领域的特征词,得到该领域的特征词库。本发明可以提高领域的特征词库的准确度。51INTCL权利要求书3页说明书12页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书12页附图2页10申请公布号CN104063422ACN104063422。
3、A1/3页21一种社交网络中领域的特征词库迭代更新方法,其特征在于,包括对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文本内容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料。
4、;从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所述领域的特征词库,得到本次迭代更新后的所述领域的特征词库。2如权利要求1所述的方法,其特征在于,所述根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度,具体包括对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度。3如权利要求2所述的方法,其特征在于,所述根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度,具体包括对于该篇。
5、文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。4如权利要求3所述的方法,其特征在于,所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度,具体为根据如下公式1,计算出该篇文本内容与所述领域的相关度ST公式1其中,N为该篇文本内容的特征词的总数,I为取值1N的自然数,WI为该篇文本内容的第I个特征词的领域权重;FI为第I个特征词在该篇文本内容中出。
6、现的频次。5如权利要求14任一所述的方法,其特征在于,所述根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度,具体包括从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度;或者,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。权利要求书CN104063422A2/3页36一种社交网络中领域的特征词库迭代更新装置,其特。
7、征在于,包括迭代控制模块,用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭代完成通知时,将所述计数值加1,并在判定所述计数值不大于设定次数后,发送所述迭代更新通知;用户领域相关度计算模块,用于接收到所述迭代更新通知后,对于社交网络中待更新特征词库所属的领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;特征训练语料确定模块,用于根据所述用户领域相关度计算模块计算出的各用户与所述领域的相关度,从所述领域的用户群体中确定出与所述领域的相关度大于预设的。
8、第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料进行输出;特征词库更新模块,用于从所述特征训练语料确定模块输出的所述领域的特征训练语料中提取出所述领域的特征词后,构成本次迭代更新后的所述领域的特征词库,并向所述迭代控制模块发送所述迭代完成通知。7如权利要求6所述的装置,其特征在于,所述用户领域相关度计算模块具体包括文本内容获取单元,用于对于所述领域的用户群体中的每个用户,获取所述社交网络中该用户发布的各篇文本内容;文本内容领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容。
9、,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度;用户领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度。8如权利要求7所述的装置,其特征在于,文本内容领域相关度计算单元具体用于在针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,得到该篇文本内容的特征词之后,对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的。
10、特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。9如权利要求7或8所述的装置,其特征在于,所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。10如权利要求7或8所述的装置,其特征在于,所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关。
11、度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的权利要求书CN104063422A3/3页4比值,作为该用户与所述领域的相关度。权利要求书CN104063422A1/12页5社交网络中领域的特征词库迭代更新方法和装置技术领域0001本发明涉及互联网技术领域,尤其涉及一种社交网络中领域的特征词库迭代更新方法和装置。背景技术0002随着互联网技术的发展,通过社交网络来进行信息的分享、传播以及获取,已成为广大网络用户的主要社交方式之一。例如,通过微博或TWITTER推特等社交网络,用户可以发布自己的最新动态等内容,也可以评论、收藏或转发其他用。
12、户发布的内容。0003在实际应用中,通过对微博等社交网络的观察和分析发现,在社交网络中分布着大大小小的不同领域的社交圈。而对于社交网络中不同的领域,运营人员通常会为每个领域建立一个特征词库,以对社交网络中存在的大量的用户进行领域划分或者对社交网络中用户发布的文本内容进行分类等。其中,领域的特征词库中存储有能够表征该领域的文本内容的特征的词语,即特征词。而且,运营人员还可以根据各领域的特征词挖掘出各领域的高专业性的专家,为社交网络提供领域专家扩展服务,并为垂直领域项目提供数据支撑。0004现有存在一种人工构建特征词库的方法,具体为对于社交网络中的每个领域,人工收集整理一些与该领域相关的语料比如社。
13、交网络中用户发布的该领域的文本内容,根据通用分词词库对收集的语料进行分词后,对分词结果进行人工审核,将符合人工审核条件的词语作为该领域的特征词存储至特征词库中。其中,通用分词词库为现有常用分词器所采用的分词词库。实际应用中,人工收集的语料只能覆盖少数领域,且收集的语料与领域的相关度存在较大的浮动,导致通过上述人工构建特征词库的方法所提取出的特征词库的领域覆盖率和准确度都不高;而且,通过人工收集和人工审核进行特征词库的构建,存在工作量大、且耗费时间长的不足。0005为了减少构建特征词库的工作量及耗费时间,现有还提出了一种基于网页爬取内容的特征词库构建方法,其主要是针对每个领域,利用自动获取网页内。
14、容的网络爬虫程序去网络上爬取一个或几个与该领域相关的网页作为语料存储至该领域的语料库中;之后,通过本领域技术人员常用的NGRAM模型或分词器对爬取的网页进行分词后,通过TFIDFTERMFREQUENCYINVERSEDOCUMENTFREQUENCY,词频逆文档频率统计方法确定出该领域的特征词,存储到该领域的特征词库中。然而,由于相关领域的网站网页的内容是经过网页编辑进行编辑过的,与社交网络中的偏向口语化的文本内容存在较大不同,因此基于网页爬虫爬取的语料构建的特征词库应用于社交网络中时,其准确度并不高,进而也会对社交网络中的文本内容分类或领域专家确定的准确度等产生影响。0006综上所述,现有。
15、的社交网络中领域的特征词库的准确度不够高。发明内容0007针对上述现有技术存在的缺陷,本发明实施例提供了一种社交网络中领域的特征词库迭代更新方法和装置,用以提高社交网络中领域的特征词库的准确度。说明书CN104063422A2/12页60008本发明实施例提供了一种社交网络中领域的特征词库迭代更新方法,包括0009对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文本内容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括0010对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发。
16、布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;0011从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料;0012从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所述领域的特征词库,得到本次迭代更新后的所述领域的特征词库。0013较佳地,所述根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度,具体包括0014对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当。
17、前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度。0015较佳地,所述根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度,具体包括0016对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;0017根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。0018较佳地,所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与。
18、所述领域的相关度,具体为0019根据如下公式1,计算出该篇文本内容与所述领域的相关度ST0020公式10021其中,N为该篇文本内容的特征词的总数,I为取值1N的自然数,WI为该篇文本内容的第I个特征词的领域权重;FI为第I个特征词在该篇文本内容中出现的频次。0022较佳地,所述根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度,具体包括0023从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度;或者,0024从该用户发布的各篇文本内容中,确定出与所述领域的。
19、相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。0025本发明实施例还提供了一种社交网络中领域的特征词库迭代更新装置,包括说明书CN104063422A3/12页70026迭代控制模块,用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭代完成通知时,将所述计数值加1,并在判定所述计数值不大于设定次数后,发送所述迭代更新通知;0027用户领域相关度计算模块,用于接收到所述迭代更新通知后,对于社交网络中待更新特征词库所属的领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户。
20、发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;0028特征训练语料确定模块,用于根据所述用户领域相关度计算模块计算出的各用户与所述领域的相关度,从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料进行输出;0029特征词库更新模块,用于从所述特征训练语料确定模块输出的素数领域的特征训练语料中提取出所述领域的特征词后,构成本次迭代更新后的所述领域的特征词库,并向所述迭代控制模块发送所述迭代完成。
21、通知。0030较佳地,所述用户领域相关度计算模块具体包括0031文本内容获取单元,用于对于所述领域的用户群体中的每个用户,获取所述社交网络中该用户发布的各篇文本内容;0032文本内容领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度;0033用户领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所。
22、述领域的相关度。0034较佳地,文本内容领域相关度计算单元具体用于在针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,得到该篇文本内容的特征词之后,对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。0035较佳地,所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将。
23、其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。0036或者,所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。0037本发明的技术方案中,对于社交网络中待更新特征词库所属的领域,可根据社交网络中该领域的用户群体中各用户发布的文本内容,对该领域的特征词库进行多次迭代更说明书CN104063422A4/12页8新。由于进行迭代更新过程中,使用前一次迭代更新后的领域。
24、的特征词库,从该领域的用户群体中的各用户发布的文本内容中,确定出与该领域相关度较高的文本内容,确定为该领域的特征训练语料,并从中提取出该领域的特征词构成本次迭代更新后的该领域的特征词库,从而通过逐步提高领域的特征训练语料的质量,对领域的特征词库进行多次迭代更新的方式,可逐步提高领域的特征词库的准确度。附图说明0038图1为本发明实施例的社交网络中的领域的特征词库迭代更新方法的流程图;0039图2为本发明实施例的从领域的特征训练语料中提取特征词并构成特征词库的方法流程图;0040图3为本发明实施例的社交网络中的领域的特征词库迭代更新装置的内部结构框图;0041图4为本发明实施例的用户领域相关度计。
25、算模块的内部结构框图。具体实施方式0042为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。0043本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模。
26、块可以位于执行中的一个进程和/或线程内。0044本发明的技术方案中,对于社交网络中待更新特征词库所属的领域,可根据社交网络中该领域的用户群体中各用户发布的文本内容,对该领域的特征词库进行多次迭代更新。也就是,使用前一次更新后的领域的特征词库,从该领域的用户群体中各用户发布的文本内容中,确定出与该领域相关度较高的文本内容,再从这些与该领域相关度较高的文本内容即该领域的特征训练语料中,提取出该领域的特征词,构成本次迭代更新后的该领域的特征词库,从而通过逐步提高领域的特征训练语料的质量,对领域的特征词库进行多次迭代更新的方式,可逐步提高领域的特征词库的准确度。0045下面结合附图详细说明本发明的技术。
27、方案。在社交网络中存在着多个领域,对于其中任一个领域A,在对领域A的特征词库进行自动迭代更新之前,可以预先由本领域技术人员根据实际需求选取能够表征领域A的特征的词语作为领域A的特征词后,将选取出的领域A的特征词存储到领域A的特征词库,以作为本发明中领域A的特征词库自动迭代更新的基础特征词库,并且还可根据经验为领域A的基础特征词库中的各特征词分别设置相应的权重。或者,直接采用现有技术的方法得到领域A的特征词库,作为本发明中进行领域A的特征词库自动迭代更新的基础特征词库。例如,下表1示出了医疗领域和化妆造型领域的基础特征词库。说明书CN104063422A5/12页90046表100470048这。
28、样,对于社交网络中待更新特征词库所属的领域A,可根据领域A的用户群体发布的文本内容,对领域A的特征词库进行设定次数大于等于1的迭代更新。其中一次迭代更新过程包括对于领域A的用户群体中的每个用户,根据当前的领域A的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与领域A的相关度,计算出该用户与领域A的相关度;从领域A的用户群体中确定出与领域A的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与领域A的相关度大于预设的第二相关度阈值的文本内容,作为领域A的特征训练语料;从得到的领域A的特征训练语料中提取出领域A的特征词后,更新当前的领域A的特。
29、征词库,得到本次迭代更新后的领域A的特征词库。0049下面详细介绍本发明实施例提供的社交网络中领域的特征词库迭代更新方法,其方法流程如图1所示,具体包括0050S101初始化过程中,获取待更新特征词库所属的领域A的用户群体,并令J1。0051具体地,对于社交网络中的各领域,可预先根据社交网络中的各用户按照指定格式填写的标签、认证的归属行业、分组信息,或者用户间的关注关系/粉丝关系等,确定出各领域的用户群体;例如,某个用户认证的归属行业为房地产,可确定该用户所属的领域为房地产领域,进而可将该用户划分到房地产领域的用户群体中;再如,某个用户的标签为网球运动员,可确定该用户所属的领域为体育领域,进而。
30、可将该用户划分到体育领域的用户群体中。通常,在社交网络中存在着大量的用户,确定出的每个领域的用户群体中往往也包含大量的用户。0052这样,在本步骤中的初始化过程中,可获取待更新特征词库所属的领域A的用户群体;并且,可以将预先确定出的领域A的基础特征词库作为当前的领域A的特征词库。0053S102在领域A的特征词库的第J次迭代更新过程中,对于领域A的用户群体中的每个用户,根据当前的领域A的特征词库,计算该用户发布的每篇文本内容与领域A的相关度,进而根据该用户发布的每篇文本内容与领域A的相关度,计算出该用户与领域A的相关说明书CN104063422A6/12页10度。0054具体地,在领域A的特征。
31、词库的第J次迭代更新过程中,对于领域A的用户群体中的每个用户,获取社交网络中该用户发布的各篇文本内容;对于获取的该用户发布的每篇文本内容,可进行如下处理根据现有的分词方法以及通用的分词词库,对该篇文本内容进行分词;将分词后的各词语与当前的领域A的特征词库中的特征词进行匹配,得到该篇文本内容的特征词,也就是从分词后的各词语中确定出与当前的领域A的特征词库中的特征词相同的词语,作为该篇文本内容的特征词。例如,下表2示出了医疗领域的两篇文本内容的特征词。之后,据该篇文本内容的特征词,计算该篇文本内容与领域A的相关度。0055其中,若J1,即本次迭代更新为第一次迭代更新,则当前的领域A的特征词库是指预。
32、先确定出的领域A的基础特征词库;若J1,则当前的领域A的特征词库是指J1次迭代更新后的领域A的特征词库。0056表200570058上述据该篇文本内容的特征词,计算该篇文本内容与领域A的相关度,体可以为对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的领域A的特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与领域A的相关度。0059其中,根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算该篇文本内容与领域A的相关度的一种方法可以是根据如下公式1计算出。
33、该篇文本内容与领域A即发布该篇文本内容的用户所属的领域的相关度ST0060公式10061其中,N为该篇文本内容的特征词的总数,I为取值1N的自然数,WI为该篇文说明书CN104063422A107/12页11本内容的第I个特征词的领域权重;FI为第I个特征词在该篇文本内容中出现的频次。0062此外,还可以简单地将该篇文本内容的特征词的总数与领域A的特征词库中的特征词的总数的比值,作为该篇文本内容与领域A的相关度。0063这样,对于领域A的用户群体中的每个用户,计算出该用户发布的每篇文本内容与领域A的相关度之后,可根据该用户发布的每篇文本内容与领域A的相关度,计算出该用户与领域A的相关度,一种方。
34、法可以为从该用户发布的各篇文本内容中,确定出与领域A的相关度大于预设的第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的篇数的比值,作为该用户与领域A的相关度。例如,该用户发布的文本内容的篇数为CU,其中与领域A的相关度大于第二相关度阈值的文本内容的篇数为VU,则该用户与领域A的相关度SU如下述公式2所示0064公式20065此外,还可以从该用户发布的各篇文本内容中,确定出与领域A的相关度大于第二相关度阈值的文本内容后,将确定出的各文本内容与领域A的相关度相加,将得到的和与该用户发布的文本内容的总篇数的比值,作为该用户与领域A的相关度。其中,预设的第二相关度阈值具体可以由本领域技术人。
35、员根据相关度的计算方法以及实际需求进行设定。0066S103在领域A的特征词库的第J次迭代更新过程中,从领域A的用户群体中确定出与领域A的相关度大于预设的第一相关度阈值的各用户。0067其中,预设的第一相关度阈值具体可以由本领域的技术人员根据实际需求进行设定。在本步骤中,还可在J等于设定次数时,将从领域A的用户群体中确定出的、与领域A的相关度大于第一相关度阈值的各用户,确定为领域A的领域专家,从而为社交网络中领域专家推荐等提供支持。0068S104在领域A的特征词库的第J次迭代更新过程中,将确定出的各用户发布的、与领域A的相关度大于预设的第二相关度阈值的文本内容,作为领域A的特征训练语料。00。
36、69从而,在每一次迭代更新过程中,根据用户与领域A的相关度、用户发布的文本内容与领域A的相关度、以及上一次迭代更新后的领域A的特征词库,确定出领域A的特征训练语料,可以使得确定出的领域A的特征训练语料与领域A的相关度在在多次迭代过程中逐步提高,进而可逐步提高后续提取领域A的特征词的准确性,也就是逐步提高领域A的特征词库的准确度。0070进一步,在J等于设定次数时,还可以将确定出的领域A的特征训练语料作为领域A的领域内容,为社交网络中的文本内容分类、高相关度文本内容推荐等提供支持。例如,将确定出的领域A的领域内容存储到领域A的分类训练语料集中,从而可在得到社交网络中的各领域的分类训练语料集后,进。
37、行领域分类器的训练,进而实现对社交网络中的文本内容的分类;再如,将确定出的领域A的领域内容推荐给领域A的用户。0071S105在领域A的特征词库的第J次迭代更新过程中,从得到的领域A的特征训练语料中提取出领域A的特征词后,更新当前的领域A的特征词库,得到本次迭代更新第J次迭代更新后的领域A的特征词库。0072具体地,在领域A的特征词库的第J次迭代更新过程中,可根据现有的方法例如IFIDF方法从领域A的特征训练语料中提取出领域A的特征词;并根据提取出的领域A说明书CN104063422A118/12页12的特征词,更新当前的领域A的特征词库,从而得到本次迭代更新第J次迭代更新后的领域A的特征词库。
38、。此外,还可根据如图2所示的方法得到本次迭代更新第J次迭代更新后的领域A的特征词库。0073其中,根据提取出的领域A的特征词,更新当前的领域A的特征词库,具体可以为将当前的领域A的特征词库中的特征词删除后,将提取出的领域A的特征词加入到当前的领域A的特征词库中;或者,将提取出的领域A的特征词与当前的领域A的特征词库中的特征词进行比对,将不包含于当前的领域A的特征词库中的特征词加入到当前的领域A的特征词库中。0074S106令JJ1。0075S107判断J是否大于设定次数;若是,执行步骤S108,结束迭代;否则,跳转到S102,继续下一次迭代更新。0076S108结束迭代。0077从而,基于上述。
39、的步骤S101S107,可实现领域A的特征词库的设定次数的迭代更新,在多次迭代更新过程中,逐步提高了领域A的特征词库的准确度。其中,设定次数具体可以由本领域技术人员根据实际需求进行设定。例如,若需要高准确度的特征词库,可将设定次数设置为一个较大值。0078较优地,在上述步骤S102中,计算领域A的用户群体中的一个用户与领域A的相关度的过程中,还可对该用户发布的文本内容进行内容丰富处理和内容过滤处理。其中,由于一些社交网络例如微博本身的规则设计问题,该用户所发布的单篇文本内容的字数可能存在限制,因此对于用户转发、评论类的文本内容,还可将用户转发或评论的原始文本内容也作为用户发布的文本内容,从而实。
40、现了对用户发布的文本内容的内容丰富处理。0079进一步,由于社交网络中的文本内容中往往会存在一些特有字符或修饰字符。例如,微博中的字符会把紧跟它之后的文字当成一个人名,自动生成一个指向该用户的链接,用于在微博中提及某用户;成对出现的号字符之间的文字表示搜索关键字;/表示该博文是经过哪些人的转发而来的;用来标示用户在博文中提到的网址链接内容。这些字符以及这些字符所标示的文本内容片段往往在社交网络的文本内容中大量出现,但与各领域的相关度通常较弱,因此,为保证后续分词以及确定文本内容的领域相关度的准确性,可以在对文本内容进行分词之前,根据预先设置的过滤规则,对文本内容进行内容过滤处理,以过滤掉文本内。
41、容中的特征字符和修饰字符以及这些字符所标示的文本内容片段即与各领域的相关度较弱的无效文本内容片段。0080而且,在实际应用中,由于社交网络的新媒体属性,社交网络中的文本内容中很容易出现大量的新鲜词语,因此为保证对文本内容进行分词的质量,还可以在对文本内容分词之前,预先统计出各领域的新词添加到对文本内容分词所使用的分词词库中,以提高分词的准确性,进而提高对文本内容进行分类的准确性。例如,下表3示出了一些领域的新词。0081表30082领域新词房地产乐居、豪宅、房企、限购、获批、拿地、均价、看房、绿城、回迁房IT苦逼、码农、微盘、电商、插件、集群、源码、翻墙、宕机、极客说明书CN104063422。
42、A129/12页13体育娜姐、绝杀、暴扣、引援、意甲、缺阵、控卫、续约、假摔、抢七财经薪酬、钱荒、涨停、早盘、估值、散户、摘帽、沪指、炒新、新股医疗鼻塞、缝扎、筛查、痘痘、头孢、达菲、脊髓、脊椎、罹患、润肺0083较优地,在计算领域A的用户群体中的一个用户发布的一篇文本内容与领域A的相关度之前,还可以对该篇文本内容的特征词进行扩充丰富,具体为对于得到的该篇文本内容的每个特征词,查找出领域A的共现特征词库中与该特征词相对应的词语,将其作为该篇文本内容的新的特征词,并将该特征词在该篇文本内容中出现的频次,作为该新的特征词在该文本内容中出现的频次,将该新的特征词在当前的领域A的特征词库中所对应的权重。
43、作为该新的特征词的领域权重。其中,针对每个领域,该领域的共现特征词库中预先存储有频繁在该领域的文本内容中共同出现的若干对词语两两对应的词语;由此,这种基于领域的共现特征词库对文本内容的特征词进行扩充丰富的方式,可以更为准确计算出文本内容与相应的领域的相关度,从而使得后续确定出的相应的领域的训练语料集中的文本语料的领域相关度更高。0084例如,下表4示出了医疗领域的共现权重反映共同出现的频繁度较大的10对词语。0085表40086词语对共现权重切除_术后23304雌激素_合成15236卵巢_阿司匹林12356西医_中成药12225规范化_住院11090升高_术后9657流产_宫外孕9587宫外孕。
44、_输卵管9323阳气_气血9210接种_疫苗91740087在上述的领域A的特征词库的第J次迭代更新过程中得到领域A的特征训练语料后,采用相同的方法得到社交网络中的其它各领域的特征训练语料;之后,将各该领域的特征训练语料即文本内容分别作为各自领域的种子文本内容加入到一个文本内容集中。基于得到的文本内容集,得到第J次迭代更新后的领域A的特征词库,该方法具体包括如下步骤0088S201从文本内容集中获取领域A的各篇种子文本内容。0089S202对于获取的领域A的每个种子文本内容,对该篇种子文本内容进行分词,并从分词后的各词语中选择出领域A的特征候选词。0090具体地,对于获取的领域A的每篇种子文本。
45、内容,进行下述操作对该篇种子文本内容分词,得到该篇种子文本内容分词后的各词语;分别统计出该篇种子文本内容分词后的各词语的频率信息,词语的频率信息包括IFTERMFREQUENCY,词频值;之后,根据统计出的各词语的频率信息,从该篇种子文本内容分词后的各词语中选择出该领域的特征候选词,也就是将统计出的各词语中IF值大于预设的词频阈值的词语,确定为该领域的特征候选词;进一步,词语的频率信息还可包括文档频率值和用户频率值,则可将统计出的各词语说明书CN104063422A1310/12页14中IF值大于预设的词频阈值、文档频率值大于设定的文档频率阈值且用户频率值大于预设的用户频率阈值的词语,确定为该。
46、领域的特征候选词。0091其中,对于获取的领域A的一篇种子文本内容分词后的一个词语,该词语的IF值指的是该词语在文本内容集中领域A的各篇种子文本内容中出现的次数;该词语的文档频率值指的是文本内容集中领域A的各篇种子文本内容中包含该词语的种子文本内容的篇数;该词语的用户频率值指的是文本内容集中领域A的各种子用户中谈及该词语谈及该词语即发布的种子文本内容中包含该词语的种子用户的个数,换言之,该词语的用户频率指的是文本内容集中领域A的各种子文本内容中包含该词语的种子用户的个数。0092S203统计选择出的领域A的每个特征候选词的领域频率。0093具体地,对于选择出的领域A的每个特征候选词,统计文本内。
47、容集中的各领域的种子文本内容中包含该特征候选词的领域的个数,将其作为该特征候选词的领域频率。0094例如,领域A为医疗领域,医疗领域的一个特征候选词“医生”未出现在文本内容集中的、医疗领域之外的领域的种子文本内容中,则可确定医疗领域的特征候选词“医生”的领域频率为1。0095S204根据领域A的每个特征候选词的频率信息和领域频率,确定出领域A的特征词及其权重存储至领域A的特征词库中。0096具体地,针对领域A的每个特征候选词,根据该特征候选词的频率信息和领域频率,计算该特征候选词的特征得分。其中,对于一个特征候选词,计算该特征候选词的特征得分的一种方法是为该特征候选词的频率信息包括IF值、文档。
48、频率值、用户频率设置大于零的权重值,为该特征候选词的领域频率设置小于零的权重值后,将该特征候选词的频率信息、领域频率分别乘以为各自设置的权重值后相加,将相加得到的和作为该特征候选词的特征得分。事实上,在计算一个特征候选词的特征得分时,只要使得该特征候选词的频率信息对特征得分的影响为正影响,该特征候选词的领域频率对特征得分的影响为负影响即可。0097在得到领域A的每个特征候选词的特征得分之后,对于领域A的每个特征候选词,若该特征候选词的特征得分超过预设的特征得分阈值,则将该特征候选词及其特征得分,分别作为A领域的特征词及其权重对应存储至领域A的特征词库中;从而,实现从领域A的特征训练语料中提取出。
49、领域A的特征词,得到第J次迭代更新后的领域A的特征词库。0098基于上述的社交网络中领域的特征词库迭代更新方法,本发明实施例提供的社交网络中领域的特征词库迭代更新装置的内部结构框图,如图3所示,具体包括迭代控制模块301、用户领域相关度计算模块302、特征训练语料确定模块303和特征词库更新模块304。0099迭代控制模块301用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭代完成通知后,将计数值加1,并在判定计数值不大于设定次数后,发送迭代更新通知。0100用户领域相关度计算模块302用于接收到迭代控制模块301发送的迭代更新通知后,对于社交网络中待更新特征词库所属的领域的用户群体中的每个用户;根据当前的待更新特征词库所属的领域的特征词库,计算该用户发布的每篇文本内容与该领域的相关度;并根据该用户发布的每篇文本内容与该领域的相关度,计算出该用户与该领域的相关说明书CN104063422A1411/12页15度。0101特征训练语料确定模块303用于根据用户领域相关度计算模块302计算出的各用户与待更新特征词库所属的领域的相关度,从该领域的用户群体中,确定出与该领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与该领域的相关度大于预设的第二相关度阈值的文本内容,作为该领域的特征训练语料进行输出。0102特征词库更新模块304用于从。