《基于潜在狄利克雷模型的参数推断方法、计算装置及系统.pdf》由会员分享,可在线阅读,更多相关《基于潜在狄利克雷模型的参数推断方法、计算装置及系统.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102439597 A (43)申请公布日 2012.05.02 C N 1 0 2 4 3 9 5 9 7 A *CN102439597A* (21)申请号 201180001128.4 (22)申请日 2011.07.13 G06F 17/30(2006.01) (71)申请人华为技术有限公司 地址 518129 中国广东省深圳市龙岗区坂田 华为总部办公楼 (72)发明人科比洛夫维拉迪斯拉维 文刘飞 施广宇 (74)专利代理机构北京中博世达专利商标代理 有限公司 11274 代理人申健 (54) 发明名称 基于潜在狄利克雷模型的参数推断方法、计 算装置及系统 (5。
2、7) 摘要 本发明实施例提供一种基于潜在狄利克雷模 型的参数推断方法、计算装置及系统,涉及信息检 索领域,以解决因人工输入的主题个数不准确所 导致的LDA模型求解精度差的问题。该方法包括: 根据设置的初始第一超参数、初始第二超参数、初 始主题个数、初始全局文本与主题计数矩阵和主 体与词计数矩阵计算LDA模型,得到概率分布;利 用期望最大算法得到使概率分布的对数似然函数 最大的主题个数、第一超参数和第二超参数;判 断主题个数、第一超参数和第二超参数是否收敛, 若不收敛,则将主题个数、第一超参数和第二超参 数带入LDA模型进行计算,直至得到使概率分布 的对数似然函数最大的最优主题个数、最优第一 超。
3、参数和最优第二超参数收敛为止。本发明实施 例用于文本参数推断。 (85)PCT申请进入国家阶段日 2011.08.27 (86)PCT申请的申请数据 PCT/CN2011/077097 2011.07.13 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 9 页 附图 3 页 CN 102439607 A 1/3页 2 1.一种基于潜在狄利克雷模型的参数推断方法,其特征在于,包括: 根据设置的初始第一超参数、初始第二超参数、初始主题个数计、初始全局文本与主题 计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词。
4、之间的 概率分布; 利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超参数、第二超参 数、主题个数; 判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将所述第一超参 数、第二超参数、主题个数带入所述潜在狄利克雷模型进行计算,直至得到使所述概率分布 的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出 最后得到的概率分布、所述最优第一超参数、最优第二超参数、最优主题个数。 2.根据权利要求1所述的方法,其特征在于,所述根据设置的初始第一超参数、初始第 二超参数、初始主题个数计、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在 狄利克雷模型,。
5、得到文本与主题和主题与词之间的概率分布包括: 主计算装置将文本集合分割成多个文本子集,并设置初始第一超参数、初始第二超参 数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵; 所述主计算装置将一个文本子集以及所述初始第一超参数、初始第二超参数、初始主 题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计算装置; 以便各个从计算装置根据接收到的所述初始随机全局文本与主题计数矩阵和主题与词的 计数矩阵以及所述初始第一超参数、初始第二超参数、初始主题个数求解潜在狄利克雷模 型更新局部文本与主题计数矩阵和主题与词计数矩阵; 所述主计算装置接收各个从计算装置返回的所述局部文。
6、本与主题计数矩阵和主题与 词计数矩阵并归并得到全局文本与主题计数矩阵和主题与词计数矩阵; 所述主计算装置判断所述各从计算装置求解潜在狄利克雷模型更新局部文本与主题 计数矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将所述全局文本与主题计数 矩阵和主题与词计数矩阵对应发送给各个从计算装置计算,继续更新所述局部文本与主题 计数矩阵和主题与词计数矩阵直至所述求解潜在狄利克雷模型更新局部文本与主题计数 矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和 主题与词计数矩阵; 所述主计算装置根据所述全局文本与主题计数矩阵和主题与词计数矩阵计算得到文 本与主题和主题与词之间的。
7、概率分布。 3.根据权利要求2所述的方法,其特征在于,所述判断所述第一超参数、第二超参数、 主题个数是否收敛,若不收敛,则将所述第一超参数、第二超参数、主题个数带入所述潜在 狄利克雷模型进行计算包括: 所述主计算装置判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛,将 所述第一超参数、第二超参数、主题个数发送给各个从计算装置,以便所述各个从计算装置 将所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行局部计算。 4.一种基于潜在狄利克雷模型的参数推断计算装置,其特征在于,包括: 潜在狄利克雷模型计算单元,用于根据设置的初始第一超参数、初始第二超参数、初始 主题个数、初始。
8、全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得 权 利 要 求 书CN 102439597 A CN 102439607 A 2/3页 3 到文本与主题和主题与词之间的概率分布; 参数估计单元,用于利用期望最大算法得到使所述概率分布的对数似然函数最大的第 一超参数、第二超参数、主题个数; 判断输出单元,用于判断所述第一超参数、第二超参数、主题个数是否收敛,若不收敛, 则将所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行计算,直至得 到使所述概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个 数收敛为止,并输出最后得到的概率分布、最优第一超参。
9、数、最优第二超参数、最优主题个 数。 5.一种基于潜在狄利克雷模型的参数推断计算系统,特征在于,包括: 主计算装置,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第二 超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵;将一个文本子 集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩 阵和主体与词计数矩阵对应发送给一个从计算装置;接收各个从计算装置返回的局部文本 与主题计数矩阵和主题与词计数矩阵,归并得到全局文本与主题计数矩阵和主题与词计数 矩阵;判断所述各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题 与词计数矩阵的过。
10、程是否收敛,若不收敛,则将所述全局文本与主题计数矩阵和主题与词 计数矩阵对应发送给各个从计算装置计算,继续更新所述局部文本与主题计数矩阵和主题 与词计数矩阵直至所述计算潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词 计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩 阵;根据所述全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题与 词之间的概率分布;利用期望最大算法得到使所述概率分布的对数似然函数最大的第一 超参数、第二超参数、主题个数;判断所述第一超参数、第二超参数、主题个数是否收敛,若 不收敛,则将所述第一超参数、第二超参数、主题个数发送给各。
11、个从计算装置,直至得到使 所述概率分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收 敛为止,并输出最后得到的概率分布、所述最优第一超参数、最优第二超参数、最优主题个 数; 多个从计算装置,用于接收所述主计算装置发送的文本子集以及所述初始第一超参 数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵, 计算潜在狄利克雷模型,更新局部文本与主题计数矩阵和主题与词计数矩阵,并将所述局 部文本与主题计数矩阵和主题与词计数矩阵返回给所述主计算装置;接收所述主计算装置 发送的所述全局文本与主题计数矩阵和主题与词计数矩阵、第一超参数、第二超参数、主题 个数带入。
12、所述潜在狄利克雷模型进行局部计算。 6.根据权利要求5所述的计算系统,其特征在于,所述主计算装置包括: 初始化单元,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第二超 参数、初始主题个数、初始随机全局文本与主题计数矩阵和主体与词计数矩阵; 参数估计单元,用于构造概率分布的对数似然函数;利用期望最大算法得到使所述概 率分布的对数似然函数最大的第一超参数、第二超参数、主题个数;判断所述第一超参数、 第二超参数、主题个数是否收敛,若不收敛,通过所述第一数据收发单元将所述第一超参 数、第二超参数、主题个数发送给所述从计算装置;直至得到使所述概率分布的对数似然函 权 利 要 求 书CN 1。
13、02439597 A CN 102439607 A 3/3页 4 数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概 率分布、所述最优第一超参数、最优第二超参数、最优主题个数; 潜在狄利克雷模型计算单元,用于将通过所述第一数据收发单元接收到的多个局部文 本与主题计数矩阵和主体与词计数矩阵归并得到全局文本与主题计数矩阵和主体与词计 数矩阵;判断所述各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主 题与词计数矩阵的过程是否收敛,若不收敛,则将所述全局文本与主题计数矩阵和主题与 词计数矩阵对应发送给各个从计算装置计算,继续更新所述局部文本与主题计数矩阵和主。
14、 题与词计数矩阵直至所述计算潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与 词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数 矩阵;根据所述全局文本与主题计数矩阵和主题与词计数矩阵计算得到文本与主题和主题 与词之间的概率分布; 第一数据收发单元,用于将一个文本子集以及所述初始第一超参数、初始第二超参数、 初始主题个数计、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从计 算装置;接收各个从计算装置返回的局部文本与主题计数矩阵和主题与词计数矩阵;将所 述全局文本与主题计数矩阵和主题与词计数矩阵发送给各个从计算装置;将所述第一超参 数、第二超参数、主题。
15、个数发送给各个从计算装置。 7.根据权利要求6所述的计算系统,其特征在于,所述从计算装置包括: 第二数据收发单元,用于接收所述主计算装置发送的文本子集以及所述初始第一超参 数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵; 向所述主计算装置发送局部文本与主题计数矩阵和主题与词计数矩阵;接收所述主计算装 置发送的所述全局文本与主题计数矩阵和主题与词计数矩阵;接收所述主计算装置发送的 所述第一超参数、第二超参数、主题个数; 潜在狄利克雷模型局部计算单元,用于根据通过所述第二数据收发单元接收的所述文 本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文。
16、本与主题计 数矩阵和主体与词计数矩阵,计算潜在狄利克雷模型更新得到局部文本与主题计数矩阵和 主题与词计数矩阵;将通过所述第二数据收发单元接收的所述全局文本与主题计数矩阵和 主题与词计数矩阵带入所述潜在狄利克雷模型进行局部计算;将通过所述第二数据收发单 元接收的所述第一超参数、第二超参数、主题个数带入所述潜在狄利克雷模型进行局部计 算。 权 利 要 求 书CN 102439597 A CN 102439607 A 1/9页 5 基于潜在狄利克雷模型的参数推断方法、 计算装置及系统 技术领域 0001 本发明涉及信息检索领域,尤其涉及一种基于潜在狄利克雷模型的参数推断方 法、计算装置及系统。 背景。
17、技术 0002 随着互联网的飞速发展,互联网上的信息以指数级的方式增长,面对如此海量的 信息资源,如何高效快速地获取自己需要的信息对人们越来越重要。为了提高用户信息检 索的质量和效率,陆续出现了很多功能强大的信息检索工具-搜索引擎。搜索引擎在给人 们带来很大便利的同时,也暴露出以关键词为基本索引单位的搜索技术的很多不足:一方 面,无论用户提交什么样的关键词,都会返回过多的结果,其中用户真正需要的信息往往只 占很小一部分,用户不得不花费相当多的时间对这些结果进行人工筛选;另一方面,许多与 查找主题有关的文本可能不包含用户输入的关键词,导致搜索引擎不能找出这些文本。 0003 对信息进行自动分类是。
18、解决上述问题的一种有效途径,可以在较大程度上解决网 上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查询结果。由于目前网上 信息的表现形式大多数为文本,比如电子邮件、电子杂志、技术报告、新闻及网上图书馆等 等,因此,文本分类的方法和技术成为信息检索领域中最重要的研究热点。 0004 文本分类的主要任务是,根据文本内容自动确定关联的类别。目前人们使用最多 的是基于统计和机器学习的文本分类方法。其中,基于统计的文本分类方法之一的贝叶斯 分类的一种常见模型是狄利克雷分配(Latent Dirichlet Allocation,LDA)模型。 0005 LDA模型是一种概率生成模型,可以用。
19、来识别大规模文本集或语料库中潜藏的主 题信息。它采用了词袋的方法,将每一篇文本视为一个词频向量,从而将文本信息转化为易 于建模的数字信息。每一篇文本代表了一些主题所构成的一个概率分布,而每一个主题又 代表了很 多词所构成的一个概率分布。 0006 对于语料库中的每篇文本,LDA定义了如下生成过程: 0007 (1)对每一篇文本,从主题分布中抽取一个主题; 0008 (2)从上述被抽到的主题所对应的词分布中抽取一个词; 0009 (3)重复上述过程直至遍历文本中的每一个词。 0010 参照图1,更形式化一点说,语料库中的每一篇文本与K(通过反复试验等方法预 先给定的)个主题的一个多项分布相对应,。
20、将该多项分布记为。每个主题又与词汇表中 的V个词的一个多项分布相对应,将这个多项分布记为。和分别有一个带有超参 数和的狄利克雷先验分布。对于一篇文本d中的每一个词,我们从该文本所对应的 多项分布中抽取一个主题Z,然后我们再从主题Z所对应的多项分布中抽取一个词 。将这个过程重复Nd次,就产生了文本D,这里的Nd是文本D的词总数。图1中,阴影圆 圈表示可观测变量,非阴影圆圈表示潜在变量,箭头表示两变量间的条件依赖性,方框表示 重复抽样,重复次数在方框的右下角。 0011 LDA模型有两个参数需要推断,一个是“文本-主题”分布,另外是K个“主 说 明 书CN 102439597 A CN 10243。
21、9607 A 2/9页 6 题-词”分布。通过学习这两个参数,我们可以知道文本作者感兴趣的主题,以及每篇文 本所涵盖的主题比例。 0012 通过实际的计算可以发现,对于大规模文本数据,虽然LDA模型可以模拟文本中 主题和词之间的相关性,但是需要人工根据经验预先指定最优的主题个数K,而且输入的主 题个数K对所求解的模型精度有很大的影响。因此,如何选择最优的主题个数K仍然是一 大难题。 发明内容 0013 本发明实施例提供一种基于潜在狄利克雷模型的参数推断方法、计算装置及系 统,以解决因人工输入的主题个数不准确所导致的LDA模型求解精度差的问题。 0014 为达到上述目的,本发明的实施例采用如下技。
22、术方案: 0015 一方面,提供的基于潜在狄利克雷模型的参数推断方法,包括: 0016 根据设置的初始第一超参数、初始第二超参数、初始主题个数 计、初始全局文本 与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与词 之间的概率分布; 0017 利用期望最大算法得到使概率分布的对数似然函数最大的第一超参数、第二超参 数、主题个数; 0018 判断第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将第一超参数、第 二超参数、主题个数带入所述潜在狄利克雷模型进行计算,直至得到使概率分布的对数似 然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后。
23、得到 的概率分布、最优第一超参数、最优第二超参数、最优主题个数。 0019 一方面,提供的一种基于潜在狄利克雷模型参数推断计算装置,包括: 0020 潜在狄利克雷模型计算单元,用于根据设置的初始第一超参数、初始第二超参数、 初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模 型,得到文本与主题和主题与词之间的概率分布; 0021 参数估计单元,用于利用期望最大算法得到使概率分布的对数似然函数最大的第 一超参数、第二超参数、主题个数; 0022 判断输出单元,用于判断第一超参数、第二超参数、主题个数是否收敛,若不收敛, 则将第一超参数、第二超参数、主题个数带入潜在狄利克。
24、雷模型进行计算,直至得到使概率 分布的对数似然函数最大的最优第一超参数、最优第二超参数、最优主题个数收敛为止,并 输出最后得到的概率分布、最优第一超参数、最优第二超参数、最优主题个数。 0023 一方面,提供的一种基于潜在狄利克雷模型参数推断计算系统,包括: 0024 主计算装置,用于将文本集合分割成多个文本子集;设置初始第一超参数、初始第 二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵;将一个文本 子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩阵 和主体与词计数矩阵对应发送给一个从计算装置;接收各个从计算装置返 回的局部文本 与主题计数矩。
25、阵和主题与词计数矩阵,归并得到全局文本与主题计数矩阵和主题与词计数 矩阵;判断各从计算装置求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词 计数矩阵的过程是否收敛,若不收敛,则将全局文本与主题计数矩阵和主题与词计数矩阵 说 明 书CN 102439597 A CN 102439607 A 3/9页 7 对应发送给各个从计算装置计算,继续更新局部文本与主题计数矩阵和主题与词计数矩阵 直至计算潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词计数矩阵的过程收 敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩阵;根据全局文本 与主题计数矩阵和主题与词计数矩阵计算得到文本与主题。
26、和主题与词之间的概率分布;利 用期望最大算法得到使概率分布的对数似然函数最大的第一超参数、第二超参数、主题个 数;判断第一超参数、第二超参数、主题个数是否收敛,若不收敛,则将第一超参数、第二超 参数、主题个数发送给各个从计算装置,直至得到使概率分布的对数似然函数最大的最优 第一超参数、最优第二超参数、最优主题个数收敛为止,并输出最后得到的概率分布、所述 最优第一超参数、最优第二超参数、最优主题个数; 0025 多个从计算装置,用于接收主计算装置发送的文本子集以及初始第一超参数、初 始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,计算潜 在狄利克雷模型,更新局部文本与主。
27、题计数矩阵和主题与词计数矩阵,并将局部文本与主 题计数矩阵和主题与词计数矩阵返回给主计算装置;接收主计算装置发送的全局文本与主 题计数矩阵和主题与词计数矩阵带入潜在狄利克雷模型进行局部计算;接收第一超参数、 第二超参数、主题个数带入潜在狄利克雷模型进行局部计算。 0026 本发明实施例提供的基于潜在狄利克雷模型的参数推断方法、计算装置及系统, 能够通过期望最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似 然函数最大的主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的 主题数目,提高了潜在狄利克雷模型计算结果的精度。 附图说明 0027 为了更清楚地说明本发明实。
28、施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 0028 图1为潜在狄利克雷模型的图模型表示图; 0029 图2为本发明提供的基于潜在狄利克雷模型的参数推断方法的流程图; 0030 图3为本发明另一实施例提供的基于潜在狄利克雷模型的参数推断方法的流程 图; 0031 图4为本发明实施例提供的基于潜在狄利克雷模型的参数推断计算装置的结构 示意图; 0032 图5为本发明实施例提供的基于潜在狄利克雷模型的参数。
29、推断计算系统的结构 示意图; 0033 图6为本发明另一实施例提供的基于潜在狄利克雷模型的参数推断计算系统的 结构示意图。 具体实施方式 0034 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 说 明 书CN 102439597 A CN 102439607 A 4/9页 8 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。 0035 在下述各实施例中,“第一超参数”是指“文本-主题”分布的超参数,“第二超参” 数是指“主题。
30、个数”个“主题-词”分布的超参数。通过对LDA结果中“文本-主题”分布和 “主题-词”分布的学习,就可以知道文本作者感兴趣的主题,以及每篇文本所涵盖的主题比 例。 0036 本发明实施例提供的基于潜在狄利克雷模型的参数推断方法,如图2所示,其步 骤包括: 0037 S201、根据设置的初始第一超参数、初始第二超参数、初始主题 个数、初始全局文 本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷模型,得到文本与主题和主题与 词之间的概率分布。 0038 S202、利用期望最大算法得到使所述概率分布的对数似然函数最大的主题个数、 第一超参数和第二超参数。 0039 S203、判断该主题个数、第一超。
31、参数和第二超参数是否收敛,若不收敛,则将该主 题个数、第一超参数和第二超参数带入潜在狄利克雷模型进行计算,直至得到使概率分布 的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止,并输 出最后得到的概率分布、最优主题个数、最优第一超参数和最优第二超参数。 0040 本发明实施例提供的基于潜在狄利克雷模型的参数推断方法,能够通过期望最大 算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的主题 个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高了潜 在狄利克雷模型计算结果的精度。 0041 本发明另一实施例提供的另一种基于潜在狄。
32、利克雷模型的参数推断方法,如图3 所示,包括: 0042 S301、主计算装置将文本集合分割成多个文本子集,设置初始第一超参数、初始第 二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,并将一个文 本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数矩 阵和主体与词计数矩阵对应发送给一个从计算装置。 0043 S302、从计算装置根据接收到的文本子集、初始全局文本与主题计数矩阵和主题 与词的计数矩阵以及初始第一超参数、初始第二超参数、初始主题个数求解潜在狄利克雷 模型更新局部文本与主题计数矩阵和主题与词计数矩阵。 0044 S303、主计算装置接收。
33、各个从计算装置返回的局部文本与主题计数矩阵和主题与 词计数矩阵并归并得到全局文本与主题计数矩阵和主题与词计数矩阵。 0045 S304、主计算装置判断各从计算装置求解潜在狄利克雷模型更新局部文本与主题 计数矩阵和主题与词计数矩阵的过程是否收敛,若不 收敛,则将全局文本与主题计数矩阵 和主题与词计数矩阵发送给各个从计算装置,执行步骤S302。若收敛,则执行S305。 0046 S305、主机算装置根据全局文本与主题计数矩阵和主题与词计数矩阵计算得到文 本与主题和主题与词之间的概率分布。 0047 S306、主机算装置利用期望最大算法得到使该概率分布的对数似然函数最大的主 题个数、第一超参数和第二。
34、超参数。 说 明 书CN 102439597 A CN 102439607 A 5/9页 9 0048 S307、主计算装置判断该主题个数、第一超参数和第二超参数是否收敛。若不收 敛,则执行步骤S302,此时主计算装置将该主题个数、第一超参数和第二超参数发送给各个 从计算装置,以便各个从计算装置将该主题个数、第一超参数和第二超参数带入潜在狄利 克雷模型进行局部计算。若收敛,则执行步骤S308。 0049 S308、主计算装置输出使概率分布的对数似然函数最大的最优主题个数、最优第 一超参数和最优第二超参数,以及最后得到的概率分布。 0050 需要说明的是,S302中求解狄利克雷模型可以采用包括吉。
35、布斯采样法实现; S305、主机算装置根据全局文本与主题计数矩阵、主题与词计数矩阵计算得到文本与主题、 主题与词之间的概率分布可以采用包括贝叶斯推断法实现。 0051 本发明实施例提供的基于潜在狄利克雷模型的参数推断方法,能够通过期望最大 算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的主题 个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高了潜 在狄利克雷模型计算结果的精度。 0052 本发明例提供的基于潜在狄利克雷模型的参数推断计算装置40,如图4所示,包 括: 0053 潜在狄利克雷模型计算单元401,用于根据设置的初始第一超参数、初始。
36、第二超参 数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵计算潜在狄利克雷 模型,得到文本与主题和主题与词之间的概率分布。 0054 参数估计单元402,用于利用期望最大算法得到使该概率分布的 对数似然函数最 大的主题个数、第一超参数和第二超参数。 0055 判断输出单元403,用于判断该主题个数、第一超参数和第二超参数是否收敛,若 不收敛,则将该主题个数、第一超参数和第二超参数带入潜在狄利克雷模型进行计算,直至 得到使概率分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参 数收敛为止,并输出最后得到的概率分布、最优主题个数、最优第一超参数和最优第二超参 数。 0。
37、056 本发明实施例提供的基于潜在狄利克雷模型的参数推断计算装置,能够通过期望 最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的 主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高 了潜在狄利克雷模型计算结果的精度。 0057 本发明实施例提供的基于潜在狄利克雷模型的参数推断计算系统,如图5所示, 包括主计算装置51和多个从计算装置52,即分布并行式计算系统,主计算装置51可以分别 与多个从计算装置52分布并行式连接。 0058 主计算装置51,用于将文本集合分割成多个文本子集;设置初始第一超参数、初 始第二超参数、初始主题个数、初始。
38、全局文本与主题计数矩阵和主体与词计数矩阵;将一个 文本子集以及初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主题计数 矩阵和主体与词计数矩阵对应发送给一个从计算装置52;接收各个从计算装52置返回的 局部文本与主题计数矩阵和主题与词计数矩阵,归并得到全局文本与主题计数矩阵和主题 与词计数矩阵;判断各从计算装置52求解潜在狄利克雷模型更新局部文本与主题计数矩 阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将全局文本与主题计数矩阵和主题 说 明 书CN 102439597 A CN 102439607 A 6/9页 10 与词计数矩阵对应发送给各个从计算装置52计算,继续更新局部文。
39、本与主题计数矩阵和 主题与词计数矩阵直至求解潜在狄利克雷模型更新局部文本与主题计数矩阵和主题与词 计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题计数矩阵和主题与词计数矩 阵;根据全局文本与主题计数矩阵和主题与词计数矩阵计算得到 文本与主题和主题与词 之间的概率分布;利用期望最大算法得到使所述概率分布的对数似然函数最大的第一超 参数、第二超参数、主题个数;判断该主题个数、第一超参数和第二超参数是否收敛,若不收 敛,则将该主题个数、第一超参数和第二超参数发送给各个从计算装置52,直至得到使概率 分布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止, 并输出最后得到的。
40、概率分布、最优主题个数、最优第一超参数和最优第二超参数。 0059 从计算装置52,用于接收主计算装置51发送的文本子集以及初始第一超参数、初 始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵,计算潜 在狄利克雷模型,更新局部文本与主题计数矩阵和主题与词计数矩阵,并将局部文本与主 题计数矩阵和主题与词计数矩阵返回给主计算装置51;接收主计算装置51发送的全局文 本与主题计数矩阵和主题与词计数矩阵带入潜在狄利克雷模型进行局部计算更新局部文 本与主题计数矩阵和主题与词计数矩阵;接受主机算装置51发送的主题个数、第一超参数 和第二超参数带入潜在狄利克雷模型进行局部计算更新局部。
41、文本与主题计数矩阵和主题 与词计数矩阵。 0060 本发明实施例提供的基于潜在狄利克雷模型的参数推断计算系统,能够通过期望 最大算法自适应地求解出使文本与主题、主题与词之间的概率分布的对数似然函数最大的 主题个数、第一超参数和第二超参数,从而避免了人工根据经验预先指定的主题数目,提高 了潜在狄利克雷模型计算结果的精度。 0061 此外,本发明实施例提供的基于潜在狄利克雷模型的参数推断计算系统采用分布 式并行化的计算,降低了一台机器上的计算复杂度,提高了运算速度。 0062 进一步地,如图6所示,主计算装置51包括: 0063 初始化单元511,用于将文本集合分割成多个文本子集;设置初始第一超参。
42、数、初 始第二超参数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵。 0064 参数估计单元512,用于构造概率分布的对数似然函数;接收潜 在狄利克雷模型 计算单元513发来的文本与主题和主题与词之间的概率分布利用期望最大算法得到使概 率分布的对数似然函数最大的主题个数、第一超参数和第二超参数即判断主题个数、第一 超参数和第二超参数是否收敛,若不收敛,通过第一数据收发单元514将该主题个数、第一 超参数和第二超参数通过第一数据收发单元514发送给从计算装置52;直至得到使概率分 布的对数似然函数最大的最优主题个数、最优第一超参数和最优第二超参数收敛为止,并 输出最后得到的概率分布。
43、、最优主题个数、最优第一超参数和最优第二超参数。 0065 潜在狄利克雷模型计算单元513,用于将通过第一数据收发单元514接收到的多 个局部文本与主题计数矩阵和主体与词计数矩阵归并得到全局文本与主题计数矩阵和主 体与词计数矩阵;判断各从计算装置52求解潜在狄利克雷模型更新局部文本与主题计数 矩阵和主题与词计数矩阵的过程是否收敛,若不收敛,则将全局文本与主题计数矩阵和主 题与词计数矩阵通过第一数据收发单元514对应发送给各个从计算装置计算52,继续更新 局部文本与主题计数矩阵和主题与词计数矩阵直至计算潜在狄利克雷模型更新局部文本 说 明 书CN 102439597 A CN 102439607。
44、 A 7/9页 11 与主题计数矩阵和主题与词计数矩阵的过程收敛为止,并输出最后得到的全局文本与主题 计数矩阵和主题与词计数矩阵;根据全局文本与主题计数矩阵和主题与词计数矩阵计算得 到文本与主题和主题与词之间的概率分布,并把文本与主题和主题与词之间的概率分布发 送到参数估计模单元512。 0066 第一数据收发单元514,用于将一个文本子集以及初始第一超参数、初始第二超参 数、初始主题个数、初始全局文本与主题计数矩阵和主体与词计数矩阵对应发送给一个从 计算装置52;接收各个从计算装置52返回的局部文本与主题计数矩阵和主题与词计数矩 阵;将全局文本与主题计数矩阵和主题与词计数矩阵发送给各个从计算。
45、装置52;将参数估 计单元512发来的主题个数、第一超参数和第二超参数发送给各个从计算装置52。 0067 从计算装置52包括: 0068 第二数据收发单元521,用于接收主计算装置51发送的文本子集以及初始第一超 参数、初始第二超参数、初始主题个数、初始全局文 本与主题计数矩阵和主体与词计数矩 阵;向主计算装置51发送的全局文本与主题计数矩阵和主题与词计数矩阵;接收主计算装 置51发送的主题个数、第一超参数和第二超参数。 0069 潜在狄利克雷模型局部计算单元522,用于根据通过第二数据收发单元521接收 的文本子集以及所述初始第一超参数、初始第二超参数、初始主题个数、初始全局文本与主 题计。
46、数矩阵和主体与词计数矩阵,计算潜在狄利克雷模型更新得到局部文本与主题计数矩 阵和主题与词计数矩阵;将通过所述第二数据收发单元521接收的全局文本与主题计数矩 阵和主题与词计数矩阵带入所述潜在狄利克雷模型进行局部计算更新局部文本与主题计 数矩阵和主题与词计数矩阵;将通过第二数据收发单元521接收的主题个数、第一超参数 和第二超参数带入潜在狄利克雷模型进行局部计算更新局部文本与主题计数矩阵和主题 与词计数矩阵。 0070 本发明另一实施例提供的基于潜在狄利克雷模型的参数推断计算系统,如图6所 示。主计算装置51包括初始化单元511、参数估计单元512、LDA计算单元513及第一数据 收发单元514。
47、。从计算装置52包括第二数据收发单元521和LDA局部计算单元522。 0071 其中,初始化单元511,主要功能包括:文本分割和参数初始化。在初始化阶段,初 始化单元511将包含M个文本的文本集合分成P个子集,并为每个子集建立一个索引;为了 进行迭代,给定初始全局文本-主题计数矩阵C doc 以及主题-词计数矩阵C word ,同时给LDA 模型的每个参数设定一个初始值 0 、 0 、KK 0 ,在此,、为超参数,K为主 题个数。 0072 参数估计单元512,用于似然函数建立、极大化似然函数以及更新LDA模型的参 数。基于LDA模型,参数估计单元512由LDA计算单元513得到的文本-主题。
48、、主题-词之 间的概率分布p(Z|d)和p(W|Z),然后根据贝叶斯理论建立目标似然函数: 0073 0074 通过极大化目标似然函数L(,K),求得本次迭代对应的模型参 数 (n) , (n) ,K (n) ,并判断参数估计的迭代是否结束,如果没有结束,则并更新模型参数 (n) , (n) ,KK (n) ,并通过第一数据收发单元514把更新后的模型参数发送给各从计算装 置52。 说 明 书CN 102439597 A CN 102439607 A 8/9页 12 0075 LDA计算单元513,接收从第一数据收发单元514转发过来的各从计算装置52计 算得到的局部文本与主题计数矩阵 和主体。
49、与词计数矩阵 归并得到全局文本与主 题计数矩阵C doc 和主体与词计数矩阵C word 。判断各从计算装置52求解潜在狄利克雷模型 更新局部文本与主题计数矩阵 和主题与词计数矩阵 的过程是否收敛,若不收敛, 则将全局文本与主题计数矩阵C doc 和主题与词计数矩阵C word 通过第一数据收发单元514对 应发送给各个从计算装置计算52,继续更新局部文本与主题计数矩阵 和主题与词计 数矩阵 直至求解潜在狄利克雷模型更新局部文本 与主题计数矩阵和主题与词计 数矩阵 的过程收敛为止,根据全局文本与主题计数矩阵C doc 和主题与词计数矩阵C word 计算得到文本-主题、主题-词之间的概率分布p(Z|d)和p(W|Z),将概率分布p(Z|d)和 p(W|Z)以及对应的参数K、和发送给参数估计单元512。 0076 第一数据收发单元514,在初始化阶段,将每个文本子集D p 连同初始参数 0 , 0。