《一种基于LDA的生物医疗图像的标注系统及方法.pdf》由会员分享,可在线阅读,更多相关《一种基于LDA的生物医疗图像的标注系统及方法.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103942274 A (43)申请公布日 2014.07.23 CN 103942274 A (21)申请号 201410120529.7 (22)申请日 2014.03.27 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 东莞中山大学研究院 地址 523000 广东省东莞市松山湖科技园区 科学苑九号楼 申请人 中山大学 (72)发明人 林谋广 姜涛 薛凯军 肖剑 (54) 发明名称 一种基于 LDA 的生物医疗图像的标注系统及 方法 (57) 摘要 本发明公开了一种基于 LDA 的生物医疗图像 的标注系统, 包括 。
2、LDA 训练模块、 主题词抽取模 块、 主题词精炼模块、 索引上下文句子模块、 上下 文生成模块、 标注产生模块, LDA 训练模块对 LDA 模型进行训练 ; 主题词抽取模块对图像的说明文 字进行 LDA 建模并抽取主题词 ; 主题词精炼模块 对主题词集合进行优化 ; 索引上下文句子模块索 引出与主题词关联的句子集 ; 上下文生成模块选 取最密切的句子构成图像的上下文 ; 标注产生模 块对图像的上下文进行建模, 通过计算选取前几 个单词作为生物医疗图像的标注词。本发明同时 公开了一种基于 LDA 的生物医疗图像的标注方 法。本发明一次能生成多个标注词语, 准确性高, 使用关键词索引来查找相关。
3、图像, 方便快捷, 更符 合人们文本检索习惯。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图2页 (10)申请公布号 CN 103942274 A CN 103942274 A 1/2 页 2 1. 一种基于 LDA 的生物医疗图像的标注系统, 其特征在于, 包括 LDA 训练模块、 主题 词抽取模块、 主题词精炼模块、 索引上下文句子模块、 上下文生成模块、 标注产生模块, 所述 LDA 训练模块用于对 LDA 模型进行训练 ; 所述主题词抽取模块用于对每幅生物医疗图像的。
4、 说明文字进行 LDA 建模, 然后从所建模型中抽取所有的主题词 ; 所述主题词精炼模块对所 述主题词抽取模块所产生的主题词集合进行优化 ; 所述索引上下文句子模块用于从生物医 疗图像的文本文件中索引出与主题词关联的句子集 ; 所述上下文生成模块从每个主题词所 对应的句子集中选取一个最密切的句子, 然后集合所有最密切的句子, 构成生物医疗图像 的上下文 ; 所述标注产生模块通过 LDA 训练模块得到的 LDA 模型对生物医疗图像的上下文 进行建模, 得到生物医疗图像的主题分布和单词分布, 然后将主题 - 单词分布中每个单词 的概率乘以对应主题的概率, 所得结果作为这个单词的权值, 再按照权值从。
5、大到小的顺序 将所有单词排序, 选取前几个单词作为生物医疗图像的标注词。 2.如权利要求1所述的基于LDA的生物医疗图像的标注系统, 其特征在于, 所述LDA模 型的数据集是所有生物医疗图像的说明文字, 从每幅生物医疗图像所对应的文本文件中抽 取节点的说明文字, 将所有图像的说明文字集合构成了 LDA 模型的训练数据集。 3.如权利要求1所述的基于LDA的生物医疗图像的标注系统, 其特征在于, 所述训练模 块采用Gibbs采样方法对LDA模型进行训练, 先抽样出每个单词所对应主题的分布, 然后根 据这个分布推算出文档 - 主题分布和主题 - 单词分布。 4.如权利要求1所述的基于LDA的生物医。
6、疗图像的标注系统, 其特征在于, 所述主题词 精炼模块对主题词集合的优化过程包括 : 在 LDA 模型对生物医疗图像的说明文字建模的结 果中, 如果主题 - 单词分布中某个主题单词的概率为零, 将该单词从主题词集合中剔除 ; 如 果生物医疗图像的说明文字中不包含某个主题词, 将该单词从主题词集中剔除 ; 如果主题 词集合中含有重复的单词, 将重复的单词剔除, 只保留一个。 5.如权利要求1所述的基于LDA的生物医疗图像的标注系统, 其特征在于, 所述索引上 下文句子模块利用 LUCENE 检索工具对主题词集合中的每一个单词, 将其作为查询条件, 检 索出所有包含该主题词的句子。 6.如权利要求。
7、1所述的基于LDA的生物医疗图像的标注系统, 其特征在于, 所述最密切 的句子选取过程包括 : 遍历包含其中一个主题词的每个句子, 如果这个句子含有其他的主 题词, 其得票数就相应的增加, 一个主题词贡献一票, 然后选取得票数最高的句子作为这个 主题词的最密切句子 ; 集合所有主题词的最密切句子构成上下文。 7. 一种基于 LDA 的生物医疗图像的标注方法, 其特征在于, 包括以下步骤 : 步骤 1 : 选取一部分生物医疗图像构成训练集, 并从每幅生物医疗图像的文本文件中 提取节点中的说明文字, 组成 LDA 模型的训练数据集 ; 步骤 2 : 对 LDA 模型进行训练, 先抽样出单词对应的主。
8、题的分布, 然后进一步计算文 档 - 主题分布和主题 - 单词分布 ; 步骤 3 : 对一副未标注图像, 利用训练的 LDA 模型进行建模, 选取所有的主题词, 组成主 题词集合 ; 步骤 4 : 对主题词集合进行优化, 去除其中重复的单词、 概率为零的单词和不在说明文 字中单词, 从而得到精炼主题词集合 ; 步骤 5 : 对一个主题词, 从图像的文本文件中检索出包含该单词的所有句子, 组成一个 权 利 要 求 书 CN 103942274 A 2 2/2 页 3 句子集, 记作该主题词的对应句子集 ; 步骤 6 : 从每个主题词的对应句子集中选取最密切的句子, 组成该图像的上下文 ; 步骤 。
9、7 : 用训练的 LDA 模型对上下文进行建模, 然后将主题 - 单词分布中的每个单词的 概率乘以对应主题的概率, 得到的结果作为单词的权值 ; 按降序排序所有单词, 选取前几个 作为图像的最终标注。 权 利 要 求 书 CN 103942274 A 3 1/5 页 4 一种基于 LDA 的生物医疗图像的标注系统及方法 技术领域 0001 本发明涉及图像处理技术领域, 具体涉及一种基于 LDA 的生物医疗图像的标注系 统及方法。 背景技术 0002 随着数字影像技术的发展和数码相机等可拍照设备的日益普及, 各种各样的图像 数量呈现几何级的飞速增长。 而同时互联网的快速发展也使得图像传播与共享变。
10、得更加快 捷。为了有效地组织、 查询与浏览如此大规模的图像资源, 图像检索技术应运而生, 成为计 算机视觉领域的研究重点。 0003 现有的图像检索方法主要分为两种 : 基于内容的图像检索 (Content-Based Image Retrieval) 和基于文本的图像检索 (Text-Based Image Retrieval) 。 基于内容的图像检索 需要用户提供一幅图像作为查询, 系统提取图像的底层视觉特征, 如颜色、 纹理和形状等, 为图像建立视觉索引, 然后根据数据库中图像与查询间的视觉相似性找出匹配项, 实现检 索的目的。 由于图像底层视觉特征与高层语义概念之间存在不一致性, 即所。
11、谓的 “语义鸿沟 (Semantic Gap) ” , 基于内容的图像检索的性能难以令人满意。基于文本的图像检索, 需要 对图像事先建立文本索引, 用户检索时只要提交文本作为查询, 系统根据文本的相关性匹 配找出相似的图像返回, 这样对图像的检索就转化为对文本关键词的检索。 0004 与基于内容的图像检索相比, 基于文本的图像检索只需要用户提交文本关键词, 方便快捷, 更受广大用户的青睐, 由此也成为主流商业化图像搜索引擎的主要方式。 但是这 种方式需要对图像建立文本索引, 也就是实现图像的语义标注, 这是基于文本的图像检索 技术中极具挑战的一项工作。实现图像的语义标注, 已成为基于文本的图像。
12、检索技术的重 中之重。 一种传统的方式是进行人工标注, 但是这种方式耗时费力, 尤其是面对大规模的网 络图像时, 它显然已经无法胜任。 因此, 如何摆脱人工干预, 并快速、 有效地实现对图像的自 动语义标注, 变得十分重要。 0005 为了实现图像的自动化标注, 现有技术已有的一种方法是将图像进行分类, 然后 把分类的结果当作图像的标注。具体而言, 将每个语义关键词看成一个类别标记 (Label) , 并基于语料库训练一些分类器, 然后用这些分类器对未标注图像进行分类, 所分类别即为 该图像的标注。目前已有许多成熟的分类算法, 例如支持向量机, 隐形马尔科夫模型等等。 0006 然而, 虽然采。
13、用分类的方法进行图像标注, 依赖于分类算法的准确性, 目前的分类 算法虽然准确性比较高, 但仍然会有一定的误差。另外, 现有的分类算法大多是二元分类 器, 例如支持向量机, 那么对于有多重标注的图像, 就需要设计多个分类器, 并对图像进行 多次分类, 效率也不高。 0007 因此, 有必要提供一种基于 LDA 的生物医疗图像的标注系统及方法来满足现有需 求。 发明内容 说 明 书 CN 103942274 A 4 2/5 页 5 0008 本发明的目的是提供一种准确性高、 方便快捷的基于 LDA 的生物医疗图像的标注 系统及方法。 0009 因此, 本发明提供了一种基于 LDA 的生物医疗图像。
14、的标注系统, 包括 LDA 训练模 块、 主题词抽取模块、 主题词精炼模块、 索引上下文句子模块、 上下文生成模块、 标注产生模 块, 所述LDA训练模块用于对LDA模型进行训练 ; 所述主题词抽取模块用于对每幅生物医疗 图像的说明文字进行 LDA 建模, 然后从所建模型中抽取所有的主题词 ; 所述主题词精炼模 块对所述主题词抽取模块所产生的主题词集合进行优化 ; 所述索引上下文句子模块用于从 生物医疗图像的文本文件中索引出与主题词关联的句子集 ; 所述上下文生成模块从每个主 题词所对应的句子集中选取一个最密切的句子, 然后集合所有最密切的句子, 构成生物医 疗图像的上下文 ; 所述标注产生模。
15、块通过 LDA 训练模块得到的 LDA 模型对生物医疗图像的 上下文进行建模, 得到生物医疗图像的主题分布和单词分布, 然后将主题 - 单词分布中每 个单词的概率乘以对应主题的概率, 所得结果作为这个单词的权值, 再按照权值从大到小 的顺序将所有单词排序, 选取前几个单词作为生物医疗图像的标注词。 0010 较佳地, 所述 LDA 模型的数据集是所有生物医疗图像的说明文字, 从每幅生物医 疗图像所对应的文本文件中抽取节点的说明文字, 将所有图像的说明文字集合构成了 LDA 模型的训练数据集。 0011 较佳地, 所述训练模块采用Gibbs采样方法对LDA模型进行训练, 先抽样出每个单 词所对应。
16、主题的分布, 然后根据这个分布推算出文档 - 主题分布和主题 - 单词分布。 0012 较佳地, 所述主题词精炼模块对主题词集合的优化过程包括 : 在 LDA 模型对生物 医疗图像的说明文字建模的结果中, 如果主题 - 单词分布中某个主题单词的概率为零, 将 该单词从主题词集合中剔除 ; 如果生物医疗图像的说明文字中不包含某个主题词, 将该单 词从主题词集中剔除 ; 如果主题词集合中含有重复的单词, 将重复的单词剔除, 只保留一 个。 0013 较佳地, 所述索引上下文句子模块利用 LUCENE 检索工具对主题词集合中的每一 个单词, 将其作为查询条件, 检索出所有包含该主题词的句子。 001。
17、4 较佳地, 所述最密切的句子选取过程包括 : 遍历包含其中一个主题词的每个句子, 如果这个句子含有其他的主题词, 其得票数就相应的增加, 一个主题词贡献一票, 然后选取 得票数最高的句子作为这个主题词的最密切句子 ; 集合所有主题词的最密切句子构成上下 文。 0015 本发明同时提供了一种基于 LDA 的生物医疗图像的标注方法, 包括以下步骤 : 步 骤 1 : 选取一部分生物医疗图像构成训练集, 并从每幅生物医疗图像的文本文件中提取节 点中的说明文字, 组成LDA模型的训练数据集 ; 步骤2 : 对LDA模型进行训练, 先抽样出单词 对应的主题的分布, 然后进一步计算文档 - 主题分布和主。
18、题 - 单词分布 ; 步骤 3 : 对一副未 标注图像, 利用训练的 LDA 模型进行建模, 选取所有的主题词, 组成主题词集合 ; 步骤 4 : 对 主题词集合进行优化, 去除其中重复的单词、 概率为零的单词和不在说明文字中单词, 从而 得到精炼主题词集合 ; 步骤 5 : 对一个主题词, 从图像的文本文件中检索出包含该单词的所 有句子, 组成一个句子集, 记作该主题词的对应句子集 ; 步骤 6 : 从每个主题词的对应句子 集中选取最密切的句子, 组成该图像的上下文 ; 步骤 7 : 用训练的 LDA 模型对上下文进行建 模, 然后将主题 - 单词分布中的每个单词的概率乘以对应主题的概率, 。
19、得到的结果作为单 说 明 书 CN 103942274 A 5 3/5 页 6 词的权值 ; 按降序排序所有单词, 选取前几个作为图像的最终标注。 0016 与现有技术相比, 本发明充分利用了数据集中图像所关联的说明文字和文本文件 来挖掘图像的标注词语, 准确性高, 并且一次能生成多个标注词语。 实现生物医疗图像的准 确标注后, 可以使用关键词索引来查找相关的图像, 方便快捷, 更符合人们文本检索习惯。 附图说明 0017 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施。
20、例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其它的附图。 0018 图 1 是本发明基于 LDA 的生物医疗图像的标注系统的结构示意图 ; 0019 图 2 是本发明基于 LDA 的生物医疗图像的标注方法的流程图 ; 0020 图 3 是本发明实施例的基于 LDA 的生物医疗图像的标注方法的流程图。 具体实施方式 0021 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下。
21、所获得的所有其它 实施例, 都属于本发明保护的范围。 0022 如上所述, 本发明针对生物医疗图像进行标注, 在生物医疗图像语料库中, 每张图 像都有一个对应的文本文件。结合这种特殊性, 提出了一种基于 LDA(Latent Dirichlet Allocation, 潜在狄利克雷分配) 的生物医疗图像的标注方法, 利用 LDA 从图像的说明文字 (caption) 中提取主题词, 然后根据这些主题词从图像对应的文本文件中抽取上下文, 最后 再利用 LDA 对上下文进行建模, 所得到的主题词就作为生物医疗图像的最终标注。 0023 具体地, 参考图 1, 本发明提供了一种基于 LDA 的生物医。
22、疗图像的标注系统, 包括 LDA 训练模块、 主题词抽取模块、 主题词精炼模块、 索引上下文句子模块、 上下文生成模块、 标注产生模块。 0024 LDA 训练模块用于对 LDA 模型进行训练 ; LDA 模型是通过一定的训练数据集对 LDA 模型进行训练, 以生成文档 - 主题分布和主题 - 单词分布。本发明中 LDA 模型的数据集是 所有生物医疗图像的说明文字。从每幅生物医疗图像所对应的文本文件 (XML 格式) 中抽取 caption 节点的内容, 即该图像的说明文字, 所有图像的说明文字集合在一起, 构成了 LDA 模型的训练数据集。同时我们将主题个数、 文档 - 主题分布和主题 - 。
23、单词分布的狄利克雷 先验参数设置为经验值。 LDA训练模块采用Gibbs采样方法对LDA模型进行训练, 先抽样出 每个单词所对应主题的分布, 然后根据这个分布推算出文档-主题分布和主题-单词分布。 0025 主题词抽取模块用于对每幅生物医疗图像的说明文字进行 LDA 建模, 然后从所建 模型 (主题分布和单词分布) 中抽取所有的主题词 ; 对于一副未标注图像, 利用训练模块所 产生的 LDA 模型对该图像的说明文字 (caption) 进行建模, 然后从建模的结果 (主题分布和 单词分布) 中抽取所有的单词作为该图像的主题词, 加入到主题词集合中。 0026 主题词精炼模块对所述主题词抽取模块。
24、所产生的主题词集合进行优化, 得到最精 说 明 书 CN 103942274 A 6 4/5 页 7 简、 最有效的主题词集合。在 LDA 模型对图像的说明文字 (caption) 建模的结果中, 如果主 题 - 单词分布中某个主题单词的概率为零, 将该单词从主题词集合中剔除 ; 如果图像的说 明文字中不包含某个主题词, 将该单词从主题词集中剔除 ; 如果主题词集合中含有重复的 单词, 将重复的单词剔除, 只保留一个。 经过这些优化操作, 从而得到更精炼的主题词集合。 通过主题词精炼处理, 去掉重复的主题词, 同时去掉 LDA 建模结果中概率为零的主题词, 以 及去掉图像说明文字 (capti。
25、on) 中不包含的句子 0027 索引上下文句子模块用于从生物医疗图像的文本文件中索引出与主题词关联的 句子集 ; 索引模块利用 LUCENE 作为检索工具, 对精炼主题词集合中的每一个单词, 将其作 为查询条件, 检索出所有包含该主题词的句子。索引过程完成后, 对于每一个主题词, 都有 一个句子集与之关联。可以理解地, 在索引上下文句子模块, 本发明实施例是采用 LUCENE 来实现文本检索, 目前也有其他的文本检索工具, 可以代替 LUCECE 实现同样的功能。 0028 上下文生成模块从每个主题词所对应的句子集中选取一个最密切的句子, 然后集 合所有最密切的句子, 构成生物医疗图像的上下。
26、文 (context) , 即所有密切句子组成的集合 就是上下文。 较佳地, 所述最密切的句子选取过程包括 : 遍历包含其中一个主题词的每个句 子, 如果这个句子含有其他的主题词, 其得票数就相应的增加, 一个主题词贡献一票, 然后 选取得票数最高的句子作为这个主题词的最密切句子 ; 集合所有主题词的最密切句子构成 上下文。 0029 标注产生模块通过LDA训练模块得到的LDA模型对生物医疗图像的上下文进行建 模, 得到生物医疗图像的主题分布和单词分布, 然后将主题 - 单词分布中每个单词的概率 乘以对应主题的概率, 所得结果作为这个单词的权值, 再按照权值从大到小的顺序将所有 单词排序, 选。
27、取前几个单词作为生物医疗图像的标注词。 0030 参考图 2, 相应地, 本发明同时提供了一种基于 LDA 的生物医疗图像的标注方法, 包括以下步骤 : 0031 步骤 S01 : 选取一部分生物医疗图像构成训练集, 并从每幅生物医疗图像的文本 文件中提取节点中的说明文字, 组成 LDA 模型的训练数据集 ; 0032 步骤 S02 : 对 LDA 模型进行训练, 先抽样出单词对应的主题的分布, 然后进一步计 算文档 - 主题分布和主题 - 单词分布 ; 0033 步骤 S03 : 对一副未标注图像, 利用训练的 LDA 模型进行建模, 选取所有的主题词, 组成主题词集合 ; 0034 步骤 。
28、S04 : 对主题词集合进行优化, 去除其中重复的单词、 概率为零的单词和不在 说明文字中单词, 从而得到精炼主题词集合 ; 0035 步骤 S05 : 对一个主题词, 从图像的文本文件中检索出包含该单词的所有句子, 组 成一个句子集, 记作该主题词的对应句子集 ; 0036 步骤 S06 : 从每个主题词的对应句子集中选取最密切的句子, 组成该图像的上下 文 ; 0037 步骤 S07 : 用训练的 LDA 模型对上下文进行建模, 然后将主题 - 单词分布中的每个 单词的概率乘以对应主题的概率, 得到的结果作为单词的权值 ; 按降序排序所有单词, 选取 前几个作为图像的最终标注。 0038 。
29、配合参考图 3, 作为本发明一实施例的基于 LDA 的生物医疗图像标注方法的具体 说 明 书 CN 103942274 A 7 5/5 页 8 操作步骤如下 : 0039 第 1 步, 开始 0040 第 2 步, 选取一部分生物医疗图像构成训练集, 并从每幅图像的文本文件中提取 CAPTION 节点中的说明文字, 组成 LDA 模型的训练数据集 ; 同时, 给定主题数、 文档 - 主题分 布的先验参数、 主题 - 单词分布的先验参数。 0041 第3步, 采用Gibbs采样算法对LDA模型进行训练 ; 先抽样出单词对应的主题的分 布, 然后进一步计算文档 - 主题分布和主题 - 单词分布。 。
30、0042 第4步, 对一副未标注图像, 利用训练的LDA模型进行建模, 选取所有的主题词, 组 成主题词集合。 0043 第 5 步, 对主题词集合进行优化, 去除其中重复的单词、 概率为零的单词和不在说 明文字中单词, 从而得到精炼主题词集合。 0044 第 6 步, 对一个主题词, 用 LUCECE 从图像的文本文件中检索出包含该单词的所有 句子, 组成一个句子集, 记作该主题词的对应句子集。 0045 第 7 步, 如果所有的主题词都有对应句子集, 则进入第 8 步, 否则进入第 6 步。 0046 第 8 步, 利用上下文生成算法, 从每个主题词的对应句子集中选取最密切的句子, 组成该。
31、图像的上下文。 0047 第 9 步, 用第 3 步训练的 LDA 模型对上下文进行建模, 然后将主题 - 单词分布中的 每个单词的概率乘以对应主题的概率, 得到的结果作为单词的权值 ; 按降序排序所有单词, 选取前几个作为图像的最终标注。 0048 第 10 步, 所有未标注图像都进行了标注, 进入第 11 步, 否则跳到第 4 步。 0049 第 11 步, 结束。 0050 与现有技术相比, 本发明充分利用了生物医疗图像的说明文字和所对应的文本信 息, 从说明文字中挖掘图像的主题词, 并回溯到图像所在的文本信息, 生成一段上下文, 进 而提取出图像的标注词。这种方式大大提高了标注的准确性。
32、, 并能够一次性生成图像所关 联的多个标注。 本发明充分利用了数据集中图像所关联的说明文字和文本文件来挖掘图像 的标注词语, 准确性高, 并且一次能生成多个标注词语。实现生物医疗图像的准确标注后, 可以使用关键词索引来查找相关的图像, 方便快捷, 更符合人们文本检索习惯。 0051 以上对本发明实施例所提供的基于 LDA 的生物医疗图像的标注系统及方法, 进行 了详细介绍, 本发明中应用了具体个例对本发明的原理及实施方式进行了阐述, 以上实施 例的说明只是用于帮助理解本发明的方法及其核心思想 ; 同时, 对于本领域的一般技术人 员, 依据本发明的思想, 在具体实施方式及应用范围上均会有改变之处, 综上所述, 本说明 书内容不应理解为对本发明的限制。 说 明 书 CN 103942274 A 8 1/2 页 9 图 1 图 2 说 明 书 附 图 CN 103942274 A 9 2/2 页 10 图 3 说 明 书 附 图 CN 103942274 A 10 。