《集成图形处理单元的嵌入式实时高清医学超声成像系统.pdf》由会员分享,可在线阅读,更多相关《集成图形处理单元的嵌入式实时高清医学超声成像系统.pdf(8页珍藏版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201610924260.7 (22)申请日 2016.10.24 (71)申请人 华南理工大学 地址 510640 广东省广州市广州天河区五 山路381号 (72)发明人 陈俊颖 李迪勤 闵华清 (74)专利代理机构 广州粤高专利商标代理有限 公司 44102 代理人 何淑珍 (51)Int.Cl. A61B 8/00(2006.01) (54)发明名称 集成图形处理单元的嵌入式实时高清医学 超声成像系统 (57)摘要 本发明公开集成图形处理单元的嵌入式实 时高清医学超声成像系。
2、统。 本发明的系统采用集 成图形处理单元的嵌入式设备来实现医学超声 成像, 采用改进的高清成像算法, 使其计算流程 适用于图形处理单元的计算环境, 从而提高医学 超声成像的图像质量与成像帧率。 与传统便携式 医学超声成像系统相比, 本发明使用的集成图形 处理单元嵌入式系统具有强大的并行计算能力, 可在短时间内完成高清医学超声成像算法的复 杂计算, 可以实时且高清地呈现医学超声影像。 本发明实现最小方差波束形成高清超声成像, 使 其在本发明的嵌入式系统上实时输出高清医学 超声图像。 本发明的集成图形处理单元的嵌入式 系统价格并不昂贵, 实用性强、 性价比高。 权利要求书1页 说明书4页 附图2页。
3、 CN 106510756 A 2017.03.22 CN 106510756 A 1.集成图形处理单元的嵌入式实时高清医学超声成像系统, 其特征在于采用集成图形 处理单元的嵌入式设备来实现医学超声成像, 采用改进的高清成像算法, 使其计算流程适 用于图形处理单元的计算环境, 从而提高医学超声成像的图像质量与成像帧率。 2.根据权利要求1所述的集成图形处理单元的嵌入式实时高清医学超声成像系统, 其 特征在于包括模拟仿真模块、 合成像素模块和显示图像模块; 所述模拟仿真模块使用Field II仿真器模拟超声成像过程并取得仿真数据; 在模拟仿 真模块中首先依据现实超声成像设备相应配置来模拟对应的仿。
4、真物理数据, 创建发射和接 收阵元, 创建模拟检测对象, 然后按扫描线逐条模拟发射并接收回波数据。 3.根据权利要求1所述的集成图形处理单元的嵌入式实时高清医学超声成像系统, 其 特征在于系统采用的合成像素模块根据医学超声成像中最小方差小波束形成算法, 最小方 差波束形成算法基于延迟叠加波束形成算法, 与延迟叠加波束形成算法有相同的输入输出 数据流和相同的延迟叠加处理; 最小方差波束形成算法使用变迹权重自适应输入的超声数据, 具体包括: 最小方差波束形成算法中使用了子孔径平均法, 一个接收孔径由M个连续的输入数据 通道构成并被分成一组由L个连续输入通道组成的子孔径; 一个接收孔径由(M-L+1。
5、)个子孔 径组成; 通过子孔径平均法, 用以下的公式计算出一个像素p0的协方差矩阵: 其中, xk(p0)是输入数据中第k个子孔径组成的(L1)维的向量, 即xk(p0)是x(p0)中第k 个元素到第(k-L+1)个元素的集合, 而x(p0)是输入数据的一个(M1)维的向量; 算出协方 差矩阵R(p0)后, 再用以下公式算出变迹权重: 因为输入通道中的数据已经过延迟, 所以此处a是一个均为1的简单方向向量; 最后, 成 像中像素p0的幅值通过以下公式估算: 4.根据权利要求1所述的集成图形处理单元的嵌入式实时高清医学超声成像系统, 其 特征在于系统采用的显示图像模块在合成像素模块得到像素数据后。
6、, 调用Maltab相应函数 对数据进行希尔伯特变换、 对数压缩、 灰阶范围较正操作, 计算显示图像的深度和宽度, 最 后将图像相关数据输出到对应的横纵坐标轴内, 以在屏幕上显示成像。 权 利 要 求 书 1/1 页 2 CN 106510756 A 2 集成图形处理单元的嵌入式实时高清医学超声成像系统 技术领域 0001 本发明属于医学超声成像领域, 基于集成图形处理单元的高性能嵌入式计算平 台, 完成便携式高清医学超声成像设备的核心处理模块。 背景技术 0002 在医学超声成像系统中, 物理阵元发射超声波并接收回波信号, 然后在运算单元 中通过成像算法将回波信号数据转换为图像数据并显示出来。
7、。 传统的延时叠加成像算法通 常在中央处理器CPU上实现, 但高清成像算法的庞大成像数据及复杂运算过程, 使得传统 CPU已经无法满足其对高性能计算的需求。 0003 近年来CPU的频率在不断提高、 单芯片上的CPU核数也在增加, 出现了双核、 四核甚 至更多核的CPU, 但多核CPU的发展存在瓶颈, 其运算吞吐率到一定程度后便很难再有突破 性提高。 有学者提出集成更多的运算单元来提高单位时间的计算能力, 但这会造成设备体 积和功耗的增加, 也会使成本提高。 另一方面, 目前的图形处理单元发展迅猛, 一个图形处 理单元中可集成上百多个运算核心, 使其计算能力大幅提高, 这为实现实时高清医学超声。
8、 成像提供了很好的硬件条件。 本发明充分利用了嵌入式平台上图形处理单元的高速并行计 算能力, 将复杂的高清医学超声成像算法在集成图形处理单元的高性能嵌入式计算平台上 实现, 完成便携式高清医学超声成像设备的核心处理模块。 发明内容 0004 本发明的主要目的为了解决目前便携式医学超声检测仪图像质量低的问题。 目前 便携式医学超声检测仪中使用的成像算法大多是传统的延时叠加成像算法, 该算法运算简 单, 能满足医学超声的实时成像要求, 但图像质量相对较低。 本发明为了实现高清成像算法 在医学超声检测仪中的应用, 运用图形处理单元的高速并行计算能力完成高清成像算法的 实现成像, 达到在便携式医学超声。
9、检测仪中实现实时高清成像的要求。 0005 本发明的目的通过如下技术方案实现。 0006 集成图形处理单元的嵌入式实时高清医学超声成像系统, 其采用集成图形处理单 元的嵌入式设备来实现医学超声成像, 采用改进的高清成像算法, 使其计算流程适用于图 形处理单元的计算环境, 从而提高医学超声成像的图像质量与成像帧率。 0007 进一步地实施地, 集成图形处理单元的嵌入式实时高清医学超声成像系统包括模 拟仿真模块、 合成像素模块和显示图像模块; 0008 所述模拟仿真模块使用Field II仿真器模拟超声成像过程并取得仿真数据; 在模 拟仿真模块中首先依据现实超声成像设备相应配置来模拟对应的仿真物理。
10、数据, 创建发射 和接收阵元, 创建模拟检测对象, 然后按扫描线逐条模拟发射并接收回波数据。 0009 进一步地, 所述合成像素模块根据医学超声成像中最小方差小波束形成算法, 最 小方差波束形成算法基于延迟叠加波束形成算法, 与延迟叠加波束形成算法有相同的输入 输出数据流和相同的延迟叠加处理; 说 明 书 1/4 页 3 CN 106510756 A 3 0010 最小方差波束形成算法使用变迹权重自适应输入的超声数据, 具体包括: 0011 最小方差波束形成算法中使用了子孔径平均法, 一个接收孔径由M个连续的输入 数据通道构成并被分成一组由L个连续输入通道组成的子孔径; 一个接收孔径由(M-L。
11、+1)个 子孔径组成; 通过子孔径平均法, 用以下的公式计算出一个像素p0的协方差矩阵: 0012 0013 其中, xk(p0)是输入数据中第k个子孔径组成的(L1)维的向量, 即xk(p0)是x(p0) 中第k个元素到第(k-L+1)个元素的集合, 而x(p0)是输入数据的一个(M1)维的向量; 算出 协方差矩阵R(p0)后, 再用以下公式算出变迹权重: 0014 0015 因为输入通道中的数据已经过延迟, 所以此处a是一个均为1的简单方向向量; 最 后, 成像中像素p0的幅值通过以下公式估算: 0016 0017 所述显示图像模块在合成像素模块得到像素数据后, 调用Maltab相应函数对。
12、数据 进行希尔伯特变换、 对数压缩、 灰阶范围较正操作, 计算显示图像的深度和宽度, 最后将图 像相关数据输出到对应的横纵坐标轴内, 以在屏幕上显示成像。 0018 本发明依据现有科学技术现状, 在集成图形处理单元的嵌入式系统中实现一个实 时高清医学超声成像系统。 用集成图形处理单元的嵌入式设备来实现医学超声成像, 重点 对最小方差自适应波束形成高清成像算法进行完善和改进, 使其运算流程适用于图形处理 单元的运算环境, 充分发挥图形处理单元的计算能力, 提高医学超声成像的图像质量与成 像帧率。 0019 与现有技术相比, 本发明的优点主要体现在两个方面: 一方面, 本发明重点实现的 最小方差自。
13、适应波束形成算法可有效提高医学超声成像的图像质量, 其成像效果比传统的 延迟叠加算法好很多; 另一方面, 通过图形处理单元强大的计算能力妥善解决最小方差自 适应波束形成算法庞大的计算需求, 从而使该嵌入式系统的输出成像帧率大幅提高, 实现 了高清医学超声图像的实时输出。 附图说明 0020 图1是实例中的系统模块工作流程示意图。 0021 图2是实例中异构嵌入式计算平台体系结构示意图。 0022 图3a是实例中模拟的实验方案示意图。 0023 图3b是实例中最小方差波束形成算法的输出图像。 具体实施方式 0024 以下结合附图和实例对本发明的具体实施作进一步说明, 但本发明的实施和保护 不限于。
14、此。 需指出的是, 以下若有未特别详细说明之处, 均是本领域技术人员可参照现有技 术实现的。 0025 图1为本实例的系统模块流程图。 由图1可以看出, 系统设计有如下三大模块。 说 明 书 2/4 页 4 CN 106510756 A 4 0026 1.模拟仿真模块 0027 使用Field II仿真器模拟超声成像过程并取得仿真数据。 在这模块中首先依据现 实超声成像设备相应配置来模拟对应的仿真物理数据, 创建发射和接收阵元, 根据实验需 要创建模拟检测对象, 然后按扫描线逐条模拟发射并接收回波数据。 0028 2.合成像素模块 0029 根据医学超声成像中最小方差小波束形成算法的发展, 我。
15、们实现了下面描述中的 最小方差波束形成算法。 0030 最小方差波束形成算法是基于延迟叠加波束形成算法发展而来的, 它们有相同的 输入输出数据流和相同的延迟叠加处理。 最主要的不同是最小方差波束形成算法使用变迹 权重自适应输入的超声数据, 而延迟叠加波束形成算法不能自适应输入数据的固定的变迹 权重。 正是这个最主要的区别使最小方差波束形成算法输出图像的质量比延迟叠加算法的 高。 0031 最小方差波束形成算法中使用了子孔径平均法。 一个接收孔径由M个连续的输入 数据通道构成并被分成一组由L个连续输入通道组成的子孔径。 因此, 一个接收孔径由(M-L +1)个子孔径组成。 通过子孔径平均法, 我。
16、们可以用以下的公式计算出一个像素p0的协方差 矩阵: 0032 0033 此处, xk(p0)是输入数据中第k个子孔径组成的(L1)维的向量, 即xk(p0)是x(p0) 中第k个元素到第(k-L+1)个元素的集合, 而x(p0)是输入数据的一个(M1)维的向量。 算出 协方差矩阵R(p0)后, 再用以下公式算出变迹权重: 0034 0035 因为输入通道中的数据已经过延迟, 所以此处a是一个均为1的简单方向向量。 最 后, 成像中像素p0的幅值可通过以下公式估算: 0036 0037 3.显示图像模块 0038 在合成像素模块得到像素数据后, 调用Maltab相应函数对数据进行希尔伯特变 换。
17、、 对数压缩、 灰阶范围较正等操作, 计算显示图像的深度和宽度, 最后将图像相关数据输 出到对应的横纵坐标轴内, 以在屏幕上显示成像。 0039 本实例的系统主要在Nvidia Jetson TX1嵌入式平台上实现, 采用Field II得到 的仿真模拟数据, 对最小方差波束形成高清成像算法进行改进和完善, 将其用CUDA C编程 实现并编译成PTX文件, 最后使用混编的形式将系统各个模块整合起来, 使其适合于运行在 集成图形处理单元的高性能嵌入式计算平台上, 从而完成便携式高清医学超声成像设备的 核心处理模块设计。 以下从计算平台和实施策略两个方面对实施方案进行介绍。 0040 最小方差波束。
18、形成算法以计算复杂度为代价而输出高质量的图像, 因此它的计算 是相当费时的。 较高的计算复杂度阻碍了其在传统嵌入式计算平台如ARM处理器上的实现, 如在传统的ARM处理器上实现实时的最小方差波束形成算法。 因此, 最小方差波束形成算法 在含有嵌入式GPU的异构嵌入式计算平台上实现实时成像能力具有很重要的意义。 说 明 书 3/4 页 5 CN 106510756 A 5 0041 异构嵌入式计算平台的体系结构如图2所示, 其中ARM处理器和嵌入式GPU, 以及内 部存储器和外部存储器的处理器模块都在一个嵌入式处理芯片内。 在异构嵌入式计算平台 上还有大量的外围设备, 如相机模块、 显示模块、 。
19、USB等常用外设连接器模块。 此系统使用的 异构嵌入式计算平台GPU加速器是英伟达公司的产品Nvidia Jetson TX1。 0042 本发明中, 最小方差波束形成算法在嵌入式GPU上的高清实时实现主要有如下两 个方面。 0043 1)GPU计算资源分配: 基于GPU的CUDA编程架构模型包括三个规划层次, 即GPU的计 算网格、 线程块及线程。 当程序启动一个CUDA内核函数在GPU上执行时, 其所有的计算都是 在一个计算网格中执行的。 不同线程块或线程上的计算任务可以并行执行, 而一个线程中 的程序指令被顺序执行。 这种编程模型的层次结构可以应用到超声成像的最小方差波束形 成算法的实现。
20、过程中。 在图像形成过程中, 利用最小方差波束形成算法计算整个图像的像 素值。 图像中行和列的像素刚好可以映射到GPU二维计算网格中的线程块, 其中, 每个线程 块负责一个像素的幅度值计算。 像素幅度值的计算过程如图1的合成像素模块所述, 此过程 通过同个线程块内的线程之间进行并行协作完成。 最适合的线程块数和线程数取决于计算 问题的规模和嵌入式计算平台中计算资源的配置。 0044 2)GPU内存访问策略: GPU的内存访问策略对GPU的整体计算速度有非常重要的影 响。 GPU中有全局内存, 共享内存和寄存器等三种基本的内存类型。 这三种类型的存储模块 位于不同的架构层次上, 寄存器位于GPU。
21、处理器芯片上, 共享内存与GPU计算核心有一定距 离, 全局内存则与GPU计算核心最远。 与GPU核心的距离决定了三种类型的存储器的访问速 度, 寄存器的访问速度是最快的, 共享内存的访问速度比寄存器文件慢, 而全局存储器的速 度是三个存储器中最慢的一个。 然而, 内存类型的内存大小与它的内存访问速度成反比。 因 此, 全局内存的容量大小是最大的, 寄存器是最小的, 而共享内存的大小在全局内存和寄存 器之间。 因此, 在实现的GPU程序中, 小型变量可以存储在寄存器中, 但大部分的数据会被存 储在全局内存中。 0045 方案和性能评估: 0046 该系统通过使用Field II仿真器来模拟超声。
22、通道数据样本, 从而进行一系列相关 实验, 得到此系统的成像性能评估。 以下仿真模拟了一个由128阵元组成的超声波换能器, 每个阵元的宽度为0.3048mm, 使用5kHz的脉冲重复率和40MHz的采样率。 模拟的实验方案如 图3a所示。 实验中使用NVIDIA Jetson TX1作为评估平台。 通过对我们在上一节中描述的实 施方案进行实现。 图3b展示了此实验方案中最小方差波束形成算法的输出图像, 可以看出, 通过最小方差波束形成算法可以得到高质量图像, 并且其成像时间在实时成像要求内, 说 明了此系统的现实意义。 说 明 书 4/4 页 6 CN 106510756 A 6 图1 说 明 书 附 图 1/2 页 7 CN 106510756 A 7 图2 图3a 图3b 说 明 书 附 图 2/2 页 8 CN 106510756 A 8 。