基于图像语义分割与分类的身份识别方法与系统.pdf

上传人:宁*** 文档编号:14524660 上传时间:2024-05-19 格式:PDF 页数:24 大小:1.30MB
返回 下载 相关 举报
基于图像语义分割与分类的身份识别方法与系统.pdf_第1页
第1页 / 共24页
基于图像语义分割与分类的身份识别方法与系统.pdf_第2页
第2页 / 共24页
基于图像语义分割与分类的身份识别方法与系统.pdf_第3页
第3页 / 共24页
点击查看更多>>
资源描述

《基于图像语义分割与分类的身份识别方法与系统.pdf》由会员分享,可在线阅读,更多相关《基于图像语义分割与分类的身份识别方法与系统.pdf(24页珍藏版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410021388.7(22)申请日 2024.01.08(71)申请人 暨南大学地址 510632 广东省广州市黄埔大道西601号(72)发明人 骆爱文温热晖罗凯泽赵亚林杨文杰(74)专利代理机构 北京盛询知识产权代理有限公司 11901专利代理师 李翔(51)Int.Cl.G06V 10/26(2022.01)G06N 3/0464(2023.01)G06V 10/80(2022.01)G06V 20/70(2022.01)G06V 40/18(2022.01)(54)发明名称基于图像语。

2、义分割与分类的身份识别方法与系统(57)摘要本发明公开了一种基于图像语义分割与分类的身份识别方法与系统,属于图像模式识别领域,包括:构建语义分割网络,基于人眼图像数据集与对应的掩码标签进行训练,获得已训练语义分割网络和虹膜图像集;构建目标分类网络,基于虹膜图像集与对应的身份标签进行训练,获得已训练目标分类网络;获取待识别图像,对待识别图像进行预处理得到待识别实时人眼图像;基于已训练语义分割网络与实时人眼图像获得待识别虹膜图像;通过已训练目标分类网络对待识别虹膜图像进行分类,获得身份标签,实现身份识别。本发明设计一种基于注意力机制和轻量高效模块的语义分割卷积神经网络及目标分类卷积神经网络,使基于。

3、虹膜的身份识别方法更准确、更安全、更高效。权利要求书3页 说明书14页 附图6页CN 117523208 A2024.02.06CN 117523208 A1.一种基于图像语义分割与分类的身份识别方法,其特征在于,包括以下步骤:获取人眼图像数据集,构建语义分割网络,基于所述人眼图像数据集与数据集中各图像对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络和虹膜图像集;构建目标分类网络,基于所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络;摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;采用所述已训练语义分割网络对所述实时人眼图像。

4、进行图像分割,获得待识别虹膜图像;通过所述已训练目标分类网络对所述待识别虹膜图像进行分类,获得所述待识别虹膜图像的身份标签,实现身份识别。2.根据权利要求1所述的基于图像语义分割与分类的身份识别方法,其特征在于,获得所述待识别虹膜图像的过程包括:将待识别实时人眼图像输入至所述已训练语义分割网络,所述已训练语义分割网络通过非对称分解后的大卷积核提取待识别实时人眼图像的信息,获得输出特征图,将所述输出特征图输入第一下采样模块处理后通过依次连接的多个第一特征提取块进行浅层特征提取,获得第一特征矩阵;所述第一特征矩阵经过第二下采样模块处理后通过依次连接的多个第二特征提取块进行深层特征提取,获得第二特征。

5、矩阵;对所述第一特征矩阵与所述第二特征矩阵进行特征融合,对特征融合后获得的特征图通过空洞卷积进行特征提取后通过点卷积进行通道恢复,最后通过插值操作将处理后的特征图尺寸恢复至与所述待识别实时人眼图像的相同尺寸;将恢复尺寸的特征图经过argmax操作获得虹膜掩码图;将所述待识别实时人眼图像与所述虹膜掩码图进行点乘操作,获得待识别虹膜图像。3.根据权利要求2所述的基于图像语义分割与分类的身份识别方法,其特征在于,所述第一下采样模块和第二下采样模块结构相同,分别包括两条支路;一条支路将输入的特征图通过33的最大池化层进行下采样;另一条支路将输入的特征图通过ECA模块学习通道的注意力权重后,经过深度卷积。

6、进行下采样;将两条支路的输出结果进行通道拼接,获得具有双倍通道数的特征图并进行通道混洗。4.根据权利要求2所述的基于图像语义分割与分类的身份识别方法,其特征在于,第一特征提取块进行浅层特征提取的过程包括:将通过下采样模块处理后的输出图输入至所述第一特征提取块进行通道拆分,获得第一特征图与第二特征图;所述第一特征图依次通过点卷积、批量归一化,并根据GELU函数进行激活后,经深度分离分组卷积进行通道升维和特征提取;将处理后的第一特征图通过ECA模块学习通道的注意力权重后,将获得的特征图通过点卷积进行通道降维;权利要求书1/3 页2CN 117523208 A2将通道降维后的特征图依次进行批量归一化。

7、和GELU函数激活后与所述第二特征图进行拼接;将拼接后获得的特征图进行通道混洗,获取浅层特征;多个第一特征提取块级联进行特征提取后获得第一特征矩阵;其中,ECA模块包括平均池化层与11卷积层。5.根据权利要求2所述的基于图像语义分割与分类的身份识别方法,其特征在于,第二特征提取块进行深层特征提取的过程包括:对所述第一特征矩阵进行通道拆分,获得第三特征图与第四特征图;所述第三特征图通过点卷积操作后进行多分支处理;其中,第一分支经过批量归一化和HSwish激活函数进行激活后,获得第五特征图;第二分支通过深度空洞卷积进行特征提取,获得第六特征图;第三分支通过深度卷积进行特征提取,获得第七特征图;将所。

8、述第五特征图、所述第六特征图和所述第七特征图进行叠加再通过ECA模块学习通道的注意力权重后,与所述第四特征图进行拼接恢复通道数;将拼接获得的特征图进行通道混洗,获得深层特征;多个第二特征提取块级联进行特征提取后获得第二特征矩阵。6.根据权利要求2所述的基于图像语义分割与分类的身份识别方法,其特征在于,所述第一特征矩阵与所述第二特征矩阵进行特征融合的过程包括:将所述第一特征矩阵通过标准卷积操作进行降维后,通过通道注意力模块捕捉关键通道信息;所述第二特征矩阵通过插值处理增大特征图尺寸后,通过标准卷积操作进行特征提取,再通过通道注意力模块捕捉关键通道信息;将处理后的第一特征矩阵、第二特征矩阵相加,完。

9、成特征融合。7.根据权利要求6所述的基于图像语义分割与分类的身份识别方法,其特征在于,所述通道注意力模块将输入至模块中的特征分别通过全局平均池化与全局最大池化进行压缩后,分别通过多层感知器进行提取后相加,再经过Sigmoid激活函数处理,获得权重,输入至模块中的特征与所述权重相乘后,完成关键通道信息捕捉。8.根据权利要求3所述的基于图像语义分割与分类的身份识别方法,其特征在于,对所述待识别虹膜图像进行分类的过程包括:去除所述待识别虹膜图像的冗余信息并放缩至设定尺寸后输入至所述已训练目标分类网络;所述已训练目标分类网络通过非对称分解后的大卷积核提取处理后的待识别虹膜图像的特征信息,获得第二输出特。

10、征图,所述第二输出特征图经过第三下采样模块进行降维后,通过依次连接的多个第三特征提取块获得第三特征矩阵;将所述第三特征矩阵经过第四下采样模块处理后,经过依次连接的多个第三特征提取块进行处理,获得第四特征矩阵;将所述第四特征矩阵通过第五下采样模块处理后,经过若干个第三特征提取块进行处理,获得第五特征矩阵;将所述第五特征矩阵经全局平均池化后,整合全层空间信息,得到第六特征矩阵;所述第六特征矩阵通过两层点卷积处理得到分类任务对应类别数的矩阵后,转换为一权利要求书2/3 页3CN 117523208 A3维矩阵,根据所述一维矩阵的数值大小进行判别,实现身份识别;所述第三下采样模块、所述第四下采样模块、。

11、所述第五下采样模块与所述第一下采样模块和第二下采样模块结构相同。9.根据权利要求8所述的基于图像语义分割与分类的身份识别方法,其特征在于,所述第三特征提取块进行特征提取的过程包括:所述第三特征提取块将输入的特征图经过点卷积进行通道升维后,通过批处理归一化层和GELU激活函数进行激活;通过点卷积进行信息提取后,通过批处理归一化层和GELU激活函数进行激活并降维回初始特征图通道数的一半,获得第一特征输出图;所述第一特征输出图通过大卷积核进行深度卷积,获得第二特征输出图;将所述第一特征输出图与所述第二特征输出图进行通道拼接后与所述初始特征图相加,通过ECA模块学习通道的注意力权重,将获得的特征图进行。

12、通道混洗后输出。10.一种用于实现权利要求19任一项所述的基于图像语义分割与分类的身份识别方法的识别系统,其特征在于,包括:图像采集模块,用于摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;语义分割模块,用于构建语义分割网络,获取人眼图像数据集与对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络与虹膜图像集;通过所述已训练语义分割网络对所述待识别实时人眼图像进行图像分割,获得对应的待识别虹膜图像;目标分类模块,用于构建目标分类网络,通过所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络,通过所述已训练目标分类网络对所述待识别虹膜。

13、图像进行分类识别,获得身份信息。权利要求书3/3 页4CN 117523208 A4基于图像语义分割与分类的身份识别方法与系统技术领域0001本发明属于图像模式识别领域,特别是涉及一种基于图像语义分割与分类的身份识别方法与系统。背景技术0002生物识别系统在不断地发展,并有望在数字集成系统中用于有效地认证一个人的身份,而无需用户携带或记住任何东西。其中虹膜识别技术由于精度高被认为在未来身份安全认证场景中具有广阔应用前景。多项研究表明,虹膜特征相比其他生物特征(例如人脸、指纹、静脉图和步态)具有稳定性和防伪性等独有优势,这使其在高可靠性和准确性的生物特征系统中得到了普遍认可。现有的虹膜识别系统总。

14、体上包含软件和硬件两部分:软件主要实现虹膜图像预处理、特征提取和特征匹配;硬件主要包括摄像头(图像采集)、图像存储和运算处理器、液晶屏(结果显示)以及电源部分。0003对于软件部分,传统的虹膜图像预处理方法(主要包括虹膜分割、定位和归一化)有积分微分算子法、无监督学习、改进的霍夫圆变换等,大多为受控的虹膜识别系统而开发,对光源和用户要求很高,通常可以获取清晰的虹膜图像,因此产生满意的预处理结果。一旦在远距离、移动端和强光反射等非受控条件下,得到的图往往质量差,存在遮挡、模糊、旋转、镜面反射等干扰。面向这种非受控场景,传统的方法必须预设经验性的超参数、复杂的前后处理操作。此外,很多传统的方法只能。

15、处理某一类或者几类噪声虹膜图像,不具备普适性,增加了处理未知类别虹膜图像的难度。0004另外,传统的虹膜特征提取方法主要是用手工设计特征提取器表示虹膜纹理特征,如小波变换的过零检测、离散傅里叶变换、高阶泰勒展开等。然而,这带来的计算复杂度很高,耗时较长,并且这些提取器通常只能利用虹膜纹理的特定特征。与此同时,随着算力和数据增加,基于深度卷积神经网络的图像识别取得了巨大的突破。网络深度的增加带来了强大的非线性拟合能力,对于复杂的图像,确实能学习和获取到的信息特征更加丰富,但深度增加也存在问题,比如产生梯度消失或爆炸、精度饱和甚至退化以及大量的参数和浮点操作降低计算速度。0005在硬件部署方面,现。

16、有的边缘设备往往是单独的一套设备,没有后台服务器的支撑,由于成本原因存在不足通常配置的硬件计算资源少、电池容量低、时效性要求高,难以满足运行深度神经网络所需的硬件计算资源要求。而为所有边缘设备配置过高的硬件算力也是一种资源浪费,对于以移动终端为代表的边缘设备而言,在分类精度不损失或损失程度不大的基础上,速度、体积、能效和硬件成本才是最应该优先考虑的因素。发明内容0006本发明的目的是提供一种基于图像语义分割与分类的身份识别方法与系统,以解决上述现有技术存在的问题。0007为实现上述目的,本发明提供了一种基于图像语义分割与分类的身份识别方法,说明书1/14 页5CN 117523208 A5包括。

17、:获取人眼图像数据集,构建语义分割网络,基于所述人眼图像数据集与数据集中各图像对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络和虹膜图像集;构建目标分类网络,基于所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络;摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;采用所述已训练语义分割网络对所述实时人眼图像进行图像分割,获得待识别虹膜图像;通过所述已训练目标分类网络对所述待识别虹膜图像进行分类,获得所述待识别虹膜图像的身份标签,实现身份识别。0008可选的,获得所述待识别虹膜图像的过程包括:将待识别实时人眼图像输入至所述已训练语。

18、义分割网络,所述已训练语义分割网络通过非对称分解后的大卷积核提取待识别实时人眼图像的信息,获得输出特征图,将所述输出特征图输入第一下采样模块处理后通过依次连接的多个第一特征提取块进行浅层特征提取,获得第一特征矩阵;所述第一特征矩阵经过第二下采样模块处理后通过依次连接的多个第二特征提取块进行深层特征提取,获得第二特征矩阵;对所述第一特征矩阵与所述第二特征矩阵进行特征融合,对特征融合后获得的特征图通过空洞卷积进行特征提取后通过点卷积进行通道恢复,最后通过插值操作将处理后的特征图尺寸恢复至与所述待识别实时人眼图像的相同尺寸;将恢复尺寸的特征图经过argmax操作获得虹膜掩码图;将所述待识别实时人眼图。

19、像与所述虹膜掩码图进行点乘操作,获得待识别虹膜图像。0009可选的,所述第一下采样模块和第二下采样模块结构相同,分别包括两条支路;一条支路将输入的特征图通过33的最大池化层进行下采样;另一条支路将输入的特征图通过ECA模块学习通道的注意力权重后,经过深度卷积进行下采样;将两条支路的输出结果进行通道拼接,获得具有双倍通道数的特征图并进行通道混洗。0010可选的,第一特征提取块进行浅层特征提取的过程包括:将通过下采样模块处理后的输出图输入至所述第一特征提取块进行通道拆分,获得第一特征图与第二特征图;所述第一特征图依次通过点卷积、批量归一化,并根据GELU函数进行激活后,经深度分离分组卷积进行通道升。

20、维和特征提取;将处理后的第一特征图通过ECA模块学习通道的注意力权重后,将获得的特征图通过点卷积进行通道降维;将通道降维后的特征图依次进行批量归一化和GELU函数激活后与所述第二特征图进行拼接;说明书2/14 页6CN 117523208 A6将拼接后获得的特征图进行通道混洗,获取浅层特征;多个第一特征提取块级联进行特征提取后获得第一特征矩阵;其中,ECA模块包括平均池化层与11卷积层。0011可选的,第二特征提取块进行深层特征提取的过程包括:对所述第一特征矩阵进行通道拆分,获得第三特征图与第四特征图;所述第三特征图通过点卷积操作后进行多分支处理;其中,第一分支经过批量归一化和HSwish激活。

21、函数进行激活后,获得第五特征图;第二分支通过深度空洞卷积进行特征提取,获得第六特征图;第三分支通过深度卷积进行特征提取,获得第七特征图;将所述第五特征图、所述第六特征图和所述第七特征图进行叠加再通过ECA模块学习通道的注意力权重后,与所述第四特征图进行拼接恢复通道数;将拼接获得的特征图进行通道混洗,获得深层特征;多个第二特征提取块级联进行特征提取后获得第二特征矩阵。0012可选的,所述第一特征矩阵与所述第二特征矩阵进行特征融合的过程包括:将所述第一特征矩阵通过标准卷积操作进行降维后,通过通道注意力模块捕捉关键通道信息;所述第二特征矩阵通过插值处理增大特征图尺寸后,通过标准卷积操作进行特征提取,。

22、再通过通道注意力模块捕捉关键通道信息;将处理后的第一特征矩阵、第二特征矩阵相加,完成特征融合。0013可选的,所述通道注意力模块将输入至模块中的特征分别通过全局平均池化与全局最大池化进行压缩后,分别通过多层感知器进行提取后相加,再经过Sigmoid激活函数处理,获得权重,输入至模块中的特征与所述权重相乘后,完成关键通道信息捕捉。0014可选的,对所述待识别虹膜图像进行分类的过程包括:去除所述待识别虹膜图像的冗余信息并放缩至设定尺寸后输入至所述已训练目标分类网络;所述已训练目标分类网络通过非对称分解后的大卷积核提取处理后的待识别虹膜图像的特征信息,获得第二输出特征图,所述第二输出特征图经过第三下。

23、采样模块进行降维后,通过依次连接的多个第三特征提取块获得第三特征矩阵;将所述第三特征矩阵经过第四下采样模块处理后,经过依次连接的多个第三特征提取块进行处理,获得第四特征矩阵;将所述第四特征矩阵通过第五下采样模块处理后,经过若干个第三特征提取块进行处理,获得第五特征矩阵;将所述第五特征矩阵经全局平均池化后,整合全层空间信息,得到第六特征矩阵;所述第六特征矩阵通过两层点卷积处理得到分类任务对应类别数的矩阵后,转换为一维矩阵,根据所述一维矩阵的数值大小进行判别,实现身份识别;所述第三下采样模块、所述第四下采样模块、所述第五下采样模块与所述第一下采样模块和第二下采样模块结构相同。0015可选的,所述第。

24、三特征提取块进行特征提取的过程包括:所述第三特征提取块将输入的特征图经过点卷积进行通道升维后,通过批处理归一化层和GELU激活函数进行激活;说明书3/14 页7CN 117523208 A7通过点卷积进行信息提取后,通过批处理归一化层和GELU激活函数进行激活并降维回初始特征图通道数的一半,获得第一特征输出图;所述第一特征输出图通过大卷积核进行深度卷积,获得第二特征输出图;将所述第一特征输出图与所述第二特征输出图进行通道拼接后与所述初始特征图相加,通过ECA模块学习通道的注意力权重,将获得的特征图进行通道混洗后输出。0016本发明还提供一种基于图像语义分割与分类的身份识别系统,包括:图像采集模。

25、块,用于摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;语义分割模块,用于构建语义分割网络,获取人眼图像数据集与对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络与虹膜图像集;通过所述已训练语义分割网络对所述待识别实时人眼图像进行图像分割,获得对应的待识别虹膜图像;目标分类模块,用于构建目标分类网络,通过所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络,通过所述已训练目标分类网络对所述待识别虹膜图像进行分类识别,获得身份信息。0017本发明的技术效果为:本发明设计了一种基于注意力机制和轻量高效模块的语义分割卷积神经网络及图像分。

26、类卷积神经网络,可用于实时虹膜分割并实现身份识别,使基于虹膜的身份识别方法更安全,更高效。同时,将其部署在资源较少的边缘设备,经验证,可安全实时的进行虹膜识别。本发明可用于对安全性能及处理速度要求高的应用领域。附图说明0018构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本发明实施例中的方法流程与整体架构图;图2为本发明实施例中的语义分割算法流程与整体架构图;图3为本发明实施例中的第一特征提取块的结构示意图;图4为本发明实施例中的下采样模块的结构示意图;图5为本发明实施例中的第二特征提取块的结构示意。

27、图;图6为本发明实施例中的图像分类算法流程与整体架构图;图7为本发明实施例中的第三特征提取块的结构示意图;图8为本发明实施例中的ECA模块的结构示意图;图9为本发明实施例中的深度分离分组卷积示意图。具体实施方式0019需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。0020需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。说明书4/14 页8CN 117523208 A80021实施例。

28、一0022如图1所示,本实施例中提供一种基于图像语义分割与分类的身份识别方法与系统,包括:首先使用红外摄像头等图像采集模块获取图像,并传输至Jetson Xavier NX开发板上,由部署在其上的算法进行处理。在NX开发板上,算法可分为两个部分,先使用语义分割算法对获取的图像进行中的虹膜部分进行图像分割,再将分割得到的虹膜图像传入下一级图像分类算法进行特征识别,即基于第一阶段的语义分割算法所获得的虹膜图像作为识别的基础,最终通过第二阶段的图像分类算法得到人的身份信息,并通过声音或画面对识别结果进行提示。0023本实施例的方法区别于传统的算法中需要采用霍夫圆等算法实现虹膜区域截取、展平并进一步用。

29、传统图像处理理论中的图像特征提取算子(比如SURF/HOG/SIFT等等)再采用机器学习方法(比如支持向量机SVM)进行身份识别的方法,本实施例创新性地分别设计了对虹膜图像截取的轻量级语义分割模型、对虹膜区域图像进行身份识别的图像分类模型,提高了识别的速度和准确度。此外,还将本算法模型部署到低功耗嵌入式平台Jetson Xavier NX上进行实现,可以方便地将本系统应用在各种移动、室内外、网络边缘等终端设备上。0024使用特定的摄像器材对人的整个眼部(甚至是整个脸部)进行拍摄,并将拍摄到的图像传输给虹膜识别系统的数据处理部分。在本发明中,这一部分的工作可以采用中国科学院自动化研究所(CASI。

30、A)模式识别国家重点实验室所公布的虹膜图像数据库作为测试图像,其虹膜图像质量和权威性得到了国际同行的认可。0025CASIAIrisV4 共包含来自54,601多个真实主体和1,800个虚拟主体的1,000张虹膜图像。其中含有多个子集,采用距离相对较近的CASIAIrisThousand数据集与人眼离摄像头的距离相对较远的CASIAIrisDistance作为训练和测试数据集,以评价算法取得的效果。0026语义分割网络(用于准确定位虹膜的位置,从而分割出准确的虹膜区域):接受上层的输出,本实施例在这一部分采用自主设计的轻量级神经网络进行分割。比起现有的大多数神经网络模型的语义分割算法,自主设计。

31、的轻量型网络能更加轻量高效的实现虹膜图像的分割。语义分割神经网络算法在虹膜识别中可以提高分割精度、抑制噪声和干扰,有利于后续的目标检测网络中的特征提取算法更好的利用虹膜信息,最终提高虹膜识别系统的准确性和可靠性。0027由于现有的语义分割算法大部分是采用参数量较多、且计算速度较慢的深度神经网络模型,而速度较快的网络模型往往参数也不够轻量,因而不适应边缘设备的硬件内存空间和计算资源。在考虑众多条件的基础上,本发明实施例设计出可调整大小的语义分割网络,满足高精度与轻量化两方面的要求。0028针对语义分割神经网络的轻量化,本实施例采用了卷积核分解,通道分离,通道混淆,深度可分离卷积等轻量化措施。由于。

32、常规的轻量化时会导致模型精度有所下降。为了在轻量化的同时,保证神经网络的准确度,本实施例采用逆瓶颈层,引入ECA(Efficient Channel Attention,高效通道注意力)层与CAM(Channel Attention Module,通道注意力模块)等注意力机制以及GELU与HSwish等激活函数。其中,本发明实施例提供的语义分割网说明书5/14 页9CN 117523208 A9络的基本组成结构第一特征提取块(Block1),第二特征提取块(Block2)的数量可由实际需要进行调整,从而可调整语义分割网络的模型大小,同时满足了高精度与轻量化两方面的要求。0029对应图2,开始阐。

33、述语义分割网络的计算流程与整体架构:(1):输入一组图像,在进入网络前,将图像进行预处理,即灰度化,并裁剪或放缩到(256256)或(416416)的输入形状。0030(2):以非对称分解后的大卷积核来提取输入图像的信息。0031大卷积核有着较大的感受野,能拥有更好的精度,然而大卷积核的运算成本较大。在经典网络VGG中采用3个33的小卷积核来代替77的大卷积核。经过许多实验实证,用71和17的非对称卷积核可以获得相同的感受野,同时运算成本比起3个小卷积核更加轻量高效。0032输入图(将以4164161的输入图作为例子)首先经过一层71的非对称卷积层,后进行批量归一化处理(Batch Norma。

34、lization,简称BN),BN层的计算公式如下:0033其中,mean为均值计算,Var为方差,eps采用1e5,、采用1和0。0034下一步进入高斯误差线性单元激活函数(GELU)进行非线性激活。GELU函数的计算公式如下:0035再经过一层17的非对称卷积层,后经BN层进入GELU层进行激活。此时网络输出特征图比起输入图将降低一半的分辨率,并升高通道数到预设值C,此时输出图的形状为(208208C)。0036(3):将特征矩阵经下采样后送入Block1模块(即第一特征提取块)进行进一步特征提取,主要提取浅层特征的细粒度信息。0037上层的输入层经过第一下采样模块后,降低一半的分辨率,提。

35、高通道数到2C,显著降低计算量,同时升高通道有利于提高精度。然后将经过N1个Block1模块。此时,输出图形状为(1041042C),即为第一特征矩阵。0038Block1模块的设计如图3所示,现在开始阐述其流程:在第一层中,经过通道拆分,拆分划分为第一特征图与第二特征图,一部分特征图(第一特征图)进入下一卷积层,另一部分特征图(第二特征图)直接与最后特征图拼接。0039在第二层中,上层得到的特征图通过11的卷积层与BN层,并经过GELU进行激活。0040在第三层中,上层得到的特征图经过深度分离分组卷积(如图9所示)进行升维,并进行特征提取。0041在第四层中,升维得到的特征图经由ECA(Ef。

36、ficient Channel Attention,高效通道注意力)模块,学习通道的注意力权重。0042在第五层中,通过点卷积对上层的特征图进行降维,并经过BN层,随后进入GELU进行激活。说明书6/14 页10CN 117523208 A100043在第六层中,将第一层得到的特征图与上层特征图进行拼接。0044在第七层中,将拼接后的特征图进行通道混洗(Channel Shuffle)。0045本实施例采用了通道拆分与合并。通道拆分有效的降低了中间处理层的计算量。拆分后特征图的底层特征直接拼接到了最后的特征图,使底层特征保存下来,同时仅在最后进行拼接,并不是DenseNet所采用的密集连接,使。

37、运行速度相对加快,并且不会出现因网络层数过多而出现底层特征丢失。0046由于在底层网络中,通道数较低,这不利于准确度的提高,因此采用逆瓶颈层增大中间处理层的通道数。值得注意的是,在深度可分离网络中,计算量较大的一般是点卷积,而访存量较大的则是分组卷积。由于这些特点,影响点卷积速度的往往是计算能力,而影响分组卷积速度的则是访存量。为了克服这一缺点,不在第一个点卷积的时候进行升维,而是在分组卷积时进行升维。在降低点卷积的计算需求的同时在分组卷积时增加计算需求,使访存时间与计算时间达成平衡。0047ECA模块如图8所示,采用一维卷积在原本通道数据之间做局部卷积操作,并融合了部分通道信息,最后再做相应。

38、的激活。作为轻量高效的通道注意力模块,它有效的提高了网络对通道信息的注意。0048现有的大部分网络有着五花八门的分支结构,然而碎片化的网络减少了模型的并行度,降低了网络的运行速度。因此,在本模块中,尽可能少的增加分支。0049同时,本模块采用GELU激活函数。在过拟合现象中,靠近网络输入层受到的影响比输出层较大。GELU函数虽然有较大的计算成本,但其有很好的非线性能力与正则化能力,有效避免过拟合。因此在网络底层的这个模块里,采用GELU作为激活函数。值得注意的是,并没有在每个层后都接GELU激活函数,一方面是因为,GELU具有较大的计算成本,同时,几乎所有的激活函数都会增加访存量,影响网络的速。

39、度,另一方面是因为,该模块在少量的激活函数下已经有了足够的非线性能力,不需要额外增添计算成本和访存量。0050同时,在该模块最后进行通道混洗,合并后特征图的通道之间来回通信,使特征得到充分利用。0051下采样模块的设计采用如图4所示的结构:支路1,输入先通过33的最大池化层进行下采样,最后与另一条支路的结果进行拼接。0052支路2,输入经过ECA模块(Efficient Channel Attention),学习通道的注意力权重。得到的特征图经过深度卷积进行下采样。0053在倒数第二层中,将两支路得到的结果进行拼接。0054最后一层,将得到的特征图进行通道混洗(Channel Shuffle)。

40、。0055下采样模块为了满足增加通道,不再进行通道拆分(Channel Split),而是将输入复制一份,并通过两个支路分别处理,最后进行拼接,实现通道翻倍。最大程度的保留了信息。0056同时,依旧引入通道混洗(Channel Shuffle)使通道之间相互通信,避免通道信息的丢失,使特征充分利用。0057(4):将上文所得特征矩阵经下采样后送入Block2模块(可称为第二特征提取块)进行进一步特征提取,主要提取深层抽象的语义信息。说明书7/14 页11CN 117523208 A110058上层的输入层经过第二下采样模块后,降低一半的分辨率,提高通道数到4C。之后,经过N2个Block2模块。

41、。此时,输出图形状为(52524C),即为第二特征矩阵。0059Block2卷积块的设计如图5所示,基于ECA模块,通道拆分,空洞卷积和深度卷积,通道混洗等设计该模块,现在开始阐述其流程:在第一层中,经过通道拆分为第三特征图与第四特征图,一部分特征图(第三特征图)进入下一卷积层,另一部分特征图(第四特征图)直接与最后特征图拼接。0060在第二层中,通过点卷积进行信息提取,随后进入BN层和HSwish激活函数进行激活,获得第五特征图。0061在第三层中,输入分别进入33的深度空洞卷积与33的深度卷积进行特征提取,获得第六特征图与第七特征图。0062在第四层中,将第三层得到的两个特征输出图与第二层。

42、的输出进行相加。0063在第五层中,将第四层的输出特征图放入ECA模块,学习到通道的注意力权重。0064在第六层中,将第五层的输出特征图与第一层拆分出来的另一部分特征图进行拼接。0065在第七层中,将第六层的输出特征图进行通道混洗(Channel Shuffle)。0066为了减少计算量,同时对特征进行重用,本实施例采用了通道拆分与通道合并。但不同的是,不再采取逆瓶颈层。原因是,一方面,网络通道数已经到达了相当高的数目,不需要继续加宽网络层,另一方面是,加大通道数所带来的收益小于计算成本带来的损失。0067除此以外,在网络中加了一种不同于上述模块的激活函数HSwish,这是因为:首先是,靠近输。

43、出端的网络顶层往往过拟合受到的影响较小,不需要GELU激活函数的正则化效应;另一方面,GELU的计算成本高于HSwish。同时,Swish激活函数往往在网络的更深处表现较好,且在较低分辨率下,计算成本也大大降低。同时,HSwish是对swish的一种近似计算,降低了原Swish激活函数的计算成本。0068同时,经过第一层输入层后,本实施例采用了深度空洞卷积,深度卷积,并将上层输出结果与卷积结果直接相加。对于语义分割网络而言,多尺度信息是相当重要的。空洞卷积增大了感受野,而普通的深度卷积拥有较小的感受野,上层结果可视为更小的感受野,结合三种感受野以提高网络更高的精度,同时该模块并没有带来太大的计。

44、算量。0069(5):将上述两部分得到的矩阵进行特征融合,即将深层抽象信息与浅层细粒度信息融合,以获得更好的分割效果。0070将特征矩阵B通过插值操作升高分辨率到原来的两倍,然后经过一层卷积降低维度,并通过通道注意力模块(Channel Attention Module,以下简称CAM)融合通道信息。而特征矩阵A也通过卷积进行特征提取,最后通过CAM模块融合通道信息。将两部分的结果相加,完成了不同尺度下的特征融合。0071CAM模块的目标是增强每个通道的特征表达。公式如下:0072其中先经过全局平均池化(AvgPool)与全局最大池化(MaxPool)进行压缩、再分别说明书8/14 页12CN。

45、 117523208 A12经过多层感知器(MLP)进行提取,之后相加,并通过Sigmoid激活函数(简称S(n)处理,最后将得到的权重与输入相乘,得到输出。0073(6):对融合后的矩阵进行特征提取,转化为通道数为分类数以及分辨率与原图相当的二维矩阵,成功实现训练、验证或测试分割。0074通过一层33的空洞卷积充分提取融合后特征图的信息,最终经过点卷积完成降维至分类数。此时,若特征图经过argmax操作将得到mask图。就是常规的使得f(x)可以获得最大值的自变量值x,如下:0075此时,将输入图像进行掩码操作(即“点乘”操作),即可完成图像中的虹膜区域的分割。在一种优选的实施方式中,语义分。

46、割网络可以采用如下表1所述的网络结构进行实现:表10076其中,stride是指卷积的步伐;C是输入图像的经过第一个卷积层后的输出通道数。0077图像分类网络(基于以上分割获得的虹膜区域图像,通过分类模型对人的身份进行识别):对上部分得到的掩码图像与原图像做点乘后,作为图像分类部分的输入,在这部分采用本实施例自主设计的另一种轻量型图像分类神经网络进行分类。由于在本系统中用了两种神经网络串联,因此,在系统中,将采取极低运算成本、极高运行速度的图像分类算法。在虹膜识别中,语义分割神经网络算法可以将图像中的不同语义区域分割出来,而图像分类算法可以对这些区域进行进一步的分类识别,以提取更加细粒度的虹膜。

47、特征。因此,这一部分的主要作用是进一步提取细粒度的特征,并进行虹膜识别的决策和分类。0078虹膜图像分类旨在输出其相应的类别。传统的基于人工构造图像特征的目标分类方法包括特征提取和分类器两部分。但不足之处在于,传统算法往往只能提取目标对象的说明书9/14 页13CN 117523208 A13浅层特征。现有的卷积神经网络算法,可以学习更加复杂的变换,能够获取的信息越多、特征也越丰富,获得更好的非线性表达能力,从而获得的分类结果比传统算法更加精准。但这些算法产生非常庞大的参数量和更加复杂的浮点操作数,不适应边缘设备的硬件内存空间和计算资源。为此,本实施例基于ECA模块,逆瓶颈层,深度卷积,点卷积。

48、,通道混洗等,在考虑众多条件的情况下,自主设计出了模块数和通道数可调整的轻量型人工神经网络,满足边缘设备实时识别所需的精度和速度。0079针对图像分类神经网络的轻量化,本实施例采用了卷积核分解,通道混淆,深度可分离卷积等轻量化措施。由于轻量化时会导致模型精度有所下降。为了在轻量化的同时,保证神经网络的准确度,采用残差结构,逆瓶颈层,引入ECA layer等注意力机制以及GELU等激活函数。其中阶段2,阶段3,阶段4所含有的block3的数量n1,n2,n3可由实际需要进行调整,同时满足了高精度与轻量化两方面的要求。0080图像分类算法(虹膜识别)流程与整体架构如图6所示,详细阐述如下:(1):。

49、输入一组图像,在进入网络前,将语义分割得到的图像进行删除整零行和整零列,以此删去冗余信息(即非虹膜区域),只保留虹膜部分,并放缩到(80,80)的输入形状。0081(2):以非对称分解后的大卷积核来提取输入图像的信息。0082大卷积核有着较大的感受野,能拥有更好的精度,然而大卷积核的运算成本较大。在经典网络VGG中采用3个33的小卷积核来代替77的大卷积核。经过许多实证,用71和17的非对称卷积核可以获得相同的感受野,同时运算成本比起3个小卷积核更加轻量高效。0083输入图(将以80801的输入图作为例子)首先经过一层71的非对称卷积层,后进行批量归一化处理(BN),下一步进入高斯误差线性单元。

50、激活函数(GELU)进行非线性激活。再经过一层17的非对称卷积层,后经BN层进入GELU层进行激活。BN层与GELU层参数设计与上文语义分割网络基本一致。此时网络输出特征图比起输入图将降低一半的分辨率,并升高通道数到预设值C,此时输出图的形状为(4040C),此处输出图为第二特征图。0084(3):将特征矩阵经下采样后送入block3模块进行进一步特征提取,之后进行两次相同的操作。0085上层的输入层经过第三下采样模块后,降低一半的分辨率,提高通道数到2C,显著降低计算量,同时升高通道有利于提高精度。然后将经过n1个block3模块。此时,输出图形状为(20202C),即为第三特征矩阵。将第三。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1