处理多种先验知识的自适应视频目标分割方法.pdf

上传人:奻奴 文档编号:13917762 上传时间:2023-06-21 格式:PDF 页数:15 大小:1.13MB
返回 下载 相关 举报
处理多种先验知识的自适应视频目标分割方法.pdf_第1页
第1页 / 共15页
处理多种先验知识的自适应视频目标分割方法.pdf_第2页
第2页 / 共15页
处理多种先验知识的自适应视频目标分割方法.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《处理多种先验知识的自适应视频目标分割方法.pdf》由会员分享,可在线阅读,更多相关《处理多种先验知识的自适应视频目标分割方法.pdf(15页珍藏版)》请在专利查询网上搜索。

1、(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210105882.2 (22)申请日 2022.01.28 (71)申请人 杭州电子科技大学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 李平张宇徐向华 (74)专利代理机构 杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师 陈炜 (51)Int.Cl. G06T 7/11(2017.01) G06T 7/143(2017.01) G06T 7/174(2017.01) G06T 7/194(2017.01) G06N 3/04(2006.0。

2、1) G06N 3/08(2006.01) (54)发明名称 处理多种先验知识的自适应视频目标分割 方法 (57)摘要 本发明公开了处理多种先验知识的自适应 视频目标分割方法。 本发明方法首先对含目标掩 膜及描述语句的视频进行采样, 并利用时空编码 器获得时空视觉特征图; 然后构建目标先验自适 应编码器, 将不同形式的先验知识统一编码为目 标卷积核; 再通过级联目标过滤器使用目标卷积 核将时空视觉特征图中的目标与背景相分离, 得 到目标的概率张量; 最后利用Adam算法优化分割 网络模型, 对包含先验知识的新视频依次通过上 述步骤获得目标的预测掩膜。 本发明方法提供了 端到端的训练模型, 既能。

3、自适应处理给定的目标 掩膜或描述语句等先验知识, 还能有效刻画目标 先验知识与视频帧外观特征之间的时空关系, 有 利于更为准确高效地分割视频的重要目标。 权利要求书4页 说明书9页 附图1页 CN 114494297 A 2022.05.13 CN 114494297 A 1.处理多种先验知识的自适应视频目标分割方法, 其特征在于, 该方法获取含有目标 掩膜及描述语句的视频数据集合后, 依次进行如下操作: 步骤(1)对视频进行帧采样后获得视频帧序列, 将其输入由残差卷积网络与自注意力 模块构成的时空编码器, 获得时空视觉特征图集合; 步骤(2)构建目标先验自适应编码器, 其输入为视频首帧掩膜与。

4、描述语句、 时空视觉特 征图集合, 并输出目标卷积核矩阵; 步骤(3)构建级联目标过滤器, 将目标卷积核与时空视觉特征图集合作为输入, 获得目 标概率张量; 步骤(4)将时空编码器、 目标先验自适应编码器以及级联目标过滤器合并组成分割网 络, 使用交叉熵损失函数进行模型优化, 获得已训练的目标分割网络; 步骤(5)对新视频进行帧采样后, 将视频目标先验知识及帧序列输入已训练的分割网 络中, 输出新视频对应的预测目标掩膜。 2.如权利要求1所述的处理多种先验知识的自适应视频目标分割方法, 其特征在于, 步 骤(1)具体是: (11)对输入视频进行均匀采样, 获得视频帧序列t表示视频 帧的时刻下标。

5、, T为视频帧数目, H为视频帧的高度, W为视频帧的宽度; 给定所有视频帧的真 实目标掩膜Pt0,1HW|t1,2,.,T, 其中Pt是维度为HW的二值矩阵, 元素值为1表 示对应位置的视频帧像素属于目标, 元素值为0表示背景; (12)构建由残差卷积网络与自注意力模块构成的时空编码器, 其中残差卷积网络已 去除最后的全局池化层与全连接层; (13)将N个连续视频帧It,It+1,.,It+N1依次输入时空编码器中的残差卷积网络, 获得视觉特征图集合1N5, c表示视觉 特征图的通道数, 且c1c2c3, h和w表示集合中视觉特征图的高度和宽度, 且依次为视频 帧高度H与宽度W的1/4、 1。

6、/8与1/16, 而视觉特征图F的下标也用于表示高度与宽度的缩放比 例; (14)将视觉特征图F1/16输入自注意力模块, 获得时空视觉特征图具体 是: QLN(F1/16)Wq, KLN(F1/16)Wk, VLN(F1/16)Wv, 其中, LN()表示层归一化操作, MLP()表示两个级联的线性层, softmax()表示归 一化指数函数, Wq、 Wk与Wv均为可学习参数, 其维度均为Cc3, C256, 特征矩阵Q、 K和V的维 度均为(Nh3w3)C, 中间特征矩阵的维度为(Nh3w3)C,Nh3w3Nh3w3; (15)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空。

7、视觉特征 图集合 3.如权利要求2所述的处理多种先验知识的自适应视频目标分割方法, 其特征在于, 步 权利要求书 1/4 页 2 CN 114494297 A 2 骤(2)具体是: (21)构建目标先验自适应编码器, 具体构成包括: 由多个卷积层组成的掩膜编码器、 由注意力模块与线性层组成的预训练语言模型、 语言嵌入层、 目标先验控制层与三个基于 注意力机制的目标卷积核生成器; 将视频第一帧的掩膜P10,1HW输入由多个卷积层组 成的掩膜编码器, 获得掩膜特征图具体是: 其中, Conv2D()表示卷积核为33的2D卷积层, BN()表示批归一化操作, ReLU() 表示线性整流函数, Max。

8、Pool()表示全局池化操作, Repeat()表示复制操作, 此处将维 度为h3w3C的张量复制N次,表示初始掩膜特征图,表示中 间掩膜特征图; (22)将视频对应的描述语句, 即由多个单词组成的集合word1,word2, ,worde输入 预训练语言模型BERT, 获得语言特征向量其中worde表示描述语句中的第e个单词, C0768为特征向量的长度; (23)将语言特征向量输入由两个线性层组成的语言嵌入层, 并通过复制操作 获得语言特征图具体是: 其中, Linear()表示线性层, tanh()表示双曲正切函数, Repeat()表示复制操 作, 此处将维度为C的向量复制Nh3w3次。

9、, L 为初始语言特征向量, L 为中间语言特征向 量; (24)将掩膜特征图M3和语言特征图输入目标先验层, 按照获 得目标先验特征图参数0 0.5; (25)将目标先验特征图输入第一个目标卷积核生成器, 获得初级目标卷 积核矩阵具体是: Q LN(U1)W q, K LN(O)Wk, V LN(O)Wv, 其中, 初级目标先验查询矩阵为全零初始化的可学习参数, b50, W q、 Wk和 W v均为可学习参数, 其维度均为CC; (26)将初级目标先验查询矩阵与初级目标卷积核进行逐元素累加, 权利要求书 2/4 页 3 CN 114494297 A 3 作为中级目标先验查询矩阵中级目标先验。

10、查询矩阵与目标先验特征 图一起输入第二个相同结构的目标卷积核生成器, 获得中级目标卷积核矩阵 (27)将中级目标先验查询矩阵与初级目标卷积核进行逐元素累 加, 作为高级目标先验查询矩阵高级目标先验查询矩阵与目标先验特 征图一起输入第三个相同结构的目标卷积核生成器, 获得高级目标卷积核矩 阵 4.如权利要求3所述的处理多种先验知识的自适应视频目标分割方法, 其特征在于, 步 骤(3)具体是: (31)构建级联目标过滤器, 级联目标过滤器由三个具有相同结构的目标过滤器, 以及 掩膜预测层组成, 目标过滤器由卷积层、 双线性上采样组成; (32)将时空视觉特征图集合中和以及初级目标卷积核 矩阵输入第。

11、一个目标过滤器, 获得初级目标过滤特征图具体是: 其中, 1()与 均表示卷积核大小为33的卷积层, 并且卷 积层的输出通道数均为C, *表示将右侧输入作为卷积核与左侧输入进行11卷积操作; (33)将初级目标过滤特征图通过双线性上采样放大特征图分辨率至h2 w2, 即与时空视觉特征图集合中以及中级 目 标 卷 积 核 矩阵输 入 第 二 个目 标 过 滤 器 , 获 得 中 级目 标 过 滤 特 征图 具体是:其中, 2()与 均表示卷积核大小 为33的卷积层; (34)将中级目标过滤特征图通过双线性上采样放大特征图分辨率至h1 w1, 即与时空视觉特征图集合中以及高级 目标卷积核矩阵输入第。

12、三个目标过滤器, 获得高级目标过滤特征图 具体是:其中, 3()与 均表示卷积核大小为33的卷积 层; (35)将高级目标过滤特征图输入掩膜预测层, 获得目标概率张量 其中, ()表示卷积核大小为33的卷积层, 其输出通 道为1, Up()表示通过双线性上采样将分辨率从h1w1放大至视频帧的分辨率HW, () 表示Sigmoid函数。 5.如权利要求4所述的处理多种先验知识的自适应视频目标分割方法, 其特征在于, 步 骤(4)具体是: (41)将目标概率张量和真实目标掩膜Pt0,1HW|t1,2,.,T作为 权利要求书 3/4 页 4 CN 114494297 A 4 输入, 利用交叉熵损失函。

13、数计算损失值其中,表示 输入第n个视频帧第i个像素属于目标的概率值, pn,i表示对应第n个视频帧对应的真实目标 掩膜第i个像素类别值, 为0或1; (42)通过Adam优化器对时空编码器、 目标先验自适应编码器和级联目标过滤器构成 的分割网络参数进行优化, 其中预训练语言模型BERT不参与优化, 优化过程中以0.1为间隔 循环调整参数 , 0 0.5, 获得训练好的目标分割网络。 6.如权利要求5所述的处理多种先验知识的自适应视频目标分割方法, 其特征在于, 步 骤(5)的具体是: (51)对输入的新视频进行均匀采样, 得到视频帧集合T表示视频的 总帧数,表示在t时刻的视频帧; (52)将视。

14、频帧按照步骤(1)方法获得时空视觉特征图集合; (53)根据给定目标先验知识类型调整分割网络结构: 目标先验知识为视频首帧掩膜, 则将其按照步骤(21), 步骤(24)(27)以及步骤(3)进行操作, 并设置参数 0.5; 目标 先验知识为描述语句, 则将其按照步骤(22)(27)以及步骤(3)进行操作, 并设置参数 0; 获得各帧的目标概率张量后, 将概率大于0.5的元素值设置为1, 否则为0, 输出预测目 标掩膜 权利要求书 4/4 页 5 CN 114494297 A 5 处理多种先验知识的自适应视频目标分割方法 技术领域 0001 本发明属于计算机视觉技术领域, 尤其是视觉目标分割领域。

15、, 涉及一种处理多种 先验知识的自适应视频目标分割方法。 背景技术 0002 在互联网时代, 视频作为信息交换的重要媒介, 相比图像数据, 为人们生活方式和 工作方式的革新带来更大的推动作用。 而视频中的前景目标往往是大家最为关注的对象, 视频目标分割是指提取视频帧中的感兴趣物体, 如前景目标, 该类技术近年来得到了快速 发展, 并广泛应用于视频编辑、 影视特效、 视频会议等实际领域。 0003 具体地, 视频目标分割通过对视频帧的时空关系建模, 从而提取视频内的感兴趣 物体对应的像素级别标记矩阵, 即目标掩膜。 该矩阵的元素值表示视频帧的像素类别, 其中 前景目标像素标为1, 其他则为0。 。

16、在一个视频中往往存在多个物体, 一般需要指定其中单个 或多个物体作为目标, 并提供其先验知识, 如目标掩膜。 常见的目标先验知识表现形式有两 种: 视频首帧的真实掩膜和描述目标的语句。 相应地, 视频目标分割可分为两种: 1)半监督 视频目标分割: 给定视频首帧真实掩膜, 获取像素级别的目标类别; 2)基于描述语句的视频 目标分割: 给定目标描述语句, 通过语言描述指定目标。 在现实应用中, 经常遇到多种先验 知识交叉的场景, 对有些视频给定首帧真实掩膜, 而对另一些视频给定目标描述语句, 这就 需要视频目标分割模型自适应地有效处理多种先验知识。 0004 现有方法需要设计多个不同的算法模型才。

17、能够处理不同的目标先验知识。 例如, 针对半监督视频目标分割, 一般利用卷积神经网络提取视频帧的特征表示, 采用匹配或在 线学习的方式实现分割。 其中, 基于匹配的方式一般通过计算成对视频帧特征表示的逐像 素相似度, 并据此从给定真实掩膜中获取逐像素的类别估计, 从而判断视频帧的每个像素 是否属于目标。 而基于在线学习的方法基于给定真实掩膜构建训练样本, 利用全卷积神经 网络在线学习新输入样本的目标特征表示, 有利于判断后续视频帧的目标与背景。 此外, 针 对基于描述语句的视频目标分割同样利用卷积神经网络进行特征提取, 并利用预训练语言 模型获得描述语句的特征向量, 然后设计不同的特征融合模块。

18、处理视觉特征与语言特征, 输出预测的目标掩膜。 0005 上述方法的不足点主要表现在两方面: 1)单一方法无法同时利用不同类型的目标 先验知识用于指定视频内的目标对象, 在实际应用中无法自适应地接受目标掩膜或描述语 句等目标指定信息并完成分割; 2)为了在统一框架下实现半监督视频目标分割与基于描述 语句的视频目标分割, 需要集成多个方法, 造成集成模型的复杂度过高且无法进行端到端 训练。 为了解决上述问题, 迫切需要设计能够统一处理多种不同的目标先验知识且能端到 端训练的视频目标分割方法。 发明内容 0006 本发明的目的就是针对现有技术的不足, 提出了一种处理多种先验知识的自适应 说明书 1。

19、/9 页 6 CN 114494297 A 6 视频目标分割方法, 利用自适应编码器处理多种不同形式的目标先验知识, 并通过刻画视 觉帧外观特征与目标先验之间的内在关系将目标准确地从视频帧背景中分离出来, 从而满 足现实应用中不同目标指定方式下的分割需求。 0007 本发明方法获取含有目标掩膜及描述语句的视频数据集合后, 依次进行如下操 作: 0008 步骤(1)对视频进行帧采样后获得视频帧序列, 将其输入由残差卷积网络与自注 意力模块构成的时空编码器, 获得时空视觉特征图集合; 0009 步骤(2)构建目标先验自适应编码器, 其输入为视频首帧掩膜与描述语句、 时空视 觉特征图集合, 并输出目。

20、标卷积核矩阵; 0010 步骤(3)构建级联目标过滤器, 将目标卷积核与时空视觉特征图集合作为输入, 获 得目标概率张量; 0011 步骤(4)将时空编码器、 目标先验自适应编码器以及级联目标过滤器合并组成分 割网络, 使用交叉熵损失函数进行模型优化, 获得已训练的目标分割网络; 0012 步骤(5)对新视频进行帧采样后, 将视频目标先验知识及帧序列输入已训练的分 割网络中, 输出新视频对应的预测目标掩膜。 0013 进一步, 步骤(1)具体是: 0014(11)对输入视频进行均匀采样, 获得视频帧序列t表示 视频帧的时刻下标, T为视频帧数目, H为视频帧的高度, W为视频帧的宽度; 给定所。

21、有视频帧 的真实目标掩膜Pt0,1HW|t1,2,.,T, 其中Pt是维度为HW的二值矩阵, 元素值 为1表示对应位置的视频帧像素属于目标, 元素值为0表示背景; 0015 (12)构建由残差卷积网络与自注意力模块构成的时空编码器, 其中残差卷积网 络已去除最后的全局池化层与全连接层; 0016 (13)将N个连续视频帧It,It+1,.,It+N1依次输入时空编码器中的残差卷积网 络, 获得视觉特征图集合c表 示视觉特征图的通道数, 且c1c2c3, h和w表示集合中视觉特征图的高度和宽度, 且依次 为视频帧高度H与宽度W的1/4、 1/8与1/16, 而视觉特征图F的下标也用于表示高度与宽。

22、度的 缩放比例; 0017(14)将视觉特征图F1/16输入自注意力模块, 获得时空视觉特征图 具体是: QLN(F1/16)Wq, KLN(F1/16)Wk, VLN(F1/16)Wv, 0018 0019 0020 其中, LN()表示层归一化操作, MLP()表示两个级联的线性层, softmax()表 示归一化指数函数, Wq、 Wk与Wv均为可学习参数, 其维度均为Cc3, C256, 特征矩阵Q、 K和V 的维度均为(Nh3w3)C, 中间特征矩阵的维度为(Nh3w3)C,Nh3w3Nh3w3; 0021 (15)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空视觉 特。

23、征图集合 说明书 2/9 页 7 CN 114494297 A 7 0022 又进一步, 步骤(2)具体是: 0023 (21)构建目标先验自适应编码器, 具体构成包括: 由多个卷积层组成的掩膜编码 器、 由注意力模块与线性层组成的预训练语言模型、 语言嵌入层、 目标先验控制层与三个基 于注意力机制的目标卷积核生成器; 将视频第一帧的掩膜P10,1HW输入由多个卷积层 组成的掩膜编码器, 获得掩膜特征图具体是: 0024 0025 0026 0027 其中, Conv2D()表示卷积核为33的2D卷积层, BN()表示批归一化操作, ReLU ()表示线性整流函数, MaxPool()表示全局。

24、池化操作, Repeat()表示复制操作, 此处 将维度为h3w3C的张量复制N次,表示初始掩膜特征图,表 示中间掩膜特征图; 0028 (22)将视频对应的描述语句, 即由多个单词组成的集合word1,word2, ,worde 输入预训练语言模型BERT, 获得语言特征向量其中worde表示描述语句中的第e个 单词, C0768为特征向量的长度。 0029(23)将语言特征向量输入由两个线性层组成的语言嵌入层, 并通过复制 操作获得语言特征图具体是: 0030 0031 0032 0033 其中, Linear()表示线性层, tanh()表示双曲正切函数, Repeat()表示复制 操作。

25、, 此处将维度为C的向量复制Nh3w3次, L 为初始语言特征向量, L 为中间语言特征 向量; 0034( 2 4 ) 将 掩 膜 特 征 图 M 3 和 语 言 特 征 图输 入 目 标 先 验 层 , 按 照 获得目标先验特征图参数0 0.5; 0035(25)将目标先验特征图输入第一个目标卷积核生成器, 获得初级目 标卷积核矩阵具体是: 0036 Q LN(U1)W q, K LN(O)Wk, V LN(O)Wv, 0037 0038 0039其中, 初级目标先验查询矩阵为全零初始化的可学习参数, b50, W q、 W k和Wv均为可学习参数, 其维度均为CC; 0040(26)将初。

26、级目标先验查询矩阵与初级目标卷积核进行逐元素 说明书 3/9 页 8 CN 114494297 A 8 累加, 作为中级目标先验查询矩阵中级目标先验查询矩阵与目标先验 特征图一起输入第二个相同结构的目标卷积核生成器, 获得中级目标卷积核 矩阵 0041(27)将中级目标先验查询矩阵与初级目标卷积核进行逐元素 累加, 作为高级目标先验查询矩阵高级目标先验查询矩阵与目标先验 特征图一起输入第三个相同结构的目标卷积核生成器, 获得高级目标卷积核 矩阵 0042 再进一步, 步骤(3)具体是: 0043 (31)构建级联目标过滤器, 级联目标过滤器由三个具有相同结构的目标过滤器, 以及掩膜预测层组成,。

27、 目标过滤器由卷积层、 双线性上采样组成; 0044(32)将时空视觉特征图集合中和以及初级目标卷 积核矩阵输入第一个目标过滤器, 获得初级目标过滤特征图具体 是:其中, 1()与 均表示卷积核大小为33的卷积层, 并 且卷积层的输出通道数均为C, *表示将右侧输入作为卷积核与左侧输入进行11卷积操 作; 0045(33)将初级目标过滤特征图通过双线性上采样放大特征图分辨率 至h2w2, 即与时空视觉特征图集合中以及 中级目标卷积核矩阵输入第二个目标过滤器, 获得中级目标过滤特征图 具体是:其中, 2()与 均表示卷积核大小 为33的卷积层; 0046(34)将中级目标过滤特征图通过双线性上采。

28、样放大特征图分辨率 至h1w1, 即与时空视觉特征图集合中以及 高级目标卷积核矩阵输入第三个目标过滤器, 获得高级目标过滤特征图 具体是:其中, 3()与 均表示卷积核大小为 33的卷积层; 0047(35)将高级目标过滤特征图输入掩膜预测层, 获得目标概率张量 其中, ()表示卷积核大小为33的卷积层, 其输出通 道为1, Up()表示通过双线性上采样将分辨率从h1w1放大至视频帧的分辨率HW, () 表示Sigmoid函数。 0048 更进一步, 步骤(4)具体是: 0049(41)将目标概率张量和真实目标掩膜Pt0,1HW|t1,2,.,T 作为输入, 利用交叉熵损失函数计算损失值其中,。

29、 说明书 4/9 页 9 CN 114494297 A 9 表示输入第n个视频帧第i个像素属于目标的概率值, pn,i表示对应第n个视频帧对应的 真实目标掩膜第i个像素类别值, 为0或1; 0050 (42)通过Adam优化器对时空编码器、 目标先验自适应编码器和级联目标过滤器 构成的分割网络参数进行优化, 其中预训练语言模型BERT不参与优化, 优化过程中以0.1为 间隔循环调整参数 , 0 0.5, 获得训练好的目标分割网络。 0051 还进一步, 步骤(5)的具体是: 0052(51)对输入的新视频进行均匀采样, 得到视频帧集合T表示视 频的总帧数,表示在t时刻的视频帧; 0053(52。

30、)将视频帧按照步骤(1)方法获得时空视觉特征图集合; 0054 (53)根据给定目标先验知识类型调整分割网络结构: 目标先验知识为视频首帧 掩膜, 则将其按照步骤(21), 步骤(24)(27)以及步骤(3)进行操作, 并设置参数 0.5; 目标先验知识为描述语句, 则将其按照步骤(22)(27)以及步骤(3)进行操作, 并设 置参数 0; 获得各帧的目标概率张量后, 将概率大于0.5的元素值设置为1, 否则为0, 输出 预测目标掩膜 0055 本发明提出了一种处理多种先验知识的自适应视频目标分割方法, 该方法具有以 下几个特点: 1)通过目标先验自适应编码器实现对不同目标先验知识的比例控制,。

31、 能够处 理多种目标先验知识如视频首帧掩膜或描述语句; 2)通过级联目标过滤器对视频帧外观特 征进行卷积操作, 并且卷积核参数来自目标先验知识编码的统一目标卷积核, 能够逐步将 目标从背景中过滤出来; 3)通过设计端到端训练的分割网络, 并通过其中目标先验自适应 编码器与级联目标过滤器自适应处理不同目标先验知识, 实现像素级别的目标提取。 0056 本发明适用于存在多种目标先验知识的视频目标分割场景, 有益效果包括: 1)利 用自适应编码器能够根据不同的目标先验知识类型, 自适应调整网络结构实现统一的目标 编码; 2)利用级联目标过滤器刻画目标先验知识与视频帧外观特征之间的时空关系, 从而 将。

32、目标从视频帧的背景中提取出来; 3)在统一的框架下设计能够端到端训练的分割网络, 能够自适应处理多种目标先验知识并完成视频目标分割。 该方法在视频编辑、 影视特效、 视 频会议等领域具有广阔的应用前景。 附图说明 0057 图1是本发明方法的流程图。 具体实施方式 0058 以下结合附图对本发明作进一步说明。 0059 如图1, 一种处理多种先验知识的自适应视频目标分割方法: 首先对视频进行帧采 样获得视频帧序列, 并使用时空编码器在时空域内捕捉上下文信息, 获得时空视觉特征图 集合; 再将目标先验如视频首帧掩膜或描述语句输入目标先验自适应编码器, 将目标先验 知识统一编码为目标卷积核, 其中。

33、通过调整目标先验知识的比例可实现任何单一目标先验 的编码; 接着通过级联目标过滤器, 使用目标卷积核将时空视觉特征图中的目标与背景相 分离, 获得预测目标掩膜。 本发明提出的方法既能自适应实现对给定视频首帧目标掩膜或 说明书 5/9 页 10 CN 114494297 A 10 描述语句的视频目标分割任务, 又采用端到端的神经网络结构, 从而满足实际应用中不同 目标指定方式与端到端模型的需求。 0060 处理多种先验知识的自适应视频目标分割方法, 获取含有目标掩膜与描述语句的 视频数据集合后, 进行如下操作: 0061 步骤(1)对视频进行帧采样后获得视频帧序列, 将其输入由残差卷积网络与自注。

34、 意力模块构成的时空编码器, 获得时空视觉特征图集合。 具体是: 0062 ( 1 1 ) 对 输 入 视 频 以 3 0 帧 为 间 隔 进 行 均 匀 采 样 , 获 得 视 频 帧 序 列 t表示视频帧的时刻下标, T为视频帧数目, H为视频帧的高度, W为 视频帧的宽度; 给定所有视频帧的真实目标掩膜Pt0,1HW|t1,2,.,T, 其中Pt是 维度为HW的二值矩阵, 元素值为1表示对应位置的视频帧像素属于目标, 元素值为0表示 背景; 0063 (12)构建由残差卷积网络与自注意力模块构成的时空编码器, 其中残差卷积网 络已去除最后的全局池化层与全连接层; 0064 (13)将N个。

35、连续视频帧It,It+1,.,It+N1依次输入时空编码器中的残差卷积网 络, 获得视觉特征图集合1N5, c表示 视觉特征图的通道数, 且c1c2c3, h和w表示集合中视觉特征图的高度和宽度, 且依次为 视频帧高度H与宽度W的1/4、 1/8与1/16, 而视觉特征图F的下标也用于表示高度与宽度的缩 放比例; 0065(14)将视觉特征图F1/16输入自注意力模块, 获得时空视觉特征图 具体是: QLN(F1/16)Wq, KLN(F1/16)Wk, VLN(F1/16)Wv, 0066 0067 0068 其中, LN()表示层归一化操作, MLP()表示两个级联的线性层, softma。

36、x()表 示归一化指数函数, Wq、 Wk与Wv均为可学习参数, 其维度均为Cc3, C256, 特征矩阵Q、 K和V 的维度均为(Nh3w3)C, 中间特征矩阵的维度为(Nh3w3)C,Nh3w3Nh3w3; 0069 (15)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空视觉 特征图集合 0070 步骤(2)构建目标先验自适应编码器, 其输入为视频首帧掩膜与描述语句、 时空视 觉特征图集合, 并输出目标卷积核矩阵。 具体是: 0071 (21)构建目标先验自适应编码器, 具体构成包括: 由多个卷积层组成的掩膜编码 器、 由注意力模块与线性层组成的预训练语言模型BERT(Bid。

37、irectional Encoder Representation from Transformer)、 语言嵌入层、 目标先验控制层与三个基于注意力机 制的目标卷积核生成器; 将视频第一帧的掩膜P10,1HW输入由多个卷积层组成的掩膜 编码器, 获得掩膜特征图具体是: 0072 说明书 6/9 页 11 CN 114494297 A 11 0073 0074 0075 其中, Conv2D()表示卷积核为33的2D卷积层, BN()表示批归一化操作, ReLU ()表示线性整流函数, MaxPool()表示全局池化操作, Repeat()表示复制操作, 此处 将维度为h3w3C的张量复制N次。

38、,表示初始掩膜特征图,表 示中间掩膜特征图; 0076 (22)将视频对应的描述语句, 即由多个单词组成的集合word1,word2, ,worde 输入预训练语言模型BERT, 获得语言特征向量其中worde表示描述语句中的第e个 单词, C0768为特征向量的长度。 0077(23)将语言特征向量输入由两个线性层组成的语言嵌入层, 并通过复制 操作获得语言特征图具体是: 0078 0079 0080 0081 其中, Linear()表示线性层, tanh()表示双曲正切函数, Repeat()表示复制 操作, 此处将维度为C的向量复制Nh3w3次, L 为初始语言特征向量, L 为中间语。

39、言特征 向量; 0082( 2 4 ) 将 掩 膜 特 征 图 M 3 和 语 言 特 征 图输 入 目 标 先 验 层 , 按 照 获得目标先验特征图参数0 0.5; 0083(25)将目标先验特征图输入第一个目标卷积核生成器, 获得初级目 标卷积核矩阵具体是: 0084 Q LN(U1)W q, K LN(O)Wk, V LN(O)Wv, 0085 0086 0087其中, 初级目标先验查询矩阵为全零初始化的可学习参数, b50, W q、 W k和Wv均为可学习参数, 其维度均为CC; 0088(26)将初级目标先验查询矩阵与初级目标卷积核进行逐元素 累加, 作为中级目标先验查询矩阵中级。

40、目标先验查询矩阵与目标先验 特征图一起输入第二个相同结构的目标卷积核生成器, 获得中级目标卷积核 矩阵 0089(27)将中级目标先验查询矩阵与初级目标卷积核进行逐元素 累加, 作为高级目标先验查询矩阵高级目标先验查询矩阵与目标先验 说明书 7/9 页 12 CN 114494297 A 12 特征图一起输入第三个相同结构的目标卷积核生成器, 获得高级目标卷积核 矩阵 0090 步骤(3)构建级联目标过滤器, 将目标卷积核与时空视觉特征图集合作为输入, 获 得目标概率张量。 具体是: 0091 (31)构建级联目标过滤器, 级联目标过滤器由三个具有相同结构的目标过滤器, 以及掩膜预测层组成, 。

41、目标过滤器由卷积层、 双线性上采样组成; 0092(32)将时空视觉特征图集合中和以及初级目标卷 积核矩阵输入第一个目标过滤器, 获得初级目标过滤特征图具体 是:其中, 1()与 均表示卷积核大小为33的卷积层, 并 且卷积层的输出通道数均为C, *表示将右侧输入作为卷积核与左侧输入进行11卷积操 作; 0093(33)将初级目标过滤特征图通过双线性上采样放大特征图分辨率 至h2w2, 即与时空视觉特征图集合中以及 中级目标卷积核矩阵输入第二个目标过滤器, 获得中级目标过滤特征图 具体是:其中, 2()与 均表示卷积核大小 为33的卷积层; 0094(34)将中级目标过滤特征图通过双线性上采样。

42、放大特征图分辨率 至h1w1, 即与时空视觉特征图集合中以及 高级目标卷积核矩阵输入第三个目标过滤器, 获得高级目标过滤特征图 具体是:其中, 3()与 均表示卷积核大小为 33的卷积层; 0095(35)将高级目标过滤特征图输入掩膜预测层, 获得目标概率张量 其中, ()表示卷积核大小为33的卷积层, 其输出通 道为1, Up()表示通过双线性上采样将分辨率从h1w1放大至视频帧的分辨率HW, () 表示Sigmoid函数。 0096 步骤(4)将时空编码器、 目标先验自适应编码器以及级联目标过滤器合并组成分 割网络, 使用交叉熵损失函数进行模型优化, 获得已训练的目标分割网络。 具体是: 。

43、0097(41)将目标概率张量和真实目标掩膜Pt0,1HW|t1,2,.,T 作为输入, 利用交叉熵损失函数计算损失值其中, 表示输入第n个视频帧第i个像素属于目标的概率值, pn,i表示对应第n个视频帧对应的 真实目标掩膜第i个像素类别值, 为0或1; 0098 (42)通过Adam优化器对时空编码器、 目标先验自适应编码器和级联目标过滤器 构成的分割网络参数进行优化, 其中预训练语言模型BERT不参与优化, 优化过程中以0.1为 说明书 8/9 页 13 CN 114494297 A 13 间隔循环调整参数 , 0 0.5, 获得训练好的目标分割网络。 0099 步骤(5)对新视频进行帧采。

44、样后, 将视频目标先验知识及帧序列输入已训练的分 割网络中, 输出新视频对应的预测目标掩膜。 具体是: 0100 (51) 对输入的 新视频以 30帧为间隔进行均匀采样 , 得到视频帧集合 T表示视频的总帧数,表示在t时刻的视频帧; 0101(52)将视频帧按照步骤(1)方法获得时空视觉特征图集合; 0102 (53)根据给定目标先验知识类型调整分割网络结构: 目标先验知识为视频首帧 掩膜, 则将其按照步骤(21), 步骤(24)(27)以及步骤(3)进行操作, 并设置参数 0.5; 目标先验知识为描述语句, 则将其按照步骤(22)(27)以及步骤(3)进行操作, 并设 置参数 0; 获得各帧的目标概率张量后, 将概率大于0.5的元素值设置为1, 否则为0, 输出 预测目标掩膜 0103 本实施例所述的内容仅仅是对发明构思的实现形式的列举, 本发明的保护范围的 不应当被视为仅限于实施例所陈述的具体形式, 本发明的保护范围也及于本领域技术人员 根据本发明构思所能够想到的等同技术手段。 说明书 9/9 页 14 CN 114494297 A 14 图1 说明书附图 1/1 页 15 CN 114494297 A 15 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1