基于捷径深度神经网络的视频分类方法.pdf

摘要
申请专利号：	CN201510280574.3	申请日：	2015.05.27
公开号：	CN104881685A	公开日：	2015.09.02
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06K 9/62申请日:20150527\|\|\|公开
IPC分类号：	G06K9/62; G06F17/30	主分类号：	G06K9/62
申请人：	清华大学
发明人：	靳晓明; 万程
地址：	100084北京市海淀区100084-82信箱
优先权：
专利代理机构：	北京清亦华知识产权代理事务所(普通合伙)11201	代理人：	张大威
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于捷径深度神经网络的视频分类方法，包括：训练分类器的步骤，包括：获取训练数据的类别标签，提取视频特征和异构特征，并设定开关节点数值，将训练数据的类别标签、视频特征和异构特征输入所述捷径深度神经网络，以训练得到用于对视频进行分类的分类器，视频的类别由所述类别标签表示；视频分类的步骤，包括：获取测试数据，提取视频特征和异构特征，并将测试数据的视频特征和异构特征输入分类器，以得到测试数据对应的类别标签；其中，视频特征由第一输入层输入，并依次通过多个隐藏层进行训练，异构特征由第二输入层输入，并根据开关节点数值通过相应的隐藏层进行训练。本发明具有分类简单、分类精确的优点。

权利要求书

1.  一种基于捷径深度神经网络的视频分类方法，其特征在于，所述捷径深度神经网络包括：第一输入层、第二输入层、开关节点层、多个隐藏层和一个输出层，所述第一输入层、所述多个隐藏层和所述输出层依次相连，所述第二输入层通过所述开关节点层与所述多个隐藏层相连，所述第一输入层、第二输入层、开关节点层、多个隐藏层和一个输出层分别设有预定的节点数，所述方法包括：
训练分类器的步骤，包括：获取训练数据的类别标签，并从所述训练数据中提取视频特征和异构特征，并设定开关节点数值，以及将所述训练数据的类别标签、视频特征和异构特征输入所述捷径深度神经网络，以训练得到用于对视频进行分类的分类器，所述视频的类别由所述类别标签表示；
视频分类的步骤，包括：获取测试数据，并从所述测试数据中提取视频特征和异构特征，并将所述测试数据的视频特征和异构特征输入所述分类器，以得到所述测试数据对应的类别标签；
其中，所述视频特征由所述第一输入层输入，并依次通过所述多个隐藏层进行训练，所述异构特征由所述第二输入层输入，并根据所述开关节点数值通过相应的隐藏层进行训练。

2.  根据权利要求1所述的基于捷径深度神经网络的视频分类方法，其特征在于，根据PCA方法提取所述视频特征，根据LDA方法提取所述异构特征。

3.  根据权利要求1所述的基于捷径深度神经网络的视频分类方法，其特征在于，在得到所述分类器之后，还包括：利用BP算法对所述分类器进行优化。

4.  根据权利要求1所述的基于捷径深度神经网络的视频分类方法，其特征在于，所述训练分类器的步骤，具体包括：
S1：获取所述视频特征和异构特征，其中，所述视频特征和所述异构特征为1000维的向量，所述视频特征和所述异构特征表示为：
S2：设定开关节点数值，其中，开关节点结构为矩阵Z∈{0，1}^3×1000，如果隐藏层i与异构特征a_j连结，则另Z_ij＝1，否则另Z_ij＝0；
S3：随机初始化第一输入层与第一隐藏层之间的权值矩阵第一输入层偏置向量隐藏层偏置向量第二输入层与第一隐藏层之间的权值矩第二输入层偏置向量
S4：将所述v，a输入到所述捷径深度神经网络网络中，并计算所述多个隐藏层的节点激活概率值；
S5：根据隐藏层的节点的激活概率值对其进行抽样得到h⁽⁰⁾，并根据抽取出的样本计算重构输入层的概率值；
S6：根据所述重构输入层的概率值对其进行抽样得到v⁽¹⁾，a⁽¹⁾，并根据所述v⁽¹⁾，a⁽¹⁾重复S4和S5，得到h⁽¹⁾；
S7：计算参数的梯度；
S8：每计算预定数量的梯度，对所述参数进行更新，直到所有训练数据处理完成；
S9：重复所述S4至所述S8预定次数；
S10：对于剩余的层次，将前一层网络的输出值作为所述第一输入层的输入，所述第二输入层的输入不变，根据所述S3至S9进行训练；
S11：利用BP算法对所述捷径深度神经网络进行微调。

5.  根据权利要求4所述的基于捷径深度神经网络的视频分类方法，其特征在于，将所述v，a输入到所述捷径深度神经网络网络中，并通过如下公式计算所述多个隐藏层的节点激活概率值，所述公式为：
P(hi=1|v,a,Z)=σ(ci+vW·i+(a&CircleTimes;Z1·)W·i′),]]>
其中，σ表示logistic函数

6.  根据权利要求4所述的基于捷径深度神经网络的视频分类方法，其特征在于，所述根据隐藏层的节点的激活概率值对其进行抽样得到h⁽⁰⁾，并根据抽取出的样本利用如下公式计算重构输入层的概率值，所述公式为：
P(v_i＝1|h⁽⁰⁾，a，Z）＝σ(b_i+W_i·h⁽⁰⁾)，
P(a_i＝1|v，h⁽⁰⁾，Z)＝σ(Z_1iW′_i·h⁽⁰⁾+d_i)。

7.  根据权利要求4所述的基于捷径深度神经网络的视频分类方法，其特征在于，根据如下公式计算所述参数的梯度，所述公式为：
ΔWij=vihj(0)-vi(1)P(hj(1)=1|v(1),a(1),Z),]]>
ΔWij′=(ai&CircleTimes;Z1i)hj(0)-(ai(1)&CircleTimes;Z1i)P(hj(1)=1|v(1),a(1),Z),]]>
Δbi=vi-vi(1),]]>
Δci=hi(0)-P(hi(1)=1|v(1),a(1),Z),]]>
Δdi=ai-ai(1).]]>

8.  根据权利要求4所述的基于捷径深度神经网络的视频分类方法，其特征在于，所述每计算预定数量的梯度，通过如下公式对所述参数进行更新，直到所有训练数据处理完成，所述公式为：
θ′=&Element;θ+ηΣi100Δθi,]]>
其中，θ为更新前的参数，θ′为更新后的参数，Δθ_i为参数的第i个梯度，∈＝0.9为冲量，η＝0.1为学习率。

说明书

基于捷径深度神经网络的视频分类方法
技术领域
本发明涉及计算机多媒体技术领域，特别涉及一种基于捷径深度神经网络的视频分类方法。
背景技术
在近年多媒体技术飞速发展，以及国家文化大发展大繁荣的要求下，视频已经成为主流的内容传播途径。同时，随着视频制作技术的普及，越来越多的普通大众参与到视频的制作和上传工作上来，使得视频内容日渐多元化。
这一现象在使得以视频为基础的媒体及平台大发展的同时，也给视频内容的管理带来的更高的要求和挑战。如何给众多视频依据内容等特征进行正确的分类成为了一个非常突出的问题。显然，由平台和媒体来分类是不现实的，庞大的视频数量使得对视频逐一审查的代价过大；然而，让视频的上传者来进行分类也存在一定的问题，即其可能并不能准确把握视频平台对各类别的定义，这使得分类过程变得困难。
视频自动分类需要首先需要借助特征工程中方法将视频中的特征抽取出来，再将特征和对应的视频类别标签输入到合适的分类器中训练，最后将训练好的分类器用来给新的视频分类。视频的特征抽取方法主要有基于视频中文本的方法，基于音频的方法和基于视觉图像的方法，这些方法可以单独使用，也可以同时使用。对于每一个视频来说，其特征最终以一个向量的形式来表示，但不同视频其向量的维度可能不同，还需要使用主成分分析法(Principal Component Analysis，PCA)对其进行特征降维和对齐。
另外，在现今的各种视频网站或者媒体中，往往都存在对视频进行评论、评分等功能，这些属于视频之外但又与视频存在强烈对应关系的数据可以称之为异构数据。异构数据又往往能为视频分类提供大量的信息，例如在某视频基础上人为加工过的视频，单从视频本身的特征来分析，很有可能将其和原视频归为同一类别，然而事实上并不一定如此。因此应该将异构数据作为视频的重要特征予以考虑。以评论为例，可以使用潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)模型对其进行特征抽取。为了区分从视频中抽取的特征和从异构数据中抽取的特征，之后将用“视频特征”和“异构特征”这两个词来加以区别。
在获得特征的前提下，可以使用深度神经网络(Deep Neural Network，DNN)作为分类器，利用特征和其对应的类别标签进行训练，从而获得最终为视频分类的分类器。深度信赖网络(Deep Belief Network，DBN)是近年来提出的较为成功的DNN之一，广泛被应用在物体识别，语音识别，信号识别，自然语言处理等多个机器学习领域。在传统做法中，可以将异构特征看作是视频特征的简单扩充，即将表示视频特征的向量和表示异构特征的向量简单连结成一个更大的特征向量作为DBN的输入。利用DBN给视频分类的过程包括以下步骤：
(1)将视频转化为RGB值向量。
(2)使用PCA方法将RGB值向量转化为视频特征。
(3)使用LDA方法将视频对应的评论转化为异构特征。
(4)将视频特征、异构特征以及视频的类别标签输入DBN中进行训练。
(5)对于未分类的视频，同样经(1)(2)(3)步处理后得到表示其特征的向量，并将其输入到训练好的DBN中，最后输出视频的类别标签。
具体示例如图1所示，各种特征的构建相当于对数据的预处理，因此在图中省略。虽然使用DBN对视频进行分类的方法达到了一定的效果，然而这种做法会使得网络中存在大量冗余的计算过程，降低训练的效率，且导致分类精度下降。更具体地来说，深度神经网络中隐藏层可以看作是对原始数据(特征)的不同层次的抽象，越高层越抽象。同时异构数据，例如文本，本身也存在着对原始数据不同层次的抽象，其中不同只在于异构数据的抽象层次并不是显式的，而深度神经网络的层次相当于显式表示了数据的抽象程度。而传统的深度神经网络用于视频分类的方法将视频特征和异构特征看作具有相同抽象程度的数据，即将高抽象程度的数据当作低抽象程度的数据来进行处理，这种做法将会导致两个可能的结果：(1)低层神经网络对异构数据不做任何处理，直接将其当作高抽象程度数据传递到高层，这其实就是计算过程的冗余。(2)低层神经网络由于无法处理异构数据，因为其有更高抽象程度，而影响神经网络的分类效果。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为此，本发明的目的在于提出一种基于捷径深度神经网络的视频分类方法。该方法具有分类过程简单，分类精度高的优点。
为了实现上述目的，本发明的实施例公开了一种基于捷径深度神经网络的视频分类方法，所述捷径深度神经网络包括：第一输入层、第二输入层、开关节点层、多个隐藏层和一个输出层，所述第一输入层、所述多个隐藏层和所述输出层依次相连，所述第二输入层通过所述开关节点层与所述多个隐藏层相连，所述第一输入层、第二输入层、开关节点层、多个隐藏层和一个输出层分别设有预定的节点数，所述方法包括：训练分类器的步骤，包括：获取训练数据的类别标签，并从所述训练数据中提取视频特征和异构特征，并设定开关节点数值，以及将所述训练数据的类别标签、视频特征和异构特征输入所述捷径深度神经网络，以训练得到用于对视频进行分类的分类器，所述视频的类别由所述类别标签表示；视频分类的步骤，包括：获取测试数据，并从所述测试数据中提取视频特征和异构特征，并将所述测试数据的视频特征和异构特征输入所述分类器，以得到所述测试数据对应的类别标签；其中，所述视频特征由所述第一输入层输入，并依次通过所述多个隐藏层进行训练，所述异构特征由所述第二输入层输入，并根据所述开关节点数值通过相应的隐藏层进行训练。
另外，根据本发明上述实施例的基于捷径深度神经网络的视频分类方法还可以具有如下附加的技术特征：
在一些示例中，根据PCA方法提取所述视频特征，根据LDA方法提取所述异构特征。
在一些示例中，在得到所述分类器之后，还包括：利用BP算法对所述分类器进行优化。
在一些示例中，所述训练分类器的步骤，具体包括：
S1：获取所述视频特征和异构特征，其中，所述视频特征和所述异构特征为1000维的向量，所述视频特征和所述异构特征表示为：
S2：设定开关节点数值，其中，开关节点结构为矩阵Z∈{0,1}^3×1000，如果隐藏层i与异构特征a_j连结，则另Z_ij＝1，否则另Z_ij＝0；
S3：随机初始化第一输入层与第一隐藏层之间的权值矩阵第一输入层偏置向量隐藏层偏置向量第二输入层与第一隐藏层之间的权值矩第二输入层偏置向量
S4：将所述v,a输入到所述捷径深度神经网络网络中，并计算所述多个隐藏层的节点激活概率值；
S5：根据隐藏层的节点的激活概率值对其进行抽样得到h⁽⁰⁾，并根据抽取出的样本计算重构输入层的概率值；
S6：根据所述重构输入层的概率值对其进行抽样得到v⁽¹⁾,⁽¹⁾，并根据所述v⁽¹⁾,a⁽¹⁾重复S4和S5，得到h⁽¹⁾；
S7：计算参数的梯度；
S8：每计算预定数量的梯度，对所述参数进行更新，直到所有训练数据处理完成；
S9：重复所述S4至所述S8预定次数；
S10：对于剩余的层次，将前一层网络的输出值作为所述第一输入层的输入，所述第二输入层的输入不变，根据所述S3至S9进行训练；
S11：利用BP算法对所述捷径深度神经网络进行微调。
在一些示例中，将所述v,a输入到所述捷径深度神经网络网络中，并通过如下公式计算所述多个隐藏层的节点激活概率值，所述公式为：
P(hi=1|v,a,Z)=σ(ci+vW·i+(a&CircleTimes;Z1·)W·i′),]]>
其中，σ表示logistic函数
在一些示例中，所述根据隐藏层的节点的激活概率值对其进行抽样得到h⁽⁰⁾，并根据抽取出的样本利用如下公式计算重构输入层的概率值，所述公式为：
P(v_i＝1|h⁽⁰⁾,a,Z)＝σ(b_i+W_i·h⁽⁰⁾)，
P(a_i＝1|v,h⁽⁰⁾,Z)＝σ(Z_1iW′_i·h⁽⁰⁾+d_i)。
在一些示例中，根据如下公式计算所述参数的梯度，所述公式为：
ΔWij=vihj(0)-vi(1)P(hj(1)=1|v(1),a(1),Z),]]>
ΔWij′=(ai&CircleTimes;Z1i)hj(0)-(ai(1)&CircleTimes;Z1i)P(hj(1)=1|v(1),a(1),Z),]]>
Δbi=vi-vi(1),]]>
Δci=hi(0)-P(hi(1)=1|v(1),a(1),Z),]]>
Δdi=ai-ai(1).]]>
在一些示例中，所述每计算预定数量的梯度，通过如下公式对所述参数进行更新，直到所有训练数据处理完成，所述公式为：
θ′=&Element;θ+ηΣi100Δθi,]]>
其中，θ为更新前的参数，θ′为更新后的参数，Δθ_i为参数的第i个梯度，∈＝0.9为冲量，η＝0.1为学习率。
根据本发明实施例的基于捷径深度神经网络的视频分类方法，能够充分利用异构数据中本来存在的对原始数据的抽象信息，直接将异构数据参与到高层次的运算当中，能够提升方法的计算效率和分类精度。本方法采用开关节点对异构数据与隐藏层之间的关系进行控制，这使得异构数据与隐藏层之间的连结情况能够根据训练数据及应用的实际情况来做出调整。在设定好开关节点的值之后，SDBN的训练方法与传统DBN的训练方法相似，只需要根据开关节点值的情况，在将异构特征的影响加入到对应网络中去，而不会在网络中引入新的约束关系，也不需要额外的数学推导，这使得网络的训练变的非常方便。再次，捷径深度神经网络并不限定异构数据的类型，以及存在与否，在最坏的情况下，即不存在异构数据的情况下，捷径深度神经网络依然可以对视频进行分类。
本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，
图1为相关技术中通过深度信赖网络进行视频分类的方法的示意图；
图2为本发明实施例的捷径深度神经网络SDBN的结构图；
图3为本发明实施例的基于捷径深度神经网络的视频分类方法的流程图。
具体实施方式
下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。
在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
以下结合附图描述根据本发明实施例的基于捷径深度神经网络的视频分类方法。
本发明的实施例的捷径深度神经网络(Shortcut Deep Belief Network,SDBN)可以在异构数据和高层隐藏层之间“跨层次连接”，从而使得异构数据能够跳过部分低层神经网络，直接参与高层计算，进而降低冗余度。SDBN与DBN的不同在于跨层次连接的有无，且跨层次连接能够通过开关节点来进行控制。这样，能够有效地根据训练数据或者应用的实际情况通过改变开关节点的数值来改变跨层次连接的连结情况，使得异构数据可能因为环境的不同而导致其抽象程度不同的问题得到解决。例如，多音字或者多义词在不同的上下文中所表达的意思，或者抽象程度，可能不同，需要根据实际情况将不同的隐藏层与其连结。而开关节点的引入则可以很好地解决了这个问题。而在开关节点的值确定之后，网络的训练方法和传统方法相似，又使得训练过程变的简便。
如图3所示，根据本发明一个实施例的基于捷径深度神经网络的视频分类方法，捷径深度神经网络包括：第一输入层、第二输入层、开关节点层、多个隐藏层和一个输出层，第一输入层、多个隐藏层和输出层依次相连，第二输入层通过开关节点层与多个隐藏层相连，第一输入层、第二输入层、开关节点层、多个隐藏层和一个输出层分别设有预定的节点数，该方法包括：
S101：训练分类器的步骤，包括：获取训练数据的类别标签，并从所述训练数据中提取视频特征和异构特征，并设定开关节点数值，以及将所述训练数据的类别标签、视频特征和异构特征输入所述捷径深度神经网络，以训练得到用于对视频进行分类的分类器，所述视频的类别由所述类别标签表示；
S102：视频分类的步骤，包括：获取测试数据，并从所述测试数据中提取视频特征和异构特征，并将所述测试数据的视频特征和异构特征输入所述分类器，以得到所述测试数据对应的类别标签；
其中，所述视频特征由所述第一输入层输入，并依次通过所述多个隐藏层进行训练，所述异构特征由所述第二输入层输入，并根据所述开关节点数值通过相应的隐藏层进行训练。
如图2所示，在本发明的一个实施例中，采用6层节点4层网络及1层开关节点的结构，即2层输入层(节点数均为1000，分别用于输出视频特征和异构特征)，3层隐藏层(节点数由低层到高层为500，500，2000)，1层输出层(节点数为10，代表一共有10个类别)，1层开关节点层(节点数1000)，其中最高层为Softmax，是一种常用的多分类回归模型，其余层均为受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)。
则本发明实施例的方法的具体步骤包括：
(1)将视频转化为RGB值向量。
(2)使用PCA方法将RGB值向量转化为视频特征。即根据PCA方法提取所述视频特征。
(3)使用LDA方法将视频对应的评论转化为异构特征。即根据LDA方法提取所述异构特征。
(4)设定开关节点数值。
(5)将视频特征、异构特征以及视频的类别标签输入SDBN中进行训练。
(6)对于未分类的视频，同样经(1)(2)(3)步处理后得到表示其特征的向量，并将其输入到训练好的SDBN中，最后输出视频的类别标签。
其中步骤(5)，SDBN的训练方法又包括以下步骤：
(1)初始化参数。
(2)非监督逐层训练网络。
(3)使用反向传播(Back Propagation,BP)算法全局训练网络。即利用BP算法对所述分类器进行优化。
利用SDBN为视频分类的方法具体包括以下步骤：
(1)每个视频经预处理后的视频特征和异构特征作为1000维的向量
(2)设定开关节点的数值。开关节点结构为矩阵Z∈{0,1}^3×1000，如果隐藏层i与异构特征a_j连结，则Z_ij＝1，其余情况Z_ij＝0。
(3)随机初始化输入层与隐藏层1间权值矩阵输入层1偏置向量隐藏层偏置向量输入层2与隐藏层1之间的权值矩输入层2偏置向量
(4)将v,a输入到SDBN网络中，根据公式1计算出各隐藏层节点激活概率值。
P(hi=1|v,a,Z)=σ(ci+vW·i+(a&CircleTimes;Z1·)W·i′)]]>公式(1)
其中σ代表logistic函数
(5)根据隐藏层节点的激活概率值对其进行抽样得到h⁽⁰⁾，并用抽取出的样本根据公式(2)(3)计算出重构输入层的概率值。
P(v_i＝1|h⁽⁰⁾,a,Z)＝σ(b_i+W_i·h⁽⁰⁾)公式(2)
P(a_i＝1|v,h⁽⁰⁾,Z)＝σ(Z_1iW′_i·h⁽⁰⁾+d_i)公式(3)
(6)根据重构输入层的概率值对其进行抽样得到v⁽¹⁾,a⁽¹⁾，再用v⁽¹⁾,a⁽¹⁾重复(4)(5)得到h⁽¹⁾。
(7)根据以下公式计算各参数的梯度。
ΔWij=vihj(0)-vi(1)P(hj(1)=1|v(1),a(1),Z),]]>
ΔWij′=(ai&CircleTimes;Z1i)hj(0)-(ai(1)&CircleTimes;Z1i)P(hj(1)=1|v(1),a(1),Z),]]>
Δbi=vi-vi(1),]]>
Δci=hi(0)-P(hi(1)=1|v(1),a(1),Z),]]>
Δdi=ai-ai(1).]]>
(8)之后每计算100个(预设数量)梯度再利用公式(4)更新一次网络参数，直到所有视频都处理完成。
θ′=&Element;θ+ηΣi100Δθi]]>公式(4)
其中θ为更新前的参数，θ′为更新后的参数，Δθ_i为参数的第i个梯度，∈＝0.9为冲量，η＝0.1为学习率。
(9)重复(4)～(8)步骤50遍(预定次数)。
(10)对于其他层次(除最高层以外)的网络，将前一层网络的输出值看作输入层1的输入，输出层2的输入不变，训练方法同(3)～(9)步骤。
(11)利用BP算法对SDBN进行微调。至此网络训练完成。
(12)测试过程则将预处理好的特征输入到训练好的SDBN中，最后输出为一个10维向量，其中值最大的维度的序号对应其类别标签。
根据本发明实施例的基于捷径深度神经网络的视频分类方法，能够充分利用异构数据中本来存在的对原始数据的抽象信息，直接将异构数据参与到高层次的运算当中，能够提升方法的计算效率和分类精度。本方法采用开关节点对异构数据与隐藏层之间的关系进行控制，这使得异构数据与隐藏层之间的连结情况能够根据训练数据及应用的实际情况来做出调整。在设定好开关节点的值之后，SDBN的训练方法与传统DBN的训练方法相似，只需要根据开关节点值的情况，在将异构特征的影响加入到对应网络中去，而不会在网络中引入新的约束关系，也不需要额外的数学推导，这使得网络的训练变的非常方便。再次，捷径深度神经网络并不限定异构数据的类型，以及存在与否，在最坏的情况下，即不存在异构数据的情况下，捷径深度神经网络依然可以对视频进行分类。
尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。