图像识别（六）：深度置信网络

传统的图像识别技术是以浅层次结构模型为主，需要对图像进行预处理。大量的实践验证，浅层次的结构模型在处理图像、视频等高维数据方面表现并不好，科研工作者展开了更深层次的网络结构模型的研究，用模型自己提取图像特征，避免人为的干预。深度学习的目的是通过构建一个多层的神经网络，在这个网络上，计算机自主学习并得到数据隐含的内部关系，从而提取到更高维、更抽象的数据，使得学习到的特征更能有效地表达图像的内容信息。
深度置信网络(Deep Belief Networks，DBN)算法是机器学习中神经网络的一种，是一个概率生成模型，由多层受限玻尔兹曼机(RBM)和一层某种分类器组合而成，经典的 DBN网络结构是由若干层受限玻尔兹曼(Restricted Boltzmann Machines, RBM)和一层有监督的反向传播(back-propagation,BP)网络组成的一种深层神经网络，被广泛应用于图像分类识别，语音识别等领域。
DBN的训练主要包括预训练和微调两个步骤。预训练的过程是逐层进行的，在每一层中，用数据向量来推断隐层，再把这一隐层当作下一层(高一层)的数据向量。即将若干个RBM“串联”起来则构成了一个DBN，其中，上一个RBM的隐层即为下一个RBM的显层，上一个RBM的输出即为下一个RBM的输入。微调阶段是采用有监督学习对最后一层BP网络进行训练，将实际输出与预期输出的误差逐层向后传播，对整个DBN网络的权值进行微调。其结构示意图如下：

一、受限玻尔兹曼机
受限玻尔兹曼机由一个可见层(v)与一个隐含层(h)组成，是一种典型的基于能量的模型。假设可见层与隐含层均为二值变量，可见层与隐含层的神经元数目分别为I和J，和分别表示第i个可见层神经元与第j个隐含层神经元的状态。对于一组特定的()，RBM系统所具备的能量为：

其中，是RBM的参数，表示可见层节点与隐含层节点之间的连接权值，分别表示的偏置值。基于该能量函数，可得到()的联合概率分布为：

其中，为归一化项。RBM的各个隐含层节点的激活状态之间是相互独立的，第j个隐含层节点的激活概率为：

类似的，给定隐含层节点的状态，可得到第i个可见层节点的激活概率为：

RBM采用迭代的方式进行训练，训练的目标在于学习出参数的值，以拟合给定的训练数据。假设样本数目为T，参数的值可以通过求在训练集上的最大似然函数得到：

再通过对比散度算法，根据训练数据集的分布之上的数学期望和重构后模型所定义的分布上的期望更新各参数。
二、BP网络
BP网络是一种有监督的分类器，对RBM通过预训练得到的特征向量判别分类，BP网络的训练有两个主要过程：一是前向传播，输入特征向量被逐层传播到输出层，得到输出的类别，并将实际的分类结果和期望的类别的误差再逐层向后回传从而微调DBN的参数。二是后向传播，计算每层的灵敏度数值，灵敏度被自顶往下逐层传递以修正网络的权值参数。
喜欢本文的话，欢迎关注活在信息时代哦：）