基于卷积神经网络的视频人体行为识别方法

荆于勤

摘要

视频的人体行为识别是计算机视觉领域的研究热点，本文从时间流和空间流出发，设计卷积模型对视频数据进行处理，最后通过融合的结果进行行为识别分类，达到了较好的效果。

关键词

卷积网络;时间流;空间流

中图分类号： G633.6 文献标识码： A

DOI：10.19694/j.cnki.issn2095-2457.2020.04.82

0 前言

随着技术的发展，各种具有拍摄功能的智能设备越来越平价的应用在生活中，例如智能手机、视频监控等，随着智慧城市的建设，视频监控已经部署在了生活的各个公共区域，例如街道、店面、车站等，在医院、学校、景区等公共场所，也被监控探头覆盖，视频监控对公共安全起到了重要的作用。监控设备每天都有大量新的数据资源产生。海量的视频数据为信息挖掘提供了基础，但是也提出了更大的挑战，如果以人工的方式对海量视频进行分析和标注，工作量巨大，不仅会消耗大量的精力和财力，而且必定会有延迟，不能保证及时性和效率，不能实现24小时的实时监控。视频行为识别是计算机视觉的一个重要研究领域，是指从视频中自动识别出动作和行为，有着非常广泛的应用价值，例如应用在智能家居、智能医疗方面可以自动识别出人的摔倒等危险行为，及时发出警报保障人身安全。例如在安防监控等方面，识别出斗殴等危害大众安全的行为，及时避免大的安全事件的发生，因此，基于视频的人体行为识别的研究，具有重要的意义[1]。

行为识别的传统方式是图像特征由人工设计的，例如视频特征匹配法，将视频帧的底层特征提取出来与特征模板进行比较，时间顺序模型分析法如隐马尔可夫模型，把动作分解成相应的时间序列模型[2-3]。传统的方式特征提取泛化性不佳，实现起来复杂。近年来，深度学习在计算机视觉领域取得了丰硕的研究成果，采用深度学习处理图像和视频数据是研究的热点。例如卷积神经网络（Convolutional Neural Network，CNN）不需要手动进行特征提取，可以从训练样本中获取到底层特征信息，再通过多层卷积获取高层特征信息，应用到对图像、视频等数据的处理中，该方式属于无监督学习[4-5]。

1 卷积神经网络

1980年，Rumelhart、Williams、Hinton、LeCun 提出多层感知机网络模型，也就是神经网络，在1998年，LeCun提出了LeNet5也就是卷积神经网络模型，卷积神经网络已经有了“深度”，包含输入、卷积、池化、全连接、输出五个部分，每一层有着不同功能。图1是一种作用于图像分类中的卷积神经网络模型。

以图像或视频单帧作为输入，通过多层的卷积和池化操作，最后到达全连接层，从底层特征提取出高层特征。

每个卷积层通过卷积核对图像像素矩阵进行滑动扫描，整个过程的实质是一个矩阵的计算，针对不同的特征提取，选择不同的卷积核，通过卷积降低了网络模型的复杂度。

池化也称pooling，一般有两种池化方法，即均值和最大值。通过这一步骤，一方面特征图减小了，减少了参数的数量，计算复杂度减低，另一方面可以提取出主要特征，弱化不相干的特征。

在卷积的操作过程中，激活函数和损失函数对模型的训练和效果有很大的影响。激活函数将卷积的输出调整到一定的范围中，而损失函数用于衡量预测结果的优劣，对调整模型意义重大。

2 行为识别模型设计

视频数据由帧组成，并且包含时序信息，所以视频人体行为识别和图像的识别是有区别的，因此行为识别需要提取出时间信息和空间信息。视频人体行为识别模型结构如图2所示。

时间流卷积的输入为视频的连续多个帧，得到光流信息，从而表示了人的行為运动特征，空间流卷积的输入为视频的单帧，从中提取出场景等特征，在进行一系列卷积池化后，各自通过分类函数得到一个结果，最后将两个结果进行融合，得到最终的行为识别结果。

3 实验结果及分析

3.1 实验数据集

将融合的时间流和空间流模型进行视频人体行为识别，在HMDB51数据集上进行实验，HMDB51数据集拥有六千多视频资源，行为类别共计51个，每类视频分为训练数据和测试数据，训练数据用于前期对模型的训练，测试数据用于测试模型。

3.2 实验结果

实验在linux系统中完成，实验中对数据进行了数据增强等预处理，从每个训练视频中取出片段，进行稀释采样。模型经过多次训练以及调整优化，在实验中得到了79%的准确率。实验发现，视频集中的某些行为容易混淆，后续将在其他数据集中进行实验。

4 结束语

本文采用基于时间流和空间流的卷积方式对视频进行处理，识别人体行为，得到了较好的效果，不足之处在于前期训练时间较长，模型的识别准确率还可以进一步提高。

参考文献

[1]邵延华.基于计算机视觉的人体行为识别研究[D].重庆：重庆大学.2015.

[2]宋立飞.多尺度输入3D卷积融合双流模型的行为识别方法[J].计算机辅助设计与图形学学报，2018.11：2074-2083.

[3] 丰艳.基于时空注意力深度网络的视角无关性骨架行为识别[J].计算机辅助设计与图形学学报2018.12：2271-2277.

[4] 朱红蕾，朱昶胜，徐志刚.人体行为识别数据集研究进展[J].自动化学报.2018.44（06）：20-46.

[5]单言虎.张彰，黄凯奇.人的视觉行为识别研究回顾、现状及展望[J]. 计算机研究与发展，2016，53（1）：93-112.

基于卷积神经网络的视频人体行为识别方法

科技视界相关栏目本月热门文章