0%

Two-Stream Convolutional Networks

总结

  • 双流是第一次在视频领域应用深度学习方法取得了不错结果的工作
  • 使用两个神经网络去做动作识别——空间流、时间流

b3dcad3a1d9562be4fe0e1dca4a3f6fa.png

  • 作者认为CNN比较擅长学习局部特征,所以把全局的信息处理为先验信息(动作光流)给到神经网络一同去做判定
  • 最终的判定结果是两个网络判定结果的加权平均
  • 作者还提出了一种观点,视频天然适合数据增强
  • 一个比较有启发的想法:当你发现有些东西神经网络不太好学的时候,我们就给他提供成为先验信息帮助他学

模型

  • 空间流基本就是Alexnet。单帧的空间信息已经非常有竞争力,因为有些动作是和物体强绑定的。
  • 时间流是光流
    • 光流的大小和图像的大小是一致的,在文本数据集上是240 320 2,最后的维度2是代表水平和竖直两个维度的数值
    • L帧图像得到L - 1帧光流图像
    • 作者认为直接拿光流图像去做分类意义不大,可能是因为时间跨度太小,时间流的输入是多个光流图像的叠加

0eb2875288b9f12dd0e44b182643d7b9.png

  • 叠加的方式这里主要讨论两种,一种是直接把图像叠在一起,另外一种是按照轨迹叠加光流信息
    • 实验是第一种方法效果更好一些,虽然看起来第二种更合理
    • 堆叠是先都是水平维度,后都是竖直维度

0cbaa4030842249b5b3e9cd523deb4d6.png

  • 尝试了双向光流,前半段是正向的后半段是反向的,微小涨点
  • 时间流和空间流的网络机构基本一致,除了第一层CNN的输入是20(10张光流图,每个图是2维)
  • 在预测的时候用的是25帧,每帧都用了ten crop的数据增强,即250 views。对比结果的时候关注这个参数
  • 本文用的光流处理方法平均算一张光流图要0.06s,对于大规模数据集来说还是比较贵的,这也是光流算法的主要问题
  • 光流图片同样应用jpeg算法压缩,节约硬盘空间,大概用原来1/50的地方

实验

2e7836b0cabd17e655773ec2213be81c.png

5fda571bea8bc454588bfdbca35e5427.png

  • 时间流效果很好,比预训练的空间流效果还高
  • 虽然没有在所有数据集上取得第一,但是已经证明了有效性,吸引大量后续工作跟进,可以称得上是开山之作