0%

ImageNet Classification with Deep Convolutional Neural Networks

结论

  • 这个文章花了很多的篇幅&作者花了很多的精力去做把网络切开放在两块卡上这个事情,现在看来反而不是那么重要。近些年BERT等大模型越出越多,要回到切模型的方式上来
  • 深度很重要,去掉之后有掉点2%(但其实这个结论并不是很置信)
  • 有标注数据很重要,这使得以后很长一段时间的深度学习都比较关注有监督学习。一直到BERT的出现才把研究的视角拉回到无监督学习上面来
  • 已经开始用神经网络里面的向量来搜索图片了。神经网络里面的向量在语义空间里面的表现很好

3f2d579a485844bb6c1ffae257a04db9.png

介绍

  • 因为受限于显存大小,是把网络切开来放到里面,有很多工程上的工作,这个对于最终的结果不太重要
  • 不抽低阶特征(SIFT之类的),直接在原始的pixel上面做,是一个end to end模型

结构

  • ReLu很重要,训练速度快

697e8ef51abce1dd34627cbfaf15343b.png

  • LRN(Local Response Normalization),后面基本上被抛弃了
  • overlap pooling

总体结构,5层卷积 + 3层全连接

82db1546340f96d6dae9cf1d9b6e3e7a.png

降低过拟合

  • 数据增强
    • 256 256的图片随机去抠出来224 224的图
    • 颜色变换(PCA
  • 引入Dropout
    • 这个东西可以从ensemble的角度去理解
    • 但是作者过了几年又觉得这个不是在做ensemble就是等价于一个L2正则项
    • 现在普遍网络不会使用这么大的FC层,也就导致dropout在CV这块没有那么重要

训练细节

  • SGD作为优化器,动量更新
  • FC层用1做初始化,这个后面基本上没人用
  • LR在训练不动的时候手动向下调整0.1倍,现在主流做法是学习率从一个比较小的值开始上升然后cosin形式下降下来