0%

ImageNet Classification with Deep Convolutional Neural Networks

Posted on 2023-06-15 Edited on 2023-07-24 In machine_learning

结论

这个文章花了很多的篇幅&作者花了很多的精力去做把网络切开放在两块卡上这个事情，现在看来反而不是那么重要。近些年BERT等大模型越出越多，要回到切模型的方式上来
深度很重要，去掉之后有掉点2%（但其实这个结论并不是很置信）
有标注数据很重要，这使得以后很长一段时间的深度学习都比较关注有监督学习。一直到BERT的出现才把研究的视角拉回到无监督学习上面来
已经开始用神经网络里面的向量来搜索图片了。神经网络里面的向量在语义空间里面的表现很好

介绍

因为受限于显存大小，是把网络切开来放到里面，有很多工程上的工作，这个对于最终的结果不太重要
不抽低阶特征（SIFT之类的），直接在原始的pixel上面做，是一个end to end模型

结构

ReLu很重要，训练速度快

LRN(Local Response Normalization)，后面基本上被抛弃了
overlap pooling

总体结构，5层卷积 + 3层全连接

降低过拟合

数据增强
- 256 256的图片随机去抠出来224 224的图
- 颜色变换(PCA
引入Dropout
- 这个东西可以从ensemble的角度去理解
- 但是作者过了几年又觉得这个不是在做ensemble就是等价于一个L2正则项
- 现在普遍网络不会使用这么大的FC层，也就导致dropout在CV这块没有那么重要

训练细节

SGD作为优化器，动量更新
FC层用1做初始化，这个后面基本上没人用
LR在训练不动的时候手动向下调整0.1倍，现在主流做法是学习率从一个比较小的值开始上升然后cosin形式下降下来