结论
- 这个文章花了很多的篇幅&作者花了很多的精力去做把网络切开放在两块卡上这个事情,现在看来反而不是那么重要。近些年BERT等大模型越出越多,要回到切模型的方式上来
- 深度很重要,去掉之后有掉点2%(但其实这个结论并不是很置信)
- 有标注数据很重要,这使得以后很长一段时间的深度学习都比较关注有监督学习。一直到BERT的出现才把研究的视角拉回到无监督学习上面来
- 已经开始用神经网络里面的向量来搜索图片了。神经网络里面的向量在语义空间里面的表现很好
介绍
- 因为受限于显存大小,是把网络切开来放到里面,有很多工程上的工作,这个对于最终的结果不太重要
- 不抽低阶特征(SIFT之类的),直接在原始的pixel上面做,是一个end to end模型