MAE: masked autoencoders are scalable vision learners

总结

相当于BERT的CV版本，题目中的autoencoder相当于是自编码器的意思，代表训练数据和目标来自于这个训练数据本身
设计训练任务的时候遮住的区域要足够的大，这样才能去学一些语义上的东西（否则做一下差值就算出来了），这样做同时也会减轻计算量
用小训练数据可以取得比较好的自监督学习成果，也和BERT一样在很多下游任务上也有很好的效果
作者对自监督掩码在CV和NLP领域不同的应用进展做了如下讨论
- 以往的卷积操作不好应用mask
- 图片里的像素信息比较冗余
- 还原的目标图像相比较于文本内容语义更加的基础