0%

总结

  • 提出了一个代号为Inception的神经网络结构,开头点出此结构的最大作用是提升计算资源的利用率
  • 是NIN的deep版本
  • 参考Serre et al. 15 用多个size的filter来抽取信息;有两个不同点
    • 所有网络中的filter都是学习得来
    • 重复使用Inception结构组成一个更深的网络
  • 又参考了Lin et al. 12使用1 * 1的卷积核来提升模型的表达能力;并且可以减少维度,使在同等的计算资源下网络可以更深更宽,从而提升效果
  • ILSVRC 2014 数据集
    • 1 model; 1 crops; top5 error: 10.07%
    • ensemble(7 models, 144 crops); top5 error: 6.67%

Inception 诞生的心路历程

  • 现如今提升网络效果主要靠提升网络的宽度和深度;这么做有两个问题:
    • 容易过拟合
    • 计算资源需求快速增长
  • 因为权重矩阵中有很多的0,因此人们提出从全连接结构改成稀疏链接结构的方式
  • 后来证明不行,因为稀疏结构的查找开销太大盖过了计算开销的节省,还不如不用
  • 后来提出了用网络结构解决此问题的方式——Inception

Inception结构详解

Read more »

总结

  • CNN中的卷积层的filter个数可以增加网络的表达能力
  • 但是过多的数量会让计算开销增加的太大
  • 传统方法用maxout函数来达到增加表达能力又不增加太多计算开销的目的
  • 当没有对于隐藏层分布先验信息的情况来说,用一个能拟合所有函数的结构要更适合一些(maxout只能拟合所有凸函数)
  • 比较常见的能拟合所有函数的结构有两个
    • radial basis network
    • multilayer perceptron
  • 本文选择了multilayer perceptron 有如下两个原因
    • multilayer perceptron可以使用反向传播训练与CNN结合的比较好
    • 可以扩展,自己当做一个深层网络
  • 新的结构就叫做mlpconv,其实就是后面接了两层1X1卷积
  • 此外还提出了一种新的结构全局平均池(Global Average Pooling)代替传统最后一层的FC层
    • 先为每个分类结果项生成一个feature map(最后一层卷积的filter数量等于类别数量即可)
    • 然后对每个feature map取平均得到一个向量
    • 直接用改向量做softmax
  • 这么做的好处有两个
    • 让最终feature map的结果更加直观
    • 这种结构没有参数,避免过拟合
  • CIFAR-100实验结果
    • top1 35.68%

Abstract

We propose a novel deep network structure called “Network In Network”(NIN) to enhance model discriminability.
We build micro neural networks with more complex structures to abstract the data within the receptive field.

Introduction

Read more »

GBDT = Gradient Boosting + Decision Tree
another names:

  • MART(Multiple Additive Regression Tree)
  • GBRT(Gradient Boosting Regression Tree)
  • Tree Net

Ensemble learning

why ensemble?

  • statistics
    Alt text
  • calculation
    Alt text
  • representation
    Alt text
Read more »

  • Factorization Machine are a new model class that combines the advantages of Support Vector Machines
  • able to estimate interactions even in problems with huge sparsity
  • dual form is not necessary, estimate model parameters directly

INTRODUCTION

the advantages of FM:

  • FMs allow parameter estimation under very sparse data where SVMs fail
  • FMs have linear complexity, can be optimized in the primal and do not rely on support vectors like SVMs
  • FMs are a general predictor that can work with any real valued feature vector. In contrast to this, other state-of-art factorization models work only on very restricted input data

PREDICTION UNDER SPARSITY

Read more »

介绍

单变量的线性回归

线性回归损失函数

梯度下降

求使得损失函数最小的参数$w, b$
梯度下降需要同时更新所有参数

Read more »

概述

  • Recurrent Neural Networks
  • 用来处理序列数据
  • 当前状态的输出与前面状态的输出也有关
    Alt text
  • 目前在NLP上表现不错,目前的应用
    • 文本生成
    • 机器翻译
    • 语音识别
  • 使用最广泛的模型是LSTM——Long Short-Term Memory 长短时期记忆模型

模型举例

Simple RNNs(SRNs循环网络)

三层神经网络,并在隐藏层加了上下文单元
上下文单元与隐藏层之间的链接是固定的,并且权重也是固定的
前向反馈传播
上下文节点保存上文,即隐藏层接收输入层的输出和上一时刻自己的状态

Read more »

自回归模型(AR)

概述

  • 自回归模型一种时间序列预测模型,是若干随机数的集合。描述的是当前值与历史值得关系,是一种随机过程
  • 对于指定值的预测是对于以往值的线性预测加上随机扰动项,所以这个模型的形式是一个随机差分方程
  • 是ARMA(Autoregressive–moving-average model)和VAR(Vector Autoregressive model)一种特殊形式
  • p阶自回归模型记作AR(p)
Read more »

  • 租的房子马上到期,最近有点大学临近毕业时的感觉
  • 晚上喝了点酒,聊了会游戏,从传奇聊到征途,再到魔兽世界
  • 依稀记得刚开始进入魔兽世界的时候,我坐在自己小卧室的拐角处,控制一个战士在艾尔文森林辛苦的杀狼。一个开网吧的叔叔来我家做客,来我屋子里随便聊聊。看我玩的这个游戏就问名字,答魔兽世界,问多少级了,答2级。然后便许诺给我一个高等级账号。“在我那上网的,我随便找个人要一下他们就得给”。
  • 说实话但是我还是信了,而且在很长一段时间里都对即将到来的账号有着一些期待。只怪我当时太年轻,13岁左右。
  • 这算不算失信于人,信口开河?是不是我们应该所唾弃所不齿的行为?应该也不算。因为一个背离社会主流价值观的人是当不了老板的。或许他只是能够分清什么时候该绷着那根弦什么时候不用。
  • 但这也不是我想要的状态。对于自己完全没把握的事情能做到张嘴就来,脸不红心不跳的做出许诺,好像是什么很多老板的必备技能。
  • 下午在公司碰巧听说了一个前同事的事迹——在面试过程中,敢于和面试官拍桌子,以面试题目不靠谱为由回避掉自己不会的题目。用这种独特的技巧实现了两次工资double。那么这么说起来这还真是个逆天的技能。就算是靠骗,但是目的达到了,话说回来,我们去掌握哪些货真价实的知识的目的又是什么呢?不就是这个么?
  • 意识到自己这方面技能的匮乏,甚至连简单的表达完整自己的观点都做不到。当别人在饭桌上滔滔不绝的讲起股市、篮球、理财、工作,我总是没有能够支撑话题走下去的谈资。我之前还以为是对这方面了解的不够多,但当别人谈论起DotA,我依旧能够讲述的东西寥寥的时候,才意识到问题的所在。善述者,就算一窍不通的东西也能滔滔不绝,我耳边不乏股市一定涨,骷髅王后期无敌之类的论断。会不会是次要的,能讲出来就是一种本事。
  • 是时候学习一下如何正确的吹牛逼了。

为啥要写

近期进步微乎其微,尤其是最近一年。

反省了一下,自己时间上浪费特别严重。拖延症患者,懒癌晚期。

感觉需要做点什么了。

写博客这事情我都忘了从什么时候开始计划的了,这个想法从一开始有到现在至少一年。

Read more »