'Optimization / Training' Outline

outline

#1

Network Optimization 기법이나 Training Strategy에 관한 내용을 다룹니다.

Training Strategy

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

  • #google #icml #icml2015
  • Internal covariate shift를 줄이자.
  • 빠른 Convergence, 더 적은 Overfitting, 안정적인 Training

YellowFin and the Art of Momentum Tuning

Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models

  • 2017
  • #google #nips #nips2017
  • Batch Norm을 약간 개선해, 작은 미니배치나 서로 연관된 미니배치 상황에서도 더 잘되는 것을 보임
  • inference 때 사용할 통계 정보를 training 시점에서도 사용하는 의미가 있음

Multi GPU / Multi Node Training

Revisiting Distributed Synchronous SGD

Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

Asynchronous Stochastic Gradient Descent with Delay Compensation

  • 2017.6

Knowledge Dilstilation

Distilling the Knowledge in a Neural Network


AutoML

Neural Architecture Search with Reinforcement Learning

  • #2016 #iclr2017
  • Network을 구성하는 하이퍼파라미터를 출력하는 RNN을 Reinforcement Learning으로 학습시켜서, 사람이 만든 좋은 네트워크 수준의 결과를 얻은 논문

Neural Optimizer Search with Reinforcement Learning

Learning Transferable Architectures for Scalable Image Recognition

  • #2017 #cvpr #cvpr2018
  • NAS의 Search Space를 재디자인해서, CNN 문제에서 의미있는 결과를 낸 논문
  • 네트워크 전체를 찾는 RNN(Controller)가 아니라, Convolutional Cell을 찾는 것을 목표로 재디자인

Accelerating Neural Architecture Search using Performance Prediction

Peephole: Predicting Network Performance Before Training

Large-Scale Evolution of Image Classifiers

Efficient Neural Architecture Search via Parameter Sharing

  • #2018
  • NAS에서 가장 시간이 걸렸던 부분은 생성된 각 네트워크를 처음부터 트레이닝해서 결과를 봐야한다는 점
  • 동일한 연산에 대해 Weight 공유를 통해 학습 시간 단축