얼레벌레
[논문리뷰] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 본문
[논문리뷰] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
낭낭이 2021. 9. 30. 19:05Abstract
1. Introduction
2.Related work
2.1 ConvNet Accuracy
2.2 ConvNet Efficiency
neural architecture search가 efficient mobile-size ConvNet을 만들었는데 이를 더 큰 model에 구현이 가능한가라는 의문이 들음
따라서, 이 state-of-the-art accuracy보다 나은 super large ConvNet을 위해 model scaling을 이용한 model efficiency를 다루고자 함
2.3 Model Scaling
여러개의 scale 방법이 존재함 ⇨ depth(#layers. ex- ResNet), width(#channels. ex-WideResNet, MobileNets)
better efficiency와 accuracy를 얻기 위해 ConvNet을 효과적으로 scaling하는 법? - 모든 3개 차원을 조절하는 것(depth, width, resolution)
3. Compound Model Scaling
3.1 Problem Formulation
ConvNet layer이 여러 stage로 나뉘는데, 각 state의 layers는 동일한 architecture을 공유한다.
3.2 Scaling Dimensions
- Depth(d)
deeper ConvNet은 더 복잡한 feature들을 포착할 수 있고 새로운 것에 일반화하기 쉬움.
하지만 vanishing gradient때문에 훈련시키는 데 어려움이 있고, depth가 너무 깊을 경우 다시 accuracy가 감소함
- Width(w)
- Resolution(r)
higher resolution imput image로 ConvNets는 잠재적으로 더 많은 fine-grained 패턴을 포착할 수 있고 accuracy 향상도 가능하다.
하지만 마찬가지로 accuracy가 80%정도가 되면 더이상 FLOPS의 증가에 비해 accuracy gain이 이뤄지지 않는다.
depth나 width보단 resolution이 saturate가 비교적 늦게 이뤄짐
3.3 Compound Scaling
Scaling dimension은 서로 독립적이지 않음
⇨ conventional single-dimension scaling이 아닌 서로 다른 scaling dimensions를 모두 balance시킨다는 것이 compound model scaling
더 좋은 accuracy와 efficiency를 추구하려면 ConvNet scaling동안 모든 network width, depth, resolution을 balance하는 것이 중요함
compound coefficient compound scaling method
4. EfficientNet Architecture
model scaling은 baseline network의 layer op를 바꾸지 않아서 좋은 baseline network를 갖는 것은 critical함
'AI > DL' 카테고리의 다른 글
논문리뷰) Deep Residual Learning for Image Recognition (0) | 2023.08.03 |
---|---|
논문리뷰) Batch Normalization (0) | 2023.07.27 |
논문리뷰) Neural Networks for Machine Learning (0) | 2023.07.19 |
cs231n lecture 11 Detection and Segmentation (0) | 2021.08.20 |
cs231n lecture 10 Recurrent Neural Networks (0) | 2021.08.20 |