728x90
기울기 소실 문제와 ReLU 함수
참고기울기 소실 문제(Vanishing Gradient problem)는 역전파(Backpropagation) 알고리즘에서 처음 입력층(input layer)으로 진행할수록 기울기가 점차적으로 작아지다가 나중에는 거의 기울기의 변화가 없어지
velog.io
기울기 소실 문제와 ReLU함
https://ambitious-posong.tistory.com/132
[논문리뷰] Transformer + GAN에 관한 논문 리뷰
논문 두개 대충 봐야지 Transformer-based GAN 논문이 있고, Transformer Generator + CNN Discriminator 논문이 있다. 후자가 더 나중에 나왔다. 1. "TransGAN: Two Transformers Can Make One Strong GAN" [요약] transformer만 활용한
ambitious-posong.tistory.com
Transformer + GAN
Optimizer
미니배치 경사하강법의 방식을 보완하고, 학습 속도를 높이기위한 알고리즘
- SGD(확률적 경사 하강법)
- 랜덤하게 추출한 일부 데이터를 사용해 더 빨리, 자주 업데이트를 하게 하는 것
- 효과: 속도 개선
- Momentum
- 기존 업데이트에 사용했던 경사의 일정 비율을 남겨서 현재의 경사와 더하여 업데이트함
- 효과: 정확도 개선
- Adagrad
- 각 파라미터의 update 정도의 따라 학습률의 크기를 다르게 해줌
- 효과: 보폭 크기 개선
- RMSProp
- Adagradd의 경우 update가 지속됨에 따라 학습률이 점점 0에 가까워지는 문제가 발생
- 이전 update 맥락을 보면서 학습률 조정하여 최신 기울기를 더 크게 반영
- 효과: 보폭 크기 개선
- Adam
- Momentum 과 RMSProp 장점을 함께 사용
- 가장 많이 사용하는 Optimizer
- 효과: 정확도와 보폭 크기 개선
728x90