- sigmoid 함수: 절대 사용하지 말것 (Do not use this function at all)
- 값이 매우 크거나 작을 경우 함수 값이 saturation 되기 쉬움. ( If input is too small or large, activation value is easy to be saturated)
- 함수값이 zero-centered 가 아님. 입력값이 항상 양일때 w에 대한 함수 미분값이 항상 양이거나 음이 됨. ( Function is not zero-centered. If input is all positive, then the gradient on weight is either all positive or all negative.)
- exp() 을 계산하는데 비용이 많이 듦. (Computing exponent function is computationally expensive.)
- tanh 함수: 역시 절대 사용하지 말것 (Do no use this function at all)
- 위에 첫번째 문제 남아 있음. (It still has 1.problem above.)
- ReLU 함수 max(0,x): 권장 (Ok. It’s good to use this function in practice)
- 함수값이 saturation 문제 없음. (No saturation problem at all.)
- 계산이 빠름. (Computationally efficient)
- sigmoid/tanh 보다 6배 수렴속도가 빠름. (it is six times faster than sigmoid/tanh)
- 하지만 입력값이 < 0 일시, 함수 미분값이 0이 되는 약점 있음. (1.weak point. if input < 0, then its gradient is zero.)
- PReLU (Parametric Rectifier or Leaky ReLU): ReLU의 약점을 보안한 함수. 하지만 상대적으로 ReLU가 더 인기 (It is alternative of ReLU. However, it is not as popular as ReLU)
- Relu의 입력값이 < 0 일때의 약점 보안함. (It solved the weak point of ReLU)
- ELU (Exponential Linear Units): 가장 최신에 나온 함수. 2015 (The most recent new activiation function.)
- ReLU의 모든 장점 포함. (It has all strength of ReLU)
- exp() 함수를 계산해야 하는 약점. (Its formula contains exponent, which is expensive.)
- Maxout: ReLU와 Leaky ReLU 를 일반화한 함수. 인기는 별로 (generalized version of ReLU and Leaky ReLU, but it is not yet popular.)
- max(w1x + b1, w2x+b2)
- 위에 식처럼,activation 함수가 w1,w2,b1,b2 파라미터를 더 추가함. 결국 전체 네트워크의 파라미터 개수가 2배 증가 -> 사용하지 말것. (As we see in 1. parameter is double for each activation function.)