• sigmoid 함수: 절대 사용하지 말것 (Do not use this function at all)
    1. 값이 매우 크거나 작을 경우 함수 값이 saturation 되기 쉬움. ( If input is too small or large, activation value is easy to be saturated)
    2. 함수값이 zero-centered 가 아님. 입력값이 항상 양일때 w에 대한 함수 미분값이 항상 양이거나 음이 됨. ( Function is not zero-centered. If input is all positive, then the gradient on weight is either all positive or all negative.)
    3. exp() 을 계산하는데 비용이 많이 듦. (Computing exponent function is computationally expensive.)
  • tanh 함수: 역시 절대 사용하지 말것 (Do no use this function at all)
    1. 위에 첫번째 문제 남아 있음. (It still has 1.problem above.)
  • ReLU 함수 max(0,x): 권장 (Ok. It’s good to use this function in practice)
    1. 함수값이 saturation 문제 없음. (No saturation problem at all.)
    2. 계산이 빠름. (Computationally efficient)
    3. sigmoid/tanh 보다 6배 수렴속도가 빠름. (it is six times faster than sigmoid/tanh)
    4. 하지만 입력값이 < 0 일시, 함수 미분값이 0이 되는 약점 있음. (1.weak point. if input < 0, then its gradient is zero.)
  • PReLU (Parametric Rectifier or Leaky ReLU): ReLU의 약점을 보안한 함수. 하지만 상대적으로 ReLU가 더 인기 (It is alternative of ReLU. However, it is not as popular as ReLU)
    1. Relu의 입력값이 < 0 일때의 약점 보안함.  (It solved the weak point of ReLU)
  • ELU (Exponential Linear Units): 가장 최신에 나온 함수. 2015 (The most recent new activiation function.)
    1. ReLU의 모든 장점 포함. (It has all strength of ReLU)
    2. exp() 함수를 계산해야 하는 약점. (Its formula contains exponent, which is expensive.)
  • Maxout: ReLU와 Leaky ReLU 를 일반화한 함수. 인기는 별로 (generalized version of ReLU and Leaky ReLU, but it is not yet popular.)
    1. max(w1x + b1, w2x+b2)
    2. 위에 식처럼,activation 함수가 w1,w2,b1,b2 파라미터를 더 추가함. 결국 전체 네트워크의 파라미터 개수가 2배 증가 -> 사용하지 말것.  (As we see in 1. parameter is double for each activation function.)