수업정리/Deep Learning

03. Shallow Neural Network

서히! 2025. 1. 22. 16:29
  • shallow network: logistic regression, 1 hidden layer

총 4개의 logistic regression이 2개의 층으로 이루어져 있음, 파라미터를 계속 update

  • 표기
    • [i] : i번째 layer
    • (i) : i번째 training data

Neural Network representation & computing

  • 중간 노드에서의 참값들은 관측되지 않음 (= hidden layer)
  • 2 Layer Neural Network → input layer는 세지 않음

편의상 W[1]. b[1]은 transpose 되었다고 생각

  • a: activation 함수를 통과해서 나온 열벡터

계속 regression 층을 쌓아나갈 수 있음

💡  za는 열벡터

Vectorizing across multiple examples

  • 뉴런의 출력값을 하나하나 계산하는 For loop를 돌리는 것은 비효율적  행렬 곱을 하기 위해 parameter인 W와 b는 전치시킴
  • Z와 A는 열벡터가 아닌 m개의 열을 가진 행렬을 의미

 

Activation functions

일반적으로 sigmoid function은 non-linear activation function으로 대체

 

1. hyperboic tangent

  • sigmoid function보다 보통 더 잘 작동 (학습을 더 쉽게 함)
  • sigmoid 함수가 원점을 지나게 만들고 y축 범위를 2배로 늘린 형태
  • z가 매우 작거나 매우 크면 gradient 값이 0에 가까워짐 (기울기가 0) → vanishing gradient

2. ReLU

  • output이 binary classification이면 output layer를 보통 sigmoid를 쓰고, 다른 layer의 unit에서는 ReLU를 사용
  • Leaky ReLU: z 값이 음수인 경우에만 미분값을 0.01로 설정하여 조금만 반영하도록 함

linear activation function (identity function)을 안 쓰는 이유: 모든 층에서 입력과 출력의 관계가 선형적으로 유지됨

Activation function 미분

  • Sigmoid activation function

y' = y(1-y)

  • Tanh activation function

y' = (1+y)(1-y)

  • ReLU, Leaky ReLU

Gradient descent for neural networks

Cost function도 Logistic Regression의 cost function과 동일하며, layer가 더 쌓인 것만 차이점

'수업정리 > Deep Learning' 카테고리의 다른 글

15. Word Embedding  (0) 2025.01.23
16. Transformers  (0) 2025.01.23
01. Quick Introduction & 02. Logistic Regression  (0) 2025.01.21