- shallow network: logistic regression, 1 hidden layer

- 표기
- [i] : i번째 layer
- (i) : i번째 training data
Neural Network representation & computing

- 중간 노드에서의 참값들은 관측되지 않음 (= hidden layer)
- 2 Layer Neural Network → input layer는 세지 않음

- a: activation 함수를 통과해서 나온 열벡터

💡 z와 a는 열벡터
Vectorizing across multiple examples

- 뉴런의 출력값을 하나하나 계산하는 For loop를 돌리는 것은 비효율적 ⇒ 행렬 곱을 하기 위해 parameter인 W와 b는 전치시킴
- Z와 A는 열벡터가 아닌 m개의 열을 가진 행렬을 의미
Activation functions
일반적으로 sigmoid function은 non-linear activation function으로 대체
1. hyperboic tangent

- sigmoid function보다 보통 더 잘 작동 (학습을 더 쉽게 함)
- sigmoid 함수가 원점을 지나게 만들고 y축 범위를 2배로 늘린 형태
- z가 매우 작거나 매우 크면 gradient 값이 0에 가까워짐 (기울기가 0) → vanishing gradient
2. ReLU

- output이 binary classification이면 output layer를 보통 sigmoid를 쓰고, 다른 layer의 unit에서는 ReLU를 사용
- Leaky ReLU: z 값이 음수인 경우에만 미분값을 0.01로 설정하여 조금만 반영하도록 함

linear activation function (identity function)을 안 쓰는 이유: 모든 층에서 입력과 출력의 관계가 선형적으로 유지됨
Activation function 미분
- Sigmoid activation function

- Tanh activation function

- ReLU, Leaky ReLU

Gradient descent for neural networks

Cost function도 Logistic Regression의 cost function과 동일하며, layer가 더 쌓인 것만 차이점

'수업정리 > Deep Learning' 카테고리의 다른 글
| 15. Word Embedding (0) | 2025.01.23 |
|---|---|
| 16. Transformers (0) | 2025.01.23 |
| 01. Quick Introduction & 02. Logistic Regression (0) | 2025.01.21 |