Artificial Intelligence
- Problem Solving by Searching
- Logic and Ontology
- Machine Learning: 충분한 데이터를 이용해서 잘 표현할 수 있는 모델링
- Classification & Clustering: 비슷한 feature를 가진 데이터를 군집화
- Reinforcement Learning: agent의 action으로부터 보상값을 받으면 보상값을 이용해서 어떤 action을 취하는 데에 유리할지 결정
- Logistic Regression: variable 간의 관계를 수식으로 표현 → 새로운 데이터에 대한 output을 예측
- Deep Learning
- 인공신경망 기술로부터 layer를 깊게 가져간 것 (Neural Network에서 층이 많을 때)
- Unstructured Data (attribute가 스키마로 존재 X)에 좋음
- Supervised Learning → classification
- Unsupervised Learning → clustering
Logistic Regression
Artificial Neural Net의 뉴런 하나가 Logistic Regression을 표현하는 모델
- Linear Regression: 입력, 출력 간 함수를 모델링, 출력 값이 연속적인 값으로 모델링
- Logistic Regression: 출력 값이 binary classification (≠ 연속적인 값)
- Model
- Linear Regression 수식에 activation 함수 사용 (z가 positive면 1, negative면 0)


💡 Logistic Regression의 목표: y hat이 y의 좋은 추정 값이 되도록 파라미터인 w와 b를 학습하는 것
Loss Function
- 1/2(y hat - y)^2을 쓰는 것보다는 cross-entropy loss를 사용
- y가 1에 가까울수록 y hat도 1에 가깝게 가도록 해야 함
- Loss function은 single training example에서 w와 b를 추정하는 measure이지만 Cost function은 전체 training set → gradient descent 방법으로 최솟값의 지점을 찾아냄

Gradient Descent

→ J(w, b)를 최소화하는 w, b를 찾아야 됨
→ gradient를 이용해서 cost function을 최소화
- cost function을 파라미터에 대해 미분

- Computation Graph
- Forward propagation: neural network의 output을 계산/cost function 계산
- Backward propagation: gradient를 계산/derivative 계산
- Derivatives with computation graph 예시 (1)
- dJ/dv = 3
- dJ/da = dJ/dv * dv/da = 3 * 1 = 3
- dJ/du = dJ/dv * dv/du = 3 * 1 = 3
- dJ/db = dJ/dv * dv/du * du/db = 3 * 1 * c = 6
- dJ/dc = dJ/dv * dv/du * du/dc = 3 * 1 * b = 9

- Derivatives with computation graph 예시 (2)
- dJ/dx → dJ/dy * dy/dx = 3 * 2 = 6
- dJ/dx → dJ/dz * dz/dx = 2 * 5 = 10
- dJ/dx = 6 + 10 = 16

⇒ backpropagation path 상에서는 미분은 곱하고, 합쳐지는 path에서는 합해야 됨
Logistic Regression Derivatives
loss를 줄이기 위해 파라미터인 w와 b를 조정하고자 함



dz = -y(1-a) + a(1-y) = -y + ay + a - ay = a - y


⇒ 미분값을 계속 반영해서 최소 지점을 찾음
- m개의 example에서의 Logistic Regression

Wrap up
- Gradient Descent: 기울기를 따라 내려가면서 Loss Function의 최솟값을 찾기 위해 파라미터를 최적화하는 알고리즘
- Cross Entropy: 분류 문제에서 주로 사용되는 Loss Function으로, 모델이 예측한 확률 분포와 실제 값 사이의 차이를 측정
'수업정리 > Deep Learning' 카테고리의 다른 글
| 15. Word Embedding (0) | 2025.01.23 |
|---|---|
| 16. Transformers (0) | 2025.01.23 |
| 03. Shallow Neural Network (0) | 2025.01.22 |