수업정리/Deep Learning

01. Quick Introduction & 02. Logistic Regression

서히! 2025. 1. 21. 17:09

Artificial Intelligence

  • Problem Solving by Searching
  • Logic and Ontology
  • Machine Learning: 충분한 데이터를 이용해서 잘 표현할 수 있는 모델링
    • Classification & Clustering: 비슷한 feature를 가진 데이터를 군집화
    • Reinforcement Learning: agent의 action으로부터 보상값을 받으면 보상값을 이용해서 어떤 action을 취하는 데에 유리할지 결정
    • Logistic Regression: variable 간의 관계를 수식으로 표현 → 새로운 데이터에 대한 output을 예측
    • Deep Learning
      • 인공신경망 기술로부터 layer를 깊게 가져간 것 (Neural Network에서 층이 많을 때)
      • Unstructured Data (attribute가 스키마로 존재 X)에 좋음
  • Supervised Learning → classification
  • Unsupervised Learning → clustering

Logistic Regression

Artificial Neural Net의 뉴런 하나가 Logistic Regression을 표현하는 모델

  • Linear Regression: 입력, 출력 간 함수를 모델링, 출력 값이 연속적인 값으로 모델링
  • Logistic Regression: 출력 값이 binary classification (≠ 연속적인 값)
  • Model
    • Linear Regression 수식에 activation 함수 사용 (z가 positive면 1, negative면 0)

💡 Logistic Regression의 목표: y hat이 y의 좋은 추정 값이 되도록 파라미터인 w와 b를 학습하는 것

Loss Function

  • 1/2(y hat - y)^2을 쓰는 것보다는 cross-entropy loss를 사용
  •  y가 1에 가까울수록 y hat도 1에 가깝게 가도록 해야 함
  • Loss function은 single training example에서 w와 b를 추정하는 measure이지만 Cost function은 전체 training set →  gradient descent 방법으로 최솟값의 지점을 찾아냄

Gradient Descent

Cost Function은 Loss Function의 평균값

→ J(w, b)를 최소화하는 w, b를 찾아야 됨

gradient를 이용해서 cost function을 최소화

  • cost function을 파라미터에 대해 미분

 

  • Computation Graph
    • Forward propagation: neural network의 output을 계산/cost function 계산
    • Backward propagation: gradient를 계산/derivative 계산
  • Derivatives with computation graph 예시 (1)
    • dJ/dv = 3
    • dJ/da = dJ/dv * dv/da = 3 * 1 = 3
    • dJ/du = dJ/dv * dv/du = 3 * 1 = 3
    • dJ/db = dJ/dv * dv/du * du/db = 3 * 1 * c = 6
    • dJ/dc = dJ/dv * dv/du * du/dc = 3 * 1 * b = 9

  • Derivatives with computation graph 예시 (2)
    • dJ/dx dJ/dy * dy/dx = 3 * 2 = 6
    • dJ/dx dJ/dz * dz/dx = 2 * 5 = 10
    • dJ/dx = 6 + 10 = 16

⇒ backpropagation path 상에서는 미분은 하고, 합쳐지는 path에서는 해야 됨

 

Logistic Regression Derivatives

loss를 줄이기 위해 파라미터인 w와 b를 조정하고자 함

Logistic Regression 개념
da/dz 는 sigmoid function 미분을 의미

dz = -y(1-a) + a(1-y) = -y + ay + a - ay = a - y

다른 parameter도 미분

⇒ 미분값을 계속 반영해서 최소 지점을 찾음

  • m개의 example에서의 Logistic Regression


Wrap up

  • Gradient Descent: 기울기를 따라 내려가면서 Loss Function의 최솟값을 찾기 위해 파라미터를 최적화하는 알고리즘
  • Cross Entropy: 분류 문제에서 주로 사용되는 Loss Function으로, 모델이 예측한 확률 분포와 실제 값 사이의 차이를 측정

'수업정리 > Deep Learning' 카테고리의 다른 글

15. Word Embedding  (0) 2025.01.23
16. Transformers  (0) 2025.01.23
03. Shallow Neural Network  (0) 2025.01.22