[Regression] 선형 회귀(Linear Regression)란?

MLRegression
avatar
2025.07.22
·
4 min read

선형 회귀(Linear Regression)란?

1. 통계적 관점

정의

  • 독립 변수 X와 종속 변수 Y 사이의 관계를 "직선"으로 가장 잘 설명하는 통계 모델

  • 예시 : 공부 시간(X)으로 시험 점수(Y)를 예측

회귀(Regression)의 의미

  • 어원 : ‘돌아가다/돌아오다’를 뜻함

  • 통계적 의미 : 과거 데이터(관측값)를 바탕으로 새로운 X 값에 대한 Y를 예측하여 되돌려 주는 과정

기본 수식

  • : 절편 (직선이 Y축과 만나는 점)

  • : 기울기 (X가 1만큼 변할 때 Y가 평균적으로 변하는 크기)

  • : 오차항 (모델이 설명하지 못하는 부분)

모수 추정 (OLS)

  • 잔차 의 제곱합을 최소화하는 계산

  • 계산 방식 :

    • 정상방정식

    • 경사하강법 사용

주요 가정

  • 선형성 : X와 Y의 관계가 대략 직선 형태

  • 독립성 : 오차항 간 상관관계 없음

  • 등분산성 : 오차항 분산이 일정

  • 정규성 : 오차항이 정규 분포

장점 및 활용

  • 직관적 해석 : "광고비 1원당 매출"처럼 결과를 바로 설명 가능

  • 빠른 탐색 : 복잡한 모델 전에 데이터 흐름을 확인하는 기준 제공

  • 기준 모델 : 리지, 라쏘, 결정트리 등 복잡 기법의 Baseline


2. 머신러닝 관점

통계용과 머신러닝용 선형회귀는 목적과 평가 방식, 구현 방식이 다름

항목

통계학 관점

머신러닝 관점

목적

계수의 통계적 유의성 해석

새로운 데이터에 대한 예측 정확도

평가 지표

R², p-value, AIC/BIC

RMSE, MAE, 교차검증(CV)

가정 민감도

오차 정규성, 등분산성, 독립성 엄격

오차 분포 가정에 덜 민감, 정규화 사용

구현 방식

정상방정식(Closed-form)

배치/미니배치 경사하강법

과적합 방지

가설 검정, 신뢰구간 확인

릿지·라쏘 등의 정규화

요약

  • 통계용 : "왜 그런 관계가 있는지" 해석에 집중

  • ML용 : "얼마나 정확히 예측하는지" 성능에 집중

선형 회귀는 X 변화에 따른 Y의 평균적 변화를 단순·명확하게 보여 주는
모든 분석의 출발점입니다.







- 컬렉션 아티클