선형 회귀(Linear Regression)란?
1. 통계적 관점
정의
독립 변수 X와 종속 변수 Y 사이의 관계를 "직선"으로 가장 잘 설명하는 통계 모델
예시 : 공부 시간(X)으로 시험 점수(Y)를 예측
회귀(Regression)의 의미
어원 : ‘돌아가다/돌아오다’를 뜻함
통계적 의미 : 과거 데이터(관측값)를 바탕으로 새로운 X 값에 대한 Y를 예측하여 되돌려 주는 과정
기본 수식
: 절편 (직선이 Y축과 만나는 점)
: 기울기 (X가 1만큼 변할 때 Y가 평균적으로 변하는 크기)
: 오차항 (모델이 설명하지 못하는 부분)
모수 추정 (OLS)
잔차 의 제곱합을 최소화하는 계산
계산 방식 :
정상방정식
경사하강법 사용
주요 가정
선형성 : X와 Y의 관계가 대략 직선 형태
독립성 : 오차항 간 상관관계 없음
등분산성 : 오차항 분산이 일정
정규성 : 오차항이 정규 분포
장점 및 활용
직관적 해석 : "광고비 1원당 매출"처럼 결과를 바로 설명 가능
빠른 탐색 : 복잡한 모델 전에 데이터 흐름을 확인하는 기준 제공
기준 모델 : 리지, 라쏘, 결정트리 등 복잡 기법의 Baseline
2. 머신러닝 관점
통계용과 머신러닝용 선형회귀는 목적과 평가 방식, 구현 방식이 다름
항목 | 통계학 관점 | 머신러닝 관점 |
목적 | 계수의 통계적 유의성 해석 | 새로운 데이터에 대한 예측 정확도 |
평가 지표 | R², p-value, AIC/BIC | RMSE, MAE, 교차검증(CV) |
가정 민감도 | 오차 정규성, 등분산성, 독립성 엄격 | 오차 분포 가정에 덜 민감, 정규화 사용 |
구현 방식 | 정상방정식(Closed-form) | 배치/미니배치 경사하강법 |
과적합 방지 | 가설 검정, 신뢰구간 확인 | 릿지·라쏘 등의 정규화 |
요약
통계용 : "왜 그런 관계가 있는지" 해석에 집중
ML용 : "얼마나 정확히 예측하는지" 성능에 집중
선형 회귀는 X 변화에 따른 Y의 평균적 변화를 단순·명확하게 보여 주는
모든 분석의 출발점입니다.