MSE(Mean Squared Error) & OLS(Ordinary Least Squares)이란?
회귀 모델 평가 지표”
1. MSE란?
1.1 정의
예측값과 실제값 차이(오차)를 제곱해 평균낸 손실 함수
1.2 수식

1.3 역할
회귀 모델 학습 시 “오차를 최소화하는 가중치(w)와 편향(b)을 찾는 것”이 목표
모델의 예측 성능을 수치화하여 비교·평가
1.4 MSE를 쓰는 이유
부호 문제 해결
원래 오차 를 모두 더하면 양·음이 상쇄되어 0이 될 수 있음
제곱하면 모든 오차를 양수로 변환해 크기 비교 가능
큰 오차에 대한 페널티 강화
오차가 클수록 제곱값이 기하급수적으로 커져 모델이 이상치에 민감하게 학습
예를 들어보면 더 직관적일 거예요.
작은 오차 vs 큰 오차
데이터 A : 실제값 = 10, 예측값 = 9 → 오차 = 1 → 손실 = 1² = 1
데이터 B : 실제값 = 10, 예측값 = 8 → 오차 = 2 → 손실 = 2² = 4
데이터 C : 실제값 = 10, 예측값 = 5 → 오차 = 5 → 손실 = 5² = 25
손실값 비교
오차 (|y–ŷ|)
제곱 손실 (오차²)
1
1
2
4
5
25
오차가 1에서 2로 2배 커지면 손실은 1→4로 4배 증가
오차가 2에서 5로 2.5배 커지면 손실은 4→25로 6.25배 증가
모델 학습 관점에서
경사하강법은 손실이 큰 데이터에 더 큰 기울기를 부여해서 파라미터를 조정하므로,
오차가 큰(=이상치) 데이터일수록 “이 부분 오차를 줄여라!”라고 모델이 더 강하게 학습합니다.
이렇게 제곱을 쓰면, 작은 오차는 상대적으로 덜 보고 큰 오차에 집중해서 줄이게 됩니다.
미분 가능성
2차 함수 형태로 매끄럽게 미분 가능해 경사하강법 등 최적화에 유리
1.5 언제 쓰이나?
학습 손실(Loss) 함수 : 모델 파라미터 업데이트 기준
평가 지표 : 테스트 셋 성능 확인, 주로 RMSE(√MSE) 형태 사용
교차검증 : 하이퍼파라미터 튜닝 시 성능 척도로 활용
MSE가 작을수록 모델 예측이 실제값에 더 가까워진다는 의미 → “오차가 적기 때문” 이며,
MSE = 0이면 완벽한 예측을 뜻합니다.
2. OLS(최소제곱법)이란?
2.1 정의
Ordinary Least Squares :
데이터 점들과 직선 사이 거리(잔차)의 제곱합(SSE)을 최소화하는 선형 회귀 방법(방법론)
2.2 과정
데이터 점과 임의의 직선을 가정
각 점에서 직선까지 수직 거리(잔차) 계산
잔차를 제곱해 모두 합한 SSE(Sum of Squared Errors)를 구함
SSE(Sum of Squared Errors)는 OLS에서 최소화하려는 “잔차(오차)²의 합”입니다.
정의 : “잔차 제곱의 합” (각 관측값과 예측값의 차이(잔차)를 제곱한 뒤 모두 더한 값)
수식
SSE=∑i=1n(yi−y^i)2
여기서
- yi는 '실제값',
- y^i는 '예측값',
- n은 '샘플 수'
입니다.역할
OLS(최소제곱법)는 이 SSE를 최소화하는 기울기(β₁)와 절편(β₀)를 찾는 방법입니다.
MSE는 이 SSE를 n으로 나눈 “평균 제곱 오차”인 셈이구요.
OLS
: SSE를 최소로 만드는 기울기(β₁)와 절편(β₀)을 해석적(정상방정식) 또는 수치적(경사하강법)으로 계산
2.3 MSE와의 관계
OLS의 목표는 SSE를 최소화하는 것
MSE는 SSE를 샘플 수(n)로 나눈 평균 제곱 오차
따라서 OLS 방법으로 찾은 파라미터는 MSE를 최소화하는 해이기도 함
2.4 결론
MSE는 “현재 모델이 얼만큼 틀렸는지”를 수치로 측정하는 손실 함수이고,
OLS는 “어떤 파라미터(β₀, β₁)를 골랐을 때 오차² 합(SSE)이 얼마인지”를 정의하는 방법론일 뿐이죠.
둘의 공통적인 목표는 “잔차² 최소화”입니다.
SSE = 모든 점의 오차²를 더한 총합
MSE = SSE ÷ 데이터 개수”
OLS = SSE(잔차² 합)를 최소화하는 최적화 기법