🐍 머신러닝 두 번째 여정: 예측과 분류의 세계로

들어가며
부스트코스 머신러닝 파이썬 과정의 두 번째 파트를 마쳤다. 선형 회귀, 로지스틱 회귀, 그리고 분류 알고리즘까지 배우면서 점점 머신러닝의 실제 응용에 가까워지고 있다. 이번에도 "한 줄씩 이해하며 코드로 구현하자"는 마음가짐으로 임했다.

4. 선형 회귀(Linear Regression): 데이터 속 선형 관계 찾기

선형 회귀는 독립 변수와 종속 변수 간의 선형 관계를 모델링하는 기법이다. 집 가격 예측, 판매량 예측 등 연속적인 값을 예측하는 데 널리 사용된다.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 샘플 데이터 생성 (집 크기와 가격)
np.random.seed(42)
house_size = np.random.normal(150, 40, 100)  # 평균 150m², 표준편차 40m²의 집 크기 100개
noise = np.random.normal(0, 50, 100)
house_price = 1500 * house_size + 10000 + noise  # 가격 = 1500 × 크기 + 10000 + 노이즈

# 데이터 분할
X = house_size.reshape(-1, 1)
y = house_price
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 예측 및 평가
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"계수(기울기): {model.coef_[0]:.2f}")
print(f"절편: {model.intercept_:.2f}")
print(f"평균 제곱 오차(MSE): {mse:.2f}")
print(f"결정 계수(R²): {r2:.2f}")

# 그래프로 시각화
plt.scatter(X_test, y_test, color='black', label='실제 데이터')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='선형 회귀선')
plt.xlabel('집 크기 (m²)')
plt.ylabel('집 가격')
plt.title('선형 회귀: 집 크기에 따른 가격 예측')
plt.legend()
plt.show()

선형 회귀 모델은 단순하지만 강력하다. 특히 결정 계수(R²)가 높게 나오면 모델이 데이터를 잘 설명한다는 의미다. 하지만 데이터에 비선형 관계가 있거나 특징 간 상호작용이 있다면 다항 회귀나 다른 비선형 모델을 고려해야 한다.

5. 로지스틱 회귀(Logistic Regression): 확률로 분류하기

로지스틱 회귀는 이름에 '회귀'가 들어가지만 사실은 분류 알고리즘이다. 특히 이진 분류(두 클래스로 나누기)에 탁월하며, 출력값을 0과 1 사이의 확률로 변환한다.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification

# 이진 분류용 샘플 데이터 생성 (예: 시험 합격/불합격)
X, y = make_classification(n_samples=300, n_features=2, n_redundant=0, 
                           n_clusters_per_class=1, random_state=42)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 데이터 스케일링 (로지스틱 회귀에서 중요)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 로지스틱 회귀 모델 학습
model = LogisticRegression(random_state=42)
model.fit(X_train_scaled, y_train)

# 예측 및 평가
y_pred = model.predict(X_test_scaled)
y_prob = model.predict_proba(X_test_scaled)[:, 1]  # 클래스 1의 확률

accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

print(f"정확도: {accuracy:.4f}")
print("혼동 행렬:")
print(conf_matrix)
print("\n분류 보고서:")
print(classification_report(y_test, y_pred))

# 결정 경계 시각화
def plot_decision_boundary(X, y, model, scaler):
    h = 0.02  # 격자 간격
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    
    # 격자점에 대한 예측
    Z = model.predict(scaler.transform(np.c_[xx.ravel(), yy.ravel()]))
    Z = Z.reshape(xx.shape)
    
    plt.contourf(xx, yy, Z, alpha=0.3)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
    plt.xlabel('특성 1')
    plt.ylabel('특성 2')
    plt.title('로지스틱 회귀의 결정 경계')
    plt.show()

plot_decision_boundary(X_test, y_test, model, scaler)

로지스틱 회귀는 해석이 쉽고 확률값을 얻을 수 있어 위험 평가나 고객 이탈 예측 등에 유용하다. 또한 L1, L2 정규화를 통해 과적합을 방지할 수 있다.

6. 분류(Classification): 다양한 알고리즘 탐색

분류는 데이터를 미리 정의된 카테고리로 구분하는 과제다. 이진 분류를 넘어 다중 분류 문제도 자주 마주하게 된다. 여러 분류 알고리즘을 비교해보자.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_wine
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd
import seaborn as sns

# 와인 데이터셋 로드 (다중 분류)
wine = load_wine()
X = wine.data
y = wine.target

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 다양한 분류 알고리즘
classifiers = {
    '로지스틱 회귀': LogisticRegression(max_iter=1000, random_state=42),
    '결정 트리': DecisionTreeClassifier(random_state=42),
    '랜덤 포레스트': RandomForestClassifier(n_estimators=100, random_state=42),
    'SVM': SVC(random_state=42),
    'K-최근접 이웃': KNeighborsClassifier(n_neighbors=5)
}

# 각 알고리즘 훈련 및 평가
results = {}
for name, clf in classifiers.items():
    clf.fit(X_train_scaled, y_train)
    y_pred = clf.predict(X_test_scaled)
    accuracy = accuracy_score(y_test, y_pred)
    cv_scores = cross_val_score(clf, X_train_scaled, y_train, cv=5)
    results[name] = {
        'accuracy': accuracy,
        'cv_mean': cv_scores.mean(),
        'cv_std': cv_scores.std()
    }
    print(f"\n{name}:")
    print(f"테스트 정확도: {accuracy:.4f}")
    print(f"교차 검증 정확도: {cv_scores.mean():.4f} ± {cv_scores.std():.4f}")
    print(classification_report(y_test, y_pred, target_names=wine.target_names))

# 결과 비교 시각화
results_df = pd.DataFrame({
    'Algorithm': list(results.keys()),
    'Test Accuracy': [results[name]['accuracy'] for name in results],
    'CV Accuracy': [results[name]['cv_mean'] for name in results]
})

plt.figure(figsize=(12, 6))
sns.barplot(x='Algorithm', y='value', hue='variable', 
            data=pd.melt(results_df, id_vars='Algorithm', 
                          value_vars=['Test Accuracy', 'CV Accuracy']))
plt.title('다양한 분류 알고리즘의 성능 비교')
plt.ylim(0.7, 1.0)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 특성 중요도 (랜덤 포레스트 기준)
rf = classifiers['랜덤 포레스트']
feature_importance = pd.DataFrame({
    'Feature': wine.feature_names,
    'Importance': rf.feature_importances_
}).sort_values('Importance', ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x='Importance', y='Feature', data=feature_importance)
plt.title('특성 중요도 (랜덤 포레스트)')
plt.tight_layout()
plt.show()

다양한 분류 알고리즘을 비교해보니, 데이터셋에 따라 성능 차이가 생긴다. 모델 선택은 정확도뿐만 아니라 해석 가능성, 학습/예측 속도, 과적합 방지 능력 등을 종합적으로 고려해야 한다.

학습하면서 느낀 점

1. 적절한 알고리즘 선택의 중요성

모든 데이터에 만능인 알고리즘은 없다
데이터 특성과 목적에 맞는 알고리즘 선택이 중요
여러 알고리즘을 비교하는 습관을 들이자

2. 전처리와 피처 엔지니어링의 힘

스케일링이 모델 성능에 크게 영향을 미친다
피처 선택과 가공에 더 많은 시간을 투자하자
도메인 지식을 적극 활용하자

3. 모델 평가는 다각도로

정확도만으로는 부족하다
혼동 행렬, 정밀도, 재현율, F1 스코어 등 다양한 지표를 살펴보자
교차 검증을 통해 일반화 성능을 확인하자

마치며

머신러닝 알고리즘은 각자의 특성과 장단점이 있다. 선형 회귀부터 복잡한 분류 알고리즘까지, 각 모델의 원리를 이해하고 적재적소에 활용하는 능력이 중요하다. 이론과 실습을 병행하면서 직관을 키워나가는 중이다.

"모델은 도구일 뿐, 결국 중요한 것은 문제 정의와 데이터다" - 데이터 사이언티스트의 통찰