[ML OverView] 머신러닝(Machine Learning)이란?

MLML OverView
avatar
2025.07.19
·
5 min read

머신러닝이란 컴퓨터가 명시적으로 모든 규칙을 코딩하지 않아도,
주어진 데이터에서 스스로 패턴을 찾아내어 예측하거나 판단하도록 만드는 기술입니다.

주요 포인트를 정리하면 다음과 같습니다.

  1. 정의

    • “데이터”와 “알고리즘”을 이용해 컴퓨터가 스스로 학습하도록 하는 기법

    • 람이 일일이 규칙을 짜지 않아도, 데이터에서 유의미한 관계를 찾아 모델을 만드는 것


  2. 핵심 아이디어

    • 학습(Training)
      : 입력(피처, feature)정답(레이블, label)을 주고 모델 파라미터(parameters)를
      최적화(optimization)

    • 추론(Inference)
      : 학습된 모델에 새로운 데이터를 넣어 예측(prediction)·판단(decision)


  3. 학습 방식별 분류

    1. 지도학습(supervised Learning)

      • 지도학습은 ‘입력(특징, feature)’과 그에 대응하는 ‘정답(레이블, label)’이 쌍으로 주어진 데이터를 가지고, feature와 label의 관계를 모델이 학습하도록 하는 방식입니다.

        • 입력(X) : 모델이 학습에 사용하는 여러 특징(예: 집 면적, 방 개수, 이메일 본문 등)

        • 정답(Y) : 각 입력에 대응하는 실제 값 또는 클래스(예: 집 가격, 스팸 여부)

        • 목표 : 입력 X를 주었을 때 정답 Y를 최대한 정확히 예측하는 함수 f(·)를 찾는 것

        • 평가 지표 : MSE, 교차 엔트로피(Cross‑entropy), 정확도(Accuracy), F1 스코어 등


    2. 비지도학습(Unsupervised Learning)

      • ‘입력(X, feature)’만 주어진 데이터를 이용해 
        ’정답(Y, Label)’없이 feature 간의 숨겨진 패턴이나 구조를 모델이 학습하도록 하는 방식입니다.

      • 입력(X) : 모델이 학습에 사용하는 여러 특징 (예) 고객 구매 기록, 문서 단어 빈도, 이미지 픽셀 등

      • 정답(Y) : 없음

      • 목표

        • 군집화(Clustering) : 비슷한 샘플끼리 그룹화하는 함수 g_clust(·) 학습

        • 차원 축소(Dimensionality Reduction)
          : 데이터 구조를 보존하면서 저차원 표현 f_red(·) 학습

        • 밀도 추정(Density Estimation) : 데이터가 따르는 분포 p(·) 추정

      • 평가 지표
        : 실루엣 점수(Silhouette), 엘보우 기법(Elbow), 재구성 오차(Reconstruction Error)

      • 왜?

        : 레이블(Label, 라벨, Y) 없이도
        데이터의 숨은 구조를 파악해 고객 세분화, 이상치 탐지, 시각화 등에 활용하기 위해


    3. 강화학습

      • 에이전트(agent)가 환경(environment)과 상호작용하며
        보상(reward)을 최대화하는 행동(policy)을 학습

      • 구성 요소

        • 상태(state, s) : 현재 환경 정보

        • 행동(action, a) : 에이전트 선택

        • 보상(reward, r) : 행동 후 받는 값

        • 정책(policy, π) : 상태→행동 매핑 함수

      • 예시

        • 게임 AI : 현재 화면(s)에서 버튼(a)을 눌러 승리(r) 보상 최대화

        • 로봇 제어 : 위치(s)에 따라 움직임(a) 학습 → 효율적 이동 보상(r) 최대화


    4. 그 외 학습 방식

      • 반감독학습(Semi‑supervised Learning) : 일부 데이터에만 레이블이 있을 때

      • 자기지도학습(Self‑supervised Learning) : 레이블을 데이터 자체에서 생성해 학습


  4. 평가 및 검증

    1. 교차검증(Cross‑validation) : 데이터를 여러 번 분할해 학습·검증 반복

    2. 과적합 방지(Regularization) : 모델 복잡도 조절 (L1, L2 등)

    3. 기준 모델(Baseline) : 단순 모델로 시작해 성능 비교







- 컬렉션 아티클