머신러닝이란 컴퓨터가 명시적으로 모든 규칙을 코딩하지 않아도,
주어진 데이터에서 스스로 패턴을 찾아내어 예측하거나 판단하도록 만드는 기술입니다.
주요 포인트를 정리하면 다음과 같습니다.
정의
“데이터”와 “알고리즘”을 이용해 컴퓨터가 스스로 학습하도록 하는 기법
사람이 일일이 규칙을 짜지 않아도, 데이터에서 유의미한 관계를 찾아 모델을 만드는 것
핵심 아이디어
학습(Training)
: 입력(피처, feature)과 정답(레이블, label)을 주고 모델 파라미터(parameters)를
최적화(optimization)추론(Inference)
: 학습된 모델에 새로운 데이터를 넣어 예측(prediction)·판단(decision)
학습 방식별 분류
지도학습(supervised Learning)
지도학습은 ‘입력(특징, feature)’과 그에 대응하는 ‘정답(레이블, label)’이 쌍으로 주어진 데이터를 가지고, feature와 label의 관계를 모델이 학습하도록 하는 방식입니다.
입력(X) : 모델이 학습에 사용하는 여러 특징(예: 집 면적, 방 개수, 이메일 본문 등)
정답(Y) : 각 입력에 대응하는 실제 값 또는 클래스(예: 집 가격, 스팸 여부)
목표 : 입력 X를 주었을 때 정답 Y를 최대한 정확히 예측하는 함수 f(·)를 찾는 것
평가 지표 : MSE, 교차 엔트로피(Cross‑entropy), 정확도(Accuracy), F1 스코어 등
비지도학습(Unsupervised Learning)
‘입력(X, feature)’만 주어진 데이터를 이용해
’정답(Y, Label)’없이 feature 간의 숨겨진 패턴이나 구조를 모델이 학습하도록 하는 방식입니다.입력(X) : 모델이 학습에 사용하는 여러 특징 (예) 고객 구매 기록, 문서 단어 빈도, 이미지 픽셀 등
정답(Y) : 없음
목표
군집화(Clustering) : 비슷한 샘플끼리 그룹화하는 함수 g_clust(·) 학습
차원 축소(Dimensionality Reduction)
: 데이터 구조를 보존하면서 저차원 표현 f_red(·) 학습밀도 추정(Density Estimation) : 데이터가 따르는 분포 p(·) 추정
평가 지표
: 실루엣 점수(Silhouette), 엘보우 기법(Elbow), 재구성 오차(Reconstruction Error)왜?
: 레이블(Label, 라벨, Y) 없이도
데이터의 숨은 구조를 파악해 고객 세분화, 이상치 탐지, 시각화 등에 활용하기 위해
강화학습
에이전트(agent)가 환경(environment)과 상호작용하며
보상(reward)을 최대화하는 행동(policy)을 학습구성 요소
상태(state, s) : 현재 환경 정보
행동(action, a) : 에이전트 선택
보상(reward, r) : 행동 후 받는 값
정책(policy, π) : 상태→행동 매핑 함수
예시
게임 AI : 현재 화면(s)에서 버튼(a)을 눌러 승리(r) 보상 최대화
로봇 제어 : 위치(s)에 따라 움직임(a) 학습 → 효율적 이동 보상(r) 최대화
그 외 학습 방식
반감독학습(Semi‑supervised Learning) : 일부 데이터에만 레이블이 있을 때
자기지도학습(Self‑supervised Learning) : 레이블을 데이터 자체에서 생성해 학습
평가 및 검증
교차검증(Cross‑validation) : 데이터를 여러 번 분할해 학습·검증 반복
과적합 방지(Regularization) : 모델 복잡도 조절 (L1, L2 등)
기준 모델(Baseline) : 단순 모델로 시작해 성능 비교