1. 머신러닝 전체 프로세스

단계 전통 머신러닝 딥러닝
1. 원본 데이터 텍스트, 이미지, 표 등 텍스트, 이미지, 표 등
2. 분할 텍스트→토큰, 이미지→픽셀, 음성→프레임 텍스트→토큰, 이미지→픽셀, 음성→프레임
3. 벡터화 숫자로 변환 (ID, RGB, 정규화) 숫자로 변환 (ID, RGB, 정규화)
4. Feature 추출 사람이 설계 (고정)- 긍정단어 개수- 부정단어 개수- 느낌표 개수 -
5. 학습 초기화 랜덤 Parameter 랜덤 Parameter
6. 순전파 Feature × Parameter = 예측 벡터화된 입력 × Parameter→ Layer별 Feature 자동 생성→ 예측
7. 손실 계산 정답과 비교 정답과 비교
8. 역전파 Parameter 조정 Parameter 조정→ Feature 표현도 변화
9. 반복 68 반복 (수백만수억 회) 68 반복 (수백만수억 회)
10. 학습된 모델 고정 Feature + 학습된 Parameter 학습된 Parameter(Feature 표현 내장)
11. 추론: 전처리 분할 + 벡터화 분할 + 벡터화
12. 추론: Feature 같은 방식으로 Feature 추출 학습된 모델로 자동 생성
13. 추론: 예측 학습된 Parameter로 계산 학습된 Parameter로 계산
14. 예측 결과 출력 출력

2. 핵심 용어 완전 정리

데이터 (Data)

원본 정보

예시

  • 텍스트: “안녕하세요”
  • 이미지: 고양이 사진
  • 표: 집 정보 (평수, 방개수)

역할

학습의 재료

분할 (Segmentation)

데이터를 처리 가능한 작은 단위로 나누는 과정

데이터별 분할

  • 텍스트 → 토큰 (Tokenization)
  • 이미지 → 픽셀 (Pixelation)
  • 음성 → 프레임 (Framing)

목적

벡터화하기 전 처리 가능한 단위로 분해

토큰 (Token)

텍스트를 처리 가능한 작은 단위로 나눈 것

"안녕하세요" → ["안녕", "하세요"] (2토큰)
"I love you" → ["I", "love", "you"] (3토큰)

특징

  • NLP(자연어 처리) 전용 용어
  • 이미지는 “픽셀”, 음성은 “프레임”
  • LLM에서 비용/길이 계산 단위

범위

자연어 처리 전반 (LLM 전용 아님)

벡터화 (Vectorization)

데이터를 숫자로 변환하는 과정 (표현 방식의 변환)

"안녕" → 1523 (숫자 ID)
빨간 픽셀 → [255, 0, 0] (RGB 값)

목적

기계가 읽을 수 있는 형태로 변환

Feature 추출

벡터화된 데이터 중 의미있는 부분을 선택하거나 새로 만드는 과정

벡터화: [1523, 8842, ...]
    ↓
Feature 추출: 의미있는 표현 생성
    ↓
Feature: [3, 0, 2]  (긍정단어 개수, 부정단어 개수, 느낌표)

핵심

  • 벡터화는 표현 방식의 변환
  • Feature 추출은 의미 선택의 과정
  • 둘은 구분되지만 일부 겹침

Feature (특징)

모델이 학습에 활용하는 의미있는 숫자 표현

전통 머신러닝 예시 (감정 분석)

리뷰 텍스트 → Feature (사람이 설계)
- 긍정 단어 개수: 3
- 부정 단어 개수: 0
- 느낌표 개수: 2
→ Feature: [3, 0, 2]

딥러닝 예시 (감정 분석)

리뷰 텍스트 → Feature (자동 학습)
- 입력: "이 영화 정말 최고예요!"
- Layer 1: 단어 조합 패턴
- Layer 2: 감정 강도 패턴
- Layer 3: 전체 의도 (극찬)

학습 대상 여부

  • 전통 머신러닝: Feature 고정, Parameter만 학습
  • 딥러닝: Parameter 학습을 통해 Feature 표현도 간접 학습

핵심

  • 모델에 “무엇을 볼 것인가” 제공
  • 딥러닝: 각 Layer 출력도 Feature

전통 머신러닝 vs 딥러닝

  • 전통 머신러닝: 사람이 Feature 설계 (고정)
  • 딥러닝: Feature 자동 학습 (Parameter로 제어)

Parameter (파라미터)

모델이 학습으로 조정하는 내부 숫자 값

예시

감정점수 = (긍정단어 × a) + (부정단어 × b) + (느낌표 × c)

a = 0.5   ← 긍정단어: 양수 (점수 올림)
b = -0.8  ← 부정단어: 음수 (점수 낮춤)
c = 0.3   ← 느낌표: 약한 양수 (약간 긍정)

구성

  • 가중치 (Weight)
  • 편향 (Bias)

핵심

  • 학습으로 조정됨 (최적화 대상)
  • Feature를 “어떻게 처리할지” 결정

크기

구분 Parameter 규모 예시
전통 머신러닝 10² ~ 10⁴ 선형 회귀, SVM
CNN (딥러닝) 10⁵ ~ 10⁷ 이미지넷 모델
Transformer 10⁸ ~ 10¹⁰ BERT, GPT-2
LLM 10¹¹ ~ 10¹³ GPT-3, GPT-4

Feature vs Parameter 한눈에

Feature Parameter
정의 의미있는 숫자 표현 학습 가능한 내부 값
생성 방식 데이터에서 계산 랜덤 초기화 후 학습으로 최적화
역할 무엇을 볼 것인가 어떻게 계산할 것인가
예시 [3, 0, 2] (긍정, 부정, 느낌표) a=0.5, b=-0.8, c=0.3
위치 입력/중간 표현 모델 내부
학습 대상 전통 머신러닝: ✗딥러닝: 간접 ✓ ✓ (직접 최적화)
비유 요리 재료 요리 레시피

관계

Feature (입력) × Parameter (가중치) = 출력 (예측)
  • 학습: 출력 → 손실 계산 → Parameter 조정 → 반복
  • 추론: 출력 = 최종 예측

학습 (Training)

데이터로 최적의 Parameter를 찾는 과정

  1. 랜덤 Parameter로 시작
  2. Feature × Parameter = 예측
  3. 오차 계산 (틀린 정도)
  4. 역전파로 Parameter 조정
  5. 반복 (점점 정확해짐)

결과

학습된 모델 (구조 + 최적화된 Parameter)

딥러닝에서

Parameter 학습으로 Feature 표현도 함께 최적화됨

모델 (Model)

구조(Architecture) + 학습된 Parameter

모델 파일 (예: PyTorch .pt, TensorFlow .pb):
- 네트워크 구조 정의
- 학습된 Parameter 값들

예시

GPT-3 모델 = Transformer 구조 + 1,750억 개 Parameter = 700GB

추론 (Inference)

학습된 모델로 예측하는 과정

입력 Feature × 학습된 Parameter = 예측 결과

예시

  • 새 리뷰: “음식 맛있어요!” → Feature 추출 → 모델로 계산 → “긍정 92%”
  • 새 리뷰: “별로예요…” → Feature 추출 → 모델로 계산 → “부정 85%”

사용

새 입력 → 모델 → 예측


3. 전통 머신러닝 vs 딥러닝 비교

전통 머신러닝

  • Feature: 사람 설계 (고정)
  • 학습: Parameter만
  • 예시: 선형 회귀, SVM, 랜덤포레스트

딥러닝

  • Feature: 학습 중 자동 생성
  • 학습: Parameter + Feature 동시
  • 예시: CNN, RNN, Transformer, LLM

비교표

전통 머신러닝 딥러닝
Feature 사람이 설계 (고정) Parameter 학습으로 자동 학습
Parameter 자동 학습 자동 학습
파라미터 수 10² ~ 10⁴ 10⁵ ~ 10¹³
계산량 적음 많음 (GPU 필요)
데이터 필요량 수천~수만 수백만~수조
학습 시간 분~시간 일~월
복잡도 단순 패턴 복잡한 패턴
전처리 필요 필요 (자동≠불필요)
해석 가능성 높음 상대적으로 낮음 (XAI로 개선 중)

4. 전체 요약

머신러닝 = 데이터로 모델 만들기

데이터 → Feature → Parameter 학습 → 모델 → 예측

전통 ML vs 딥러닝

  • 전통 ML: Feature 사람 설계
  • 딥러닝: Feature 자동 학습

발전 과정

2000년대: 전통 머신러닝

  • 사람이 Feature 설계
  • Parameter 10² ~ 10⁴ 개
  • 간단한 작업

2010년대: 딥러닝

  • Feature 자동 학습
  • Parameter 10⁵ ~ 10⁷ 개
  • 이미지, 음성 인식 성공
  • GPU 필수

2020년대: LLM

  • 초대규모 Parameter (10¹¹ ~ 10¹³)
  • 언어 이해/생성
  • Pre-training + Fine-tuning
  • 범용 AI의 시작

5. 실무 관점 정리

AI 도입 시 이해해야 할 것

전통 머신러닝을 선택하는 경우

  • 정형 데이터 (표 형태)
  • 데이터: 수천~수만 건
  • 해석 가능성 중요
  • 빠른 개발 필요
  • 예: 집값 예측, 고객 이탈 예측

딥러닝을 선택하는 경우

  • 비정형 데이터 (이미지, 음성, 텍스트)
  • 데이터: 수십만 건 이상
  • 복잡한 패턴
  • GPU 인프라 있음
  • 예: 얼굴 인식, 음성 인식

LLM API 사용하는 경우

  • 텍스트 처리
  • 빠른 프로토타입
  • 자체 모델 학습 불필요
  • 예: 챗봇, 요약, 번역

준비 사항 체크리스트

  • 데이터 충분한가? (양, 품질)
  • 리소스 있는가? (GPU, 시간, 비용)
  • Feature 설계 가능한가? (전통 ML)
  • 해석 가능성 필요한가?
  • 실시간 응답 필요한가?