머신러닝 개념 정리

1. 머신러닝 전체 프로세스

단계	전통 머신러닝	딥러닝
1. 원본 데이터	텍스트, 이미지, 표 등	텍스트, 이미지, 표 등
2. 분할	텍스트→토큰, 이미지→픽셀, 음성→프레임	텍스트→토큰, 이미지→픽셀, 음성→프레임
3. 벡터화	숫자로 변환 (ID, RGB, 정규화)	숫자로 변환 (ID, RGB, 정규화)
4. Feature 추출	사람이 설계 (고정)- 긍정단어 개수- 부정단어 개수- 느낌표 개수	-
5. 학습 초기화	랜덤 Parameter	랜덤 Parameter
6. 순전파	Feature × Parameter = 예측	벡터화된 입력 × Parameter→ Layer별 Feature 자동 생성→ 예측
7. 손실 계산	정답과 비교	정답과 비교
8. 역전파	Parameter 조정	Parameter 조정→ Feature 표현도 변화
9. 반복	6~~8 반복 (수백만~~수억 회)	6~~8 반복 (수백만~~수억 회)
10. 학습된 모델	고정 Feature + 학습된 Parameter	학습된 Parameter(Feature 표현 내장)
11. 추론: 전처리	분할 + 벡터화	분할 + 벡터화
12. 추론: Feature	같은 방식으로 Feature 추출	학습된 모델로 자동 생성
13. 추론: 예측	학습된 Parameter로 계산	학습된 Parameter로 계산
14. 예측 결과	출력	출력

2. 핵심 용어 완전 정리

데이터 (Data)

원본 정보

예시

텍스트: “안녕하세요”
이미지: 고양이 사진
표: 집 정보 (평수, 방개수)

역할

학습의 재료

분할 (Segmentation)

데이터를 처리 가능한 작은 단위로 나누는 과정

데이터별 분할

텍스트 → 토큰 (Tokenization)
이미지 → 픽셀 (Pixelation)
음성 → 프레임 (Framing)

목적

벡터화하기 전 처리 가능한 단위로 분해

토큰 (Token)

텍스트를 처리 가능한 작은 단위로 나눈 것

"안녕하세요" → ["안녕", "하세요"] (2토큰)
"I love you" → ["I", "love", "you"] (3토큰)

특징

NLP(자연어 처리) 전용 용어
이미지는 “픽셀”, 음성은 “프레임”
LLM에서 비용/길이 계산 단위

범위

자연어 처리 전반 (LLM 전용 아님)

벡터화 (Vectorization)

데이터를 숫자로 변환하는 과정 (표현 방식의 변환)

"안녕" → 1523 (숫자 ID)
빨간 픽셀 → [255, 0, 0] (RGB 값)

목적

기계가 읽을 수 있는 형태로 변환

Feature 추출

벡터화된 데이터 중 의미있는 부분을 선택하거나 새로 만드는 과정

벡터화: [1523, 8842, ...]
    ↓
Feature 추출: 의미있는 표현 생성
    ↓
Feature: [3, 0, 2]  (긍정단어 개수, 부정단어 개수, 느낌표)

핵심

벡터화는 표현 방식의 변환
Feature 추출은 의미 선택의 과정
둘은 구분되지만 일부 겹침

Feature (특징)

모델이 학습에 활용하는 의미있는 숫자 표현

전통 머신러닝 예시 (감정 분석)

리뷰 텍스트 → Feature (사람이 설계)
- 긍정 단어 개수: 3
- 부정 단어 개수: 0
- 느낌표 개수: 2
→ Feature: [3, 0, 2]

딥러닝 예시 (감정 분석)

리뷰 텍스트 → Feature (자동 학습)
- 입력: "이 영화 정말 최고예요!"
- Layer 1: 단어 조합 패턴
- Layer 2: 감정 강도 패턴
- Layer 3: 전체 의도 (극찬)

학습 대상 여부

전통 머신러닝: Feature 고정, Parameter만 학습
딥러닝: Parameter 학습을 통해 Feature 표현도 간접 학습

핵심

모델에 “무엇을 볼 것인가” 제공
딥러닝: 각 Layer 출력도 Feature

전통 머신러닝 vs 딥러닝

전통 머신러닝: 사람이 Feature 설계 (고정)
딥러닝: Feature 자동 학습 (Parameter로 제어)

Parameter (파라미터)

모델이 학습으로 조정하는 내부 숫자 값

예시

감정점수 = (긍정단어 × a) + (부정단어 × b) + (느낌표 × c)

a = 0.5   ← 긍정단어: 양수 (점수 올림)
b = -0.8  ← 부정단어: 음수 (점수 낮춤)
c = 0.3   ← 느낌표: 약한 양수 (약간 긍정)

구성

가중치 (Weight)
편향 (Bias)

핵심

학습으로 조정됨 (최적화 대상)
Feature를 “어떻게 처리할지” 결정

크기

구분	Parameter 규모	예시
전통 머신러닝	10² ~ 10⁴	선형 회귀, SVM
CNN (딥러닝)	10⁵ ~ 10⁷	이미지넷 모델
Transformer	10⁸ ~ 10¹⁰	BERT, GPT-2
LLM	10¹¹ ~ 10¹³	GPT-3, GPT-4

Feature vs Parameter 한눈에

	Feature	Parameter
정의	의미있는 숫자 표현	학습 가능한 내부 값
생성 방식	데이터에서 계산	랜덤 초기화 후 학습으로 최적화
역할	무엇을 볼 것인가	어떻게 계산할 것인가
예시	[3, 0, 2] (긍정, 부정, 느낌표)	a=0.5, b=-0.8, c=0.3
위치	입력/중간 표현	모델 내부
학습 대상	전통 머신러닝: ✗딥러닝: 간접 ✓	✓ (직접 최적화)
비유	요리 재료	요리 레시피

관계

Feature (입력) × Parameter (가중치) = 출력 (예측)

학습: 출력 → 손실 계산 → Parameter 조정 → 반복
추론: 출력 = 최종 예측

학습 (Training)

데이터로 최적의 Parameter를 찾는 과정

랜덤 Parameter로 시작
Feature × Parameter = 예측
오차 계산 (틀린 정도)
역전파로 Parameter 조정
반복 (점점 정확해짐)

결과

학습된 모델 (구조 + 최적화된 Parameter)

딥러닝에서

Parameter 학습으로 Feature 표현도 함께 최적화됨

모델 (Model)

구조(Architecture) + 학습된 Parameter

모델 파일 (예: PyTorch .pt, TensorFlow .pb):
- 네트워크 구조 정의
- 학습된 Parameter 값들

예시

GPT-3 모델 = Transformer 구조 + 1,750억 개 Parameter = 700GB

추론 (Inference)

학습된 모델로 예측하는 과정

입력 Feature × 학습된 Parameter = 예측 결과

예시

새 리뷰: “음식 맛있어요!” → Feature 추출 → 모델로 계산 → “긍정 92%”
새 리뷰: “별로예요…” → Feature 추출 → 모델로 계산 → “부정 85%”

사용

새 입력 → 모델 → 예측

3. 전통 머신러닝 vs 딥러닝 비교

전통 머신러닝

Feature: 사람 설계 (고정)
학습: Parameter만
예시: 선형 회귀, SVM, 랜덤포레스트

딥러닝

Feature: 학습 중 자동 생성
학습: Parameter + Feature 동시
예시: CNN, RNN, Transformer, LLM

비교표

	전통 머신러닝	딥러닝
Feature	사람이 설계 (고정)	Parameter 학습으로 자동 학습
Parameter	자동 학습	자동 학습
파라미터 수	10² ~ 10⁴	10⁵ ~ 10¹³
계산량	적음	많음 (GPU 필요)
데이터 필요량	수천~수만	수백만~수조
학습 시간	분~시간	일~월
복잡도	단순 패턴	복잡한 패턴
전처리	필요	필요 (자동≠불필요)
해석 가능성	높음	상대적으로 낮음 (XAI로 개선 중)

4. 전체 요약

머신러닝 = 데이터로 모델 만들기

데이터 → Feature → Parameter 학습 → 모델 → 예측

전통 ML vs 딥러닝

전통 ML: Feature 사람 설계
딥러닝: Feature 자동 학습

발전 과정

2000년대: 전통 머신러닝

사람이 Feature 설계
Parameter 10² ~ 10⁴ 개
간단한 작업

2010년대: 딥러닝

Feature 자동 학습
Parameter 10⁵ ~ 10⁷ 개
이미지, 음성 인식 성공
GPU 필수

2020년대: LLM

초대규모 Parameter (10¹¹ ~ 10¹³)
언어 이해/생성
Pre-training + Fine-tuning
범용 AI의 시작

5. 실무 관점 정리

AI 도입 시 이해해야 할 것

전통 머신러닝을 선택하는 경우

정형 데이터 (표 형태)
데이터: 수천~수만 건
해석 가능성 중요
빠른 개발 필요
예: 집값 예측, 고객 이탈 예측

딥러닝을 선택하는 경우

비정형 데이터 (이미지, 음성, 텍스트)
데이터: 수십만 건 이상
복잡한 패턴
GPU 인프라 있음
예: 얼굴 인식, 음성 인식

LLM API 사용하는 경우

텍스트 처리
빠른 프로토타입
자체 모델 학습 불필요
예: 챗봇, 요약, 번역

준비 사항 체크리스트

데이터 충분한가? (양, 품질)
리소스 있는가? (GPU, 시간, 비용)
Feature 설계 가능한가? (전통 ML)
해석 가능성 필요한가?
실시간 응답 필요한가?

1. 머신러닝 전체 프로세스#

2. 핵심 용어 완전 정리#

데이터 (Data)#

예시#

역할#

분할 (Segmentation)#

데이터별 분할#

목적#

토큰 (Token)#

특징#

범위#

벡터화 (Vectorization)#

목적#

Feature 추출#

핵심#

Feature (특징)#

전통 머신러닝 예시 (감정 분석)#

딥러닝 예시 (감정 분석)#

학습 대상 여부#

핵심#

전통 머신러닝 vs 딥러닝#

Parameter (파라미터)#

예시#

구성#

핵심#

크기#

Feature vs Parameter 한눈에#

관계#

학습 (Training)#

결과#

딥러닝에서#

모델 (Model)#

예시#

추론 (Inference)#

예시#

사용#

3. 전통 머신러닝 vs 딥러닝 비교#

전통 머신러닝#

딥러닝#

비교표#

4. 전체 요약#

머신러닝 = 데이터로 모델 만들기#

전통 ML vs 딥러닝#

발전 과정#

2000년대: 전통 머신러닝#

2010년대: 딥러닝#

2020년대: LLM#

5. 실무 관점 정리#

AI 도입 시 이해해야 할 것#

전통 머신러닝을 선택하는 경우#

딥러닝을 선택하는 경우#

LLM API 사용하는 경우#

준비 사항 체크리스트#