LLM(Large Language Model)은 “다음 단어 예측"을 극한까지 잘하는 모델입니다. 이 단순한 원리로 대화, 요약, 번역, 코딩까지 가능합니다.
입력: "오늘 날씨가 정말"
LLM: "좋네요" (가장 자연스러운 다음 단어 선택)
LLM의 위치
AI 기술 계층도
AI
└─ 머신러닝
├─ 전통 머신러닝
└─ 딥러닝
└─ Transformer
└─ LLM ← 여기
Multimodal 확장
최근에는 텍스트(LLM) + 이미지(Vision) + 음성(Audio)을 통합한 Multimodal AI(GPT-4V, Gemini)로 확장되고 있지만, 코어는 여전히 LLM입니다.
LLM의 핵심 특징
Large (대규모 Parameter)
규모
10¹¹ ~ 10¹³ 개
- GPT-3: 1.75 × 10¹¹ 개 (700GB)
- GPT-4: 추정 10¹² ~ 10¹³ 개
- Claude 3.5: 비공개 (아마 수천억~조)
많을수록
- 복잡한 패턴 학습
- 미묘한 뉘앙스 이해
- 추론 능력 향상
Language (언어 전용)
텍스트만 다룸
- 입력: 텍스트
- 처리: 토큰
- 출력: 텍스트
- 학습 데이터: 텍스트
- 이미지/음성 모델과 구분되는 핵심
Model (학습된 Parameter)
머신러닝으로 학습된 결과물
- 사람이 규칙을 짜지 않음
- 데이터에서 스스로 패턴 학습
- 사전학습: “다음 토큰 예측”
- 미세조정: SFT + RLHF
- 한번 학습하면 계속 사용
- → 대화, 요약, 번역, 코딩 모두 가능
LLM 학습
학습 과정
━━━━━━━━━━━━━━━━━━━━━━━
1단계: Pre-training (사전학습)
━━━━━━━━━━━━━━━━━━━━━━━
대규모 텍스트 데이터 (수조 토큰)
↓
토큰화
"안녕하세요" → ["안녕", "하세요"]
↓
임베딩 (Feature 추출)
[[0.2, -0.5, 0.8], [0.1, 0.3, -0.2]]
↓
━━━━━━━━━━━━━━━━━━━━━━━
Transformer Layer 반복
━━━━━━━━━━━━━━━━━━━━━━━
↓
[Layer 1] Feature → 다음 Feature
[Layer 2] Feature → 다음 Feature
...
[마지막 Layer] Feature → 최종 표현
↓
"다음 토큰 확률 예측" 반복 학습
↓
10¹¹ ~ 10¹³ 개 Parameter 최적화
↓
━━━━━━━━━━━━━━━━━━━━━━━
사전학습 모델 완성
━━━━━━━━━━━━━━━━━━━━━━━
↓
━━━━━━━━━━━━━━━━━━━━━━━
2단계: Fine-tuning (미세조정)
━━━━━━━━━━━━━━━━━━━━━━━
↓
① Supervised Fine-tuning (SFT)
- 고품질 대화 데이터로 학습
- 지시 따르기 능력 향상
↓
② RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)
- 사람이 "좋은 답변" 평가
- 유용성, 안전성 향상
↓
━━━━━━━━━━━━━━━━━━━━━━━
대화형 LLM 완성
━━━━━━━━━━━━━━━━━━━━━━━
↓
GPT, Claude 등
학습 핵심
- 기본: 다음 토큰 확률 예측 학습
- 완성: SFT + RLHF로 대화형 모델 발전
LLM 추론
추론 과정
"오늘 날씨가"
↓
토큰화: ["오늘", "날씨", "가"]
↓
임베딩: Feature 추출
↓
수십~수백개 Layer 통과
(각 Layer마다 새로운 Feature 생성)
↓
다음 토큰 확률 분포 계산
"좋네요" (70%), "나쁘네요" (20%), "흐리네요" (8%), ...
↓
Sampling 전략에 따라 선택
↓
"좋네요" 선택
추론 메커니즘
- 확률 분포 계산 후
- Sampling 전략에 따라 토큰 선택
- Temperature: 확률 분포 조절 값
- 낮음 (0~0.5): 보수적 (높은 확률만)
- 기본 (1.0): 균형
- 높음 (1.5~2.0): 창의적 (다양한 선택)
- top-k, top-p 등도 사용
LLM은 왜 똑똑할까?
Transformer 구조의 비밀
Transformer 란?
- 2017년 등장한 딥러닝 구조
- LLM의 핵심 기술
- 문맥을 이해하는 능력이 탁월
핵심 능력: 문맥 파악 (Attention 메커니즘)
"철수는 학교에 갔다. 그는 친구를 만났다."
↑ ↑
└─── 관계 파악 ───┘
- 문장의 모든 단어 관계를 동시에 분석
- “그는” 이 “철수” 를 가리킨다고 이해
- 각 Layer 마다 Attention 메커니즘 적용
층층이 쌓인 학습 (Multi-layer 구조)
입력 텍스트
↓
[Layer 1] 간단한 패턴 (단어 조합)
↓
[Layer 2] 복잡한 패턴 (문법, 의미)
↓
[Layer 3] 추상적 개념 (의도, 감정)
↓
출력 텍스트
결과
- 긴 문맥도 이해
- 미묘한 뉘앙스 파악
- 논리적 추론 가능
LLM이 잘하는 것
텍스트 기반 작업 전반에 강합니다. 문맥을 유지하면서 의도를 파악하는 능력이 핵심이라, 대화나 질문 답변에서 자연스러운 응답을 만들어냅니다. 요약, 번역, 형식 변환 같은 텍스트 변환 작업도 잘 처리하고, 코딩이나 단계별 분석 같은 논리적 추론도 가능합니다.
LLM의 한계
할루시네이션
가장 큰 문제입니다. 사실이 아닌 내용을 그럴듯하게 생성합니다.
질문: "2025년 노벨물리학상 수상자는?"
LLM: "김철수 박사입니다" (지어낸 답)
자신 없어도 확신하는 척하기 때문에, 중요한 사실은 반드시 검증해야 합니다.
지식 컷오프
학습 시점 이후 정보를 모릅니다. 검색 도구로 보완할 수 있지만 근본적 한계입니다.
그 외
- 수학 계산 실수 가능 — 복잡한 계산은 코드/도구 사용이 안전
- 같은 질문에 다른 답변, 긴 대화에서 앞뒤 모순
- 학습 데이터의 편향 반영
- API 호출마다 과금, 대량 사용 시 비용 부담