1. LLM이란 무엇인가?
정의
Large Language Model = 대규모 언어 모델
- 엄청난 양의 텍스트로 학습한
- 파라미터가 수백억~조 개인
- 언어를 이해하고 생성하는 AI 모델
본질
“다음 단어 예측"을 극한까지 잘하는 모델
입력: "오늘 날씨가 정말"
LLM: "좋네요" (가장 자연스러운 다음 단어 선택)
→ 이 단순한 원리로 대화, 요약, 번역, 코딩까지 가능
2. LLM = 딥러닝의 한 종류
AI 기술 계층도
AI
└─ 머신러닝
├─ 전통 머신러닝
└─ 딥러닝
└─ Transformer
└─ LLM ← 여기
LLM의 위치
- AI의 일부
- 딥러닝의 일부
- Transformer 기반
- 현재 가장 주목받는 분야
Multimodal 확장
최근 트렌드:
LLM (텍스트)
+
Vision (이미지)
+
Audio (음성)
=
Multimodal AI (GPT-4V, Gemini)
→ 하지만 코어는 여전히 LLM
3. LLM의 핵심 특징
Large (대규모 Parameter)
규모: 10¹¹ ~ 10¹³ 개
- GPT-3: 1.75 × 10¹¹ 개 (700GB)
- GPT-4: 추정 10¹² ~ 10¹³ 개
- Claude 3.5: 비공개 (아마 수천억~조)
많을수록:
- 복잡한 패턴 학습
- 미묘한 뉘앙스 이해
- 추론 능력 향상
Language (언어 전용)
텍스트만 다룸:
- 입력: 텍스트
- 처리: 토큰
- 출력: 텍스트
- 학습 데이터: 텍스트
- 이미지/음성 모델과 구분되는 핵심
Model (학습된 Parameter)
머신러닝으로 학습된 결과물:
- 사람이 규칙을 짜지 않음
- 데이터에서 스스로 패턴 학습
- 사전학습: “다음 토큰 예측”
- 미세조정: SFT + RLHF
- 한번 학습하면 계속 사용
- → 대화, 요약, 번역, 코딩 모두 가능
4. LLM 학습
학습 과정
━━━━━━━━━━━━━━━━━━━━━━━
1단계: Pre-training (사전학습)
━━━━━━━━━━━━━━━━━━━━━━━
대규모 텍스트 데이터 (수조 토큰)
↓
토큰화
"안녕하세요" → ["안녕", "하세요"]
↓
임베딩 (Feature 추출)
[[0.2, -0.5, 0.8], [0.1, 0.3, -0.2]]
↓
━━━━━━━━━━━━━━━━━━━━━━━
Transformer Layer 반복
━━━━━━━━━━━━━━━━━━━━━━━
↓
[Layer 1] Feature → 다음 Feature
[Layer 2] Feature → 다음 Feature
...
[마지막 Layer] Feature → 최종 표현
↓
"다음 토큰 확률 예측" 반복 학습
↓
10¹¹ ~ 10¹³ 개 Parameter 최적화
↓
━━━━━━━━━━━━━━━━━━━━━━━
사전학습 모델 완성
━━━━━━━━━━━━━━━━━━━━━━━
↓
━━━━━━━━━━━━━━━━━━━━━━━
2단계: Fine-tuning (미세조정)
━━━━━━━━━━━━━━━━━━━━━━━
↓
① Supervised Fine-tuning (SFT)
- 고품질 대화 데이터로 학습
- 지시 따르기 능력 향상
↓
② RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)
- 사람이 "좋은 답변" 평가
- 유용성, 안전성 향상
↓
━━━━━━━━━━━━━━━━━━━━━━━
대화형 LLM 완성
━━━━━━━━━━━━━━━━━━━━━━━
↓
GPT, Claude 등
학습 핵심
- 기본: 다음 토큰 확률 예측 학습
- 완성: SFT + RLHF로 대화형 모델 발전
5. LLM 추론
추론 과정
"오늘 날씨가"
↓
토큰화: ["오늘", "날씨", "가"]
↓
임베딩: Feature 추출
↓
수십~수백개 Layer 통과
(각 Layer마다 새로운 Feature 생성)
↓
다음 토큰 확률 분포 계산
"좋네요" (70%), "나쁘네요" (20%), "흐리네요" (8%), ...
↓
Sampling 전략에 따라 선택
↓
"좋네요" 선택
추론 메커니즘
- 확률 분포 계산 후
- Sampling 전략에 따라 토큰 선택
- Temperature: 확률 분포 조절 값
- 낮음 (0~0.5): 보수적 (높은 확률만)
- 기본 (1.0): 균형
- 높음 (1.5~2.0): 창의적 (다양한 선택)
- top-k, top-p 등도 사용
6. LLM은 왜 똑똑할까?
Transformer 구조의 비밀
Transformer 란?
- 2017년 등장한 딥러닝 구조
- LLM의 핵심 기술
- 문맥을 이해하는 능력이 탁월
핵심 능력: 문맥 파악 (Attention 메커니즘)
"철수는 학교에 갔다. 그는 친구를 만났다."
↑ ↑
└─── 관계 파악 ───┘
- 문장의 모든 단어 관계를 동시에 분석
- “그는” 이 “철수” 를 가리킨다고 이해
- 각 Layer 마다 Attention 메커니즘 적용
층층이 쌓인 학습 (Multi-layer 구조)
입력 텍스트
↓
[Layer 1] 간단한 패턴 (단어 조합)
↓
[Layer 2] 복잡한 패턴 (문법, 의미)
↓
[Layer 3] 추상적 개념 (의도, 감정)
↓
출력 텍스트
결과
- 긴 문맥도 이해
- 미묘한 뉘앙스 파악
- 논리적 추론 가능
7. LLM이 잘하는 것
자연스러운 대화
- 문맥 유지
- 의도 파악
- 자연스러운 응답
텍스트 생성/변환
- 요약
- 번역
- 다시 쓰기
- 형식 변환
지식 활용
- 질문 답변
- 설명
- 조언
추론
- 논리적 사고
- 단계별 분석
- 문제 해결
창작
- 글쓰기
- 아이디어 발산
- 스토리텔링
코딩
- 코드 생성
- 버그 수정
- 설명
8. LLM의 한계
할루시네이션 (가장 큰 문제)
사실이 아닌 내용을 그럴듯하게 생성
질문: "2025년 노벨물리학상 수상자는?"
LLM: "김철수 박사입니다" (지어낸 답)
→ 자신 없어도 확신하는 척
→ 중요한 사실은 반드시 검증 필요
지식 컷오프
학습 시점 이후 정보 모름
- Claude: 2025년 1월까지만 앎
- 최신 뉴스/사건 모름
- 검색 도구로 보완 가능
계산 약함
수학 계산 실수 가능
질문: "123456 × 789 = ?"
LLM: 틀릴 수 있음
→ 복잡한 계산은 코드/도구 사용
일관성 문제
- 같은 질문에 다른 답변
- 긴 대화에서 앞뒤 모순
편향
- 학습 데이터의 편향 반영
- 문화/성별/인종 편견 가능
비용
- API 호출마다 과금
- 대량 사용 시 비용 부담
9. 핵심 요약
LLM이란?
- 엄청난 텍스트로 학습한, 언어를 이해하고 생성하는 대규모 AI 모델
- 딥러닝 > Transformer 기반
핵심 특징
- Large: 수백억~조 개 파라미터
- Language: 텍스트만 처리
- Model: 학습된 Parameter
작동 원리
- 다음 토큰 확률 예측이 핵심
- Transformer 구조 (Attention 메커니즘)
- 토큰 단위 처리
학습 과정
- Pre-training: 다음 토큰 예측 학습
- Fine-tuning: SFT + RLHF로 대화형 발전
잘하는 것
- 대화, 요약, 번역, 추론, 창작, 코딩
한계
- 할루시네이션, 지식 컷오프, 계산 약함, 비용