LLM(Large Language Model)은 “다음 단어 예측"을 극한까지 잘하는 모델입니다. 이 단순한 원리로 대화, 요약, 번역, 코딩까지 가능합니다.

입력: "오늘 날씨가 정말"
LLM: "좋네요" (가장 자연스러운 다음 단어 선택)

LLM의 위치

AI 기술 계층도

AI
└─ 머신러닝
    ├─ 전통 머신러닝
    └─ 딥러닝
        └─ Transformer
            └─ LLM ← 여기

Multimodal 확장

최근에는 텍스트(LLM) + 이미지(Vision) + 음성(Audio)을 통합한 Multimodal AI(GPT-4V, Gemini)로 확장되고 있지만, 코어는 여전히 LLM입니다.


LLM의 핵심 특징

Large (대규모 Parameter)

규모

10¹¹ ~ 10¹³ 개

  • GPT-3: 1.75 × 10¹¹ 개 (700GB)
  • GPT-4: 추정 10¹² ~ 10¹³ 개
  • Claude 3.5: 비공개 (아마 수천억~조)

많을수록

  • 복잡한 패턴 학습
  • 미묘한 뉘앙스 이해
  • 추론 능력 향상

Language (언어 전용)

텍스트만 다룸

  • 입력: 텍스트
  • 처리: 토큰
  • 출력: 텍스트
  • 학습 데이터: 텍스트
  • 이미지/음성 모델과 구분되는 핵심

Model (학습된 Parameter)

머신러닝으로 학습된 결과물

  • 사람이 규칙을 짜지 않음
  • 데이터에서 스스로 패턴 학습
  • 사전학습: “다음 토큰 예측”
  • 미세조정: SFT + RLHF
  • 한번 학습하면 계속 사용
  • → 대화, 요약, 번역, 코딩 모두 가능

LLM 학습

학습 과정

━━━━━━━━━━━━━━━━━━━━━━━
 1단계: Pre-training (사전학습)
━━━━━━━━━━━━━━━━━━━━━━━

대규모 텍스트 데이터 (수조 토큰)
    ↓
토큰화
"안녕하세요" → ["안녕", "하세요"]
    ↓
임베딩 (Feature 추출)
[[0.2, -0.5, 0.8], [0.1, 0.3, -0.2]]
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 Transformer Layer 반복
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
[Layer 1] Feature → 다음 Feature
[Layer 2] Feature → 다음 Feature
...
[마지막 Layer] Feature → 최종 표현
    ↓
"다음 토큰 확률 예측" 반복 학습
    ↓
10¹¹ ~ 10¹³ 개 Parameter 최적화
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 사전학습 모델 완성
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 2단계: Fine-tuning (미세조정)
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
① Supervised Fine-tuning (SFT)
   - 고품질 대화 데이터로 학습
   - 지시 따르기 능력 향상
    ↓
② RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)
   - 사람이 "좋은 답변" 평가
   - 유용성, 안전성 향상
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 대화형 LLM 완성
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
GPT, Claude 등

학습 핵심

  • 기본: 다음 토큰 확률 예측 학습
  • 완성: SFT + RLHF로 대화형 모델 발전

LLM 추론

추론 과정

"오늘 날씨가"
    ↓
토큰화: ["오늘", "날씨", "가"]
    ↓
임베딩: Feature 추출
    ↓
수십~수백개 Layer 통과
(각 Layer마다 새로운 Feature 생성)
    ↓
다음 토큰 확률 분포 계산
"좋네요" (70%), "나쁘네요" (20%), "흐리네요" (8%), ...
    ↓
Sampling 전략에 따라 선택
    ↓
"좋네요" 선택

추론 메커니즘

  • 확률 분포 계산 후
  • Sampling 전략에 따라 토큰 선택
    • Temperature: 확률 분포 조절 값
    • 낮음 (0~0.5): 보수적 (높은 확률만)
    • 기본 (1.0): 균형
    • 높음 (1.5~2.0): 창의적 (다양한 선택)
    • top-k, top-p 등도 사용

LLM은 왜 똑똑할까?

Transformer 구조의 비밀

Transformer 란?

  • 2017년 등장한 딥러닝 구조
  • LLM의 핵심 기술
  • 문맥을 이해하는 능력이 탁월

핵심 능력: 문맥 파악 (Attention 메커니즘)

"철수는 학교에 갔다. 그는 친구를 만났다."
 ↑               ↑
 └─── 관계 파악 ───┘
  • 문장의 모든 단어 관계를 동시에 분석
  • “그는” 이 “철수” 를 가리킨다고 이해
  • 각 Layer 마다 Attention 메커니즘 적용

층층이 쌓인 학습 (Multi-layer 구조)

입력 텍스트
    ↓
[Layer 1] 간단한 패턴 (단어 조합)
    ↓
[Layer 2] 복잡한 패턴 (문법, 의미)
    ↓
[Layer 3] 추상적 개념 (의도, 감정)
    ↓
출력 텍스트

결과

  • 긴 문맥도 이해
  • 미묘한 뉘앙스 파악
  • 논리적 추론 가능

LLM이 잘하는 것

텍스트 기반 작업 전반에 강합니다. 문맥을 유지하면서 의도를 파악하는 능력이 핵심이라, 대화나 질문 답변에서 자연스러운 응답을 만들어냅니다. 요약, 번역, 형식 변환 같은 텍스트 변환 작업도 잘 처리하고, 코딩이나 단계별 분석 같은 논리적 추론도 가능합니다.


LLM의 한계

할루시네이션

가장 큰 문제입니다. 사실이 아닌 내용을 그럴듯하게 생성합니다.

질문: "2025년 노벨물리학상 수상자는?"
LLM: "김철수 박사입니다" (지어낸 답)

자신 없어도 확신하는 척하기 때문에, 중요한 사실은 반드시 검증해야 합니다.

지식 컷오프

학습 시점 이후 정보를 모릅니다. 검색 도구로 보완할 수 있지만 근본적 한계입니다.

그 외

  • 수학 계산 실수 가능 — 복잡한 계산은 코드/도구 사용이 안전
  • 같은 질문에 다른 답변, 긴 대화에서 앞뒤 모순
  • 학습 데이터의 편향 반영
  • API 호출마다 과금, 대량 사용 시 비용 부담