1. LLM이란 무엇인가?

정의

Large Language Model = 대규모 언어 모델

  • 엄청난 양의 텍스트로 학습한
  • 파라미터가 수백억~조 개인
  • 언어를 이해하고 생성하는 AI 모델

본질

“다음 단어 예측"을 극한까지 잘하는 모델

입력: "오늘 날씨가 정말"
LLM: "좋네요" (가장 자연스러운 다음 단어 선택)

→ 이 단순한 원리로 대화, 요약, 번역, 코딩까지 가능


2. LLM = 딥러닝의 한 종류

AI 기술 계층도

AI
└─ 머신러닝
    ├─ 전통 머신러닝
    └─ 딥러닝
        └─ Transformer
            └─ LLM ← 여기

LLM의 위치

  • AI의 일부
  • 딥러닝의 일부
  • Transformer 기반
  • 현재 가장 주목받는 분야

Multimodal 확장

최근 트렌드:

LLM (텍스트)
    +
Vision (이미지)
    +
Audio (음성)
    =
Multimodal AI (GPT-4V, Gemini)

→ 하지만 코어는 여전히 LLM


3. LLM의 핵심 특징

Large (대규모 Parameter)

규모: 10¹¹ ~ 10¹³ 개

  • GPT-3: 1.75 × 10¹¹ 개 (700GB)
  • GPT-4: 추정 10¹² ~ 10¹³ 개
  • Claude 3.5: 비공개 (아마 수천억~조)

많을수록:

  • 복잡한 패턴 학습
  • 미묘한 뉘앙스 이해
  • 추론 능력 향상

Language (언어 전용)

텍스트만 다룸:

  • 입력: 텍스트
  • 처리: 토큰
  • 출력: 텍스트
  • 학습 데이터: 텍스트
  • 이미지/음성 모델과 구분되는 핵심

Model (학습된 Parameter)

머신러닝으로 학습된 결과물:

  • 사람이 규칙을 짜지 않음
  • 데이터에서 스스로 패턴 학습
  • 사전학습: “다음 토큰 예측”
  • 미세조정: SFT + RLHF
  • 한번 학습하면 계속 사용
  • → 대화, 요약, 번역, 코딩 모두 가능

4. LLM 학습

학습 과정

━━━━━━━━━━━━━━━━━━━━━━━
 1단계: Pre-training (사전학습)
━━━━━━━━━━━━━━━━━━━━━━━

대규모 텍스트 데이터 (수조 토큰)
    ↓
토큰화
"안녕하세요" → ["안녕", "하세요"]
    ↓
임베딩 (Feature 추출)
[[0.2, -0.5, 0.8], [0.1, 0.3, -0.2]]
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 Transformer Layer 반복
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
[Layer 1] Feature → 다음 Feature
[Layer 2] Feature → 다음 Feature
...
[마지막 Layer] Feature → 최종 표현
    ↓
"다음 토큰 확률 예측" 반복 학습
    ↓
10¹¹ ~ 10¹³ 개 Parameter 최적화
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 사전학습 모델 완성
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 2단계: Fine-tuning (미세조정)
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
① Supervised Fine-tuning (SFT)
   - 고품질 대화 데이터로 학습
   - 지시 따르기 능력 향상
    ↓
② RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)
   - 사람이 "좋은 답변" 평가
   - 유용성, 안전성 향상
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 대화형 LLM 완성
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
GPT, Claude 등

학습 핵심

  • 기본: 다음 토큰 확률 예측 학습
  • 완성: SFT + RLHF로 대화형 모델 발전

5. LLM 추론

추론 과정

"오늘 날씨가"
    ↓
토큰화: ["오늘", "날씨", "가"]
    ↓
임베딩: Feature 추출
    ↓
수십~수백개 Layer 통과
(각 Layer마다 새로운 Feature 생성)
    ↓
다음 토큰 확률 분포 계산
"좋네요" (70%), "나쁘네요" (20%), "흐리네요" (8%), ...
    ↓
Sampling 전략에 따라 선택
    ↓
"좋네요" 선택

추론 메커니즘

  • 확률 분포 계산 후
  • Sampling 전략에 따라 토큰 선택
    • Temperature: 확률 분포 조절 값
    • 낮음 (0~0.5): 보수적 (높은 확률만)
    • 기본 (1.0): 균형
    • 높음 (1.5~2.0): 창의적 (다양한 선택)
    • top-k, top-p 등도 사용

6. LLM은 왜 똑똑할까?

Transformer 구조의 비밀

Transformer 란?

  • 2017년 등장한 딥러닝 구조
  • LLM의 핵심 기술
  • 문맥을 이해하는 능력이 탁월

핵심 능력: 문맥 파악 (Attention 메커니즘)

"철수는 학교에 갔다. 그는 친구를 만났다."
 ↑               ↑
 └─── 관계 파악 ───┘
  • 문장의 모든 단어 관계를 동시에 분석
  • “그는” 이 “철수” 를 가리킨다고 이해
  • 각 Layer 마다 Attention 메커니즘 적용

층층이 쌓인 학습 (Multi-layer 구조)

입력 텍스트
    ↓
[Layer 1] 간단한 패턴 (단어 조합)
    ↓
[Layer 2] 복잡한 패턴 (문법, 의미)
    ↓
[Layer 3] 추상적 개념 (의도, 감정)
    ↓
출력 텍스트

결과

  • 긴 문맥도 이해
  • 미묘한 뉘앙스 파악
  • 논리적 추론 가능

7. LLM이 잘하는 것

자연스러운 대화

  • 문맥 유지
  • 의도 파악
  • 자연스러운 응답

텍스트 생성/변환

  • 요약
  • 번역
  • 다시 쓰기
  • 형식 변환

지식 활용

  • 질문 답변
  • 설명
  • 조언

추론

  • 논리적 사고
  • 단계별 분석
  • 문제 해결

창작

  • 글쓰기
  • 아이디어 발산
  • 스토리텔링

코딩

  • 코드 생성
  • 버그 수정
  • 설명

8. LLM의 한계

할루시네이션 (가장 큰 문제)

사실이 아닌 내용을 그럴듯하게 생성

질문: "2025년 노벨물리학상 수상자는?"
LLM: "김철수 박사입니다" (지어낸 답)

→ 자신 없어도 확신하는 척
→ 중요한 사실은 반드시 검증 필요

지식 컷오프

학습 시점 이후 정보 모름

  • Claude: 2025년 1월까지만 앎
  • 최신 뉴스/사건 모름
  • 검색 도구로 보완 가능

계산 약함

수학 계산 실수 가능

질문: "123456 × 789 = ?"
LLM: 틀릴 수 있음

→ 복잡한 계산은 코드/도구 사용

일관성 문제

  • 같은 질문에 다른 답변
  • 긴 대화에서 앞뒤 모순

편향

  • 학습 데이터의 편향 반영
  • 문화/성별/인종 편견 가능

비용

  • API 호출마다 과금
  • 대량 사용 시 비용 부담

9. 핵심 요약

LLM이란?

  • 엄청난 텍스트로 학습한, 언어를 이해하고 생성하는 대규모 AI 모델
  • 딥러닝 > Transformer 기반

핵심 특징

  • Large: 수백억~조 개 파라미터
  • Language: 텍스트만 처리
  • Model: 학습된 Parameter

작동 원리

  • 다음 토큰 확률 예측이 핵심
  • Transformer 구조 (Attention 메커니즘)
  • 토큰 단위 처리

학습 과정

  • Pre-training: 다음 토큰 예측 학습
  • Fine-tuning: SFT + RLHF로 대화형 발전

잘하는 것

  • 대화, 요약, 번역, 추론, 창작, 코딩

한계

  • 할루시네이션, 지식 컷오프, 계산 약함, 비용