LLM 개념 정리

1. LLM이란 무엇인가?

정의

Large Language Model = 대규모 언어 모델

엄청난 양의 텍스트로 학습한
파라미터가 수백억~조 개인
언어를 이해하고 생성하는 AI 모델

본질

“다음 단어 예측"을 극한까지 잘하는 모델

입력: "오늘 날씨가 정말"
LLM: "좋네요" (가장 자연스러운 다음 단어 선택)

→ 이 단순한 원리로 대화, 요약, 번역, 코딩까지 가능

2. LLM = 딥러닝의 한 종류

AI 기술 계층도

AI
└─ 머신러닝
    ├─ 전통 머신러닝
    └─ 딥러닝
        └─ Transformer
            └─ LLM ← 여기

LLM의 위치

AI의 일부
딥러닝의 일부
Transformer 기반
현재 가장 주목받는 분야

Multimodal 확장

최근 트렌드:

LLM (텍스트)
    +
Vision (이미지)
    +
Audio (음성)
    =
Multimodal AI (GPT-4V, Gemini)

→ 하지만 코어는 여전히 LLM

3. LLM의 핵심 특징

Large (대규모 Parameter)

규모: 10¹¹ ~ 10¹³ 개

GPT-3: 1.75 × 10¹¹ 개 (700GB)
GPT-4: 추정 10¹² ~ 10¹³ 개
Claude 3.5: 비공개 (아마 수천억~조)

많을수록:

복잡한 패턴 학습
미묘한 뉘앙스 이해
추론 능력 향상

Language (언어 전용)

텍스트만 다룸:

입력: 텍스트
처리: 토큰
출력: 텍스트
학습 데이터: 텍스트
이미지/음성 모델과 구분되는 핵심

Model (학습된 Parameter)

머신러닝으로 학습된 결과물:

사람이 규칙을 짜지 않음
데이터에서 스스로 패턴 학습
사전학습: “다음 토큰 예측”
미세조정: SFT + RLHF
한번 학습하면 계속 사용
→ 대화, 요약, 번역, 코딩 모두 가능

4. LLM 학습

학습 과정

━━━━━━━━━━━━━━━━━━━━━━━
 1단계: Pre-training (사전학습)
━━━━━━━━━━━━━━━━━━━━━━━

대규모 텍스트 데이터 (수조 토큰)
    ↓
토큰화
"안녕하세요" → ["안녕", "하세요"]
    ↓
임베딩 (Feature 추출)
[[0.2, -0.5, 0.8], [0.1, 0.3, -0.2]]
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 Transformer Layer 반복
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
[Layer 1] Feature → 다음 Feature
[Layer 2] Feature → 다음 Feature
...
[마지막 Layer] Feature → 최종 표현
    ↓
"다음 토큰 확률 예측" 반복 학습
    ↓
10¹¹ ~ 10¹³ 개 Parameter 최적화
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 사전학습 모델 완성
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 2단계: Fine-tuning (미세조정)
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
① Supervised Fine-tuning (SFT)
   - 고품질 대화 데이터로 학습
   - 지시 따르기 능력 향상
    ↓
② RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)
   - 사람이 "좋은 답변" 평가
   - 유용성, 안전성 향상
    ↓
━━━━━━━━━━━━━━━━━━━━━━━
 대화형 LLM 완성
━━━━━━━━━━━━━━━━━━━━━━━
    ↓
GPT, Claude 등

학습 핵심

기본: 다음 토큰 확률 예측 학습
완성: SFT + RLHF로 대화형 모델 발전

5. LLM 추론

추론 과정

"오늘 날씨가"
    ↓
토큰화: ["오늘", "날씨", "가"]
    ↓
임베딩: Feature 추출
    ↓
수십~수백개 Layer 통과
(각 Layer마다 새로운 Feature 생성)
    ↓
다음 토큰 확률 분포 계산
"좋네요" (70%), "나쁘네요" (20%), "흐리네요" (8%), ...
    ↓
Sampling 전략에 따라 선택
    ↓
"좋네요" 선택

추론 메커니즘

확률 분포 계산 후
Sampling 전략에 따라 토큰 선택
- Temperature: 확률 분포 조절 값
- 낮음 (0~0.5): 보수적 (높은 확률만)
- 기본 (1.0): 균형
- 높음 (1.5~2.0): 창의적 (다양한 선택)
- top-k, top-p 등도 사용

6. LLM은 왜 똑똑할까?

Transformer 구조의 비밀

Transformer 란?

2017년 등장한 딥러닝 구조
LLM의 핵심 기술
문맥을 이해하는 능력이 탁월

핵심 능력: 문맥 파악 (Attention 메커니즘)

"철수는 학교에 갔다. 그는 친구를 만났다."
 ↑               ↑
 └─── 관계 파악 ───┘

문장의 모든 단어 관계를 동시에 분석
“그는” 이 “철수” 를 가리킨다고 이해
각 Layer 마다 Attention 메커니즘 적용

층층이 쌓인 학습 (Multi-layer 구조)

입력 텍스트
    ↓
[Layer 1] 간단한 패턴 (단어 조합)
    ↓
[Layer 2] 복잡한 패턴 (문법, 의미)
    ↓
[Layer 3] 추상적 개념 (의도, 감정)
    ↓
출력 텍스트

결과

긴 문맥도 이해
미묘한 뉘앙스 파악
논리적 추론 가능

7. LLM이 잘하는 것

자연스러운 대화

문맥 유지
의도 파악
자연스러운 응답

텍스트 생성/변환

요약
번역
다시 쓰기
형식 변환

지식 활용

질문 답변
설명
조언

추론

논리적 사고
단계별 분석
문제 해결

창작

글쓰기
아이디어 발산
스토리텔링

코딩

코드 생성
버그 수정
설명

8. LLM의 한계

할루시네이션 (가장 큰 문제)

사실이 아닌 내용을 그럴듯하게 생성

질문: "2025년 노벨물리학상 수상자는?"
LLM: "김철수 박사입니다" (지어낸 답)

→ 자신 없어도 확신하는 척
→ 중요한 사실은 반드시 검증 필요

지식 컷오프

학습 시점 이후 정보 모름

Claude: 2025년 1월까지만 앎
최신 뉴스/사건 모름
검색 도구로 보완 가능

계산 약함

수학 계산 실수 가능

질문: "123456 × 789 = ?"
LLM: 틀릴 수 있음

→ 복잡한 계산은 코드/도구 사용

일관성 문제

같은 질문에 다른 답변
긴 대화에서 앞뒤 모순

편향

학습 데이터의 편향 반영
문화/성별/인종 편견 가능

비용

API 호출마다 과금
대량 사용 시 비용 부담

9. 핵심 요약

LLM이란?

엄청난 텍스트로 학습한, 언어를 이해하고 생성하는 대규모 AI 모델
딥러닝 > Transformer 기반

핵심 특징

Large: 수백억~조 개 파라미터
Language: 텍스트만 처리
Model: 학습된 Parameter

작동 원리

다음 토큰 확률 예측이 핵심
Transformer 구조 (Attention 메커니즘)
토큰 단위 처리

학습 과정

Pre-training: 다음 토큰 예측 학습
Fine-tuning: SFT + RLHF로 대화형 발전

잘하는 것

대화, 요약, 번역, 추론, 창작, 코딩

한계

할루시네이션, 지식 컷오프, 계산 약함, 비용

1. LLM이란 무엇인가?#

정의#

본질#

2. LLM = 딥러닝의 한 종류#

AI 기술 계층도#

LLM의 위치#

Multimodal 확장#

3. LLM의 핵심 특징#

Large (대규모 Parameter)#

Language (언어 전용)#

Model (학습된 Parameter)#

4. LLM 학습#

학습 과정#

학습 핵심#

5. LLM 추론#

추론 과정#

추론 메커니즘#

6. LLM은 왜 똑똑할까?#

Transformer 구조의 비밀#

Transformer 란?#

핵심 능력: 문맥 파악 (Attention 메커니즘)#

층층이 쌓인 학습 (Multi-layer 구조)#

결과#

7. LLM이 잘하는 것#

자연스러운 대화#

텍스트 생성/변환#

지식 활용#

추론#

창작#

코딩#

8. LLM의 한계#

할루시네이션 (가장 큰 문제)#

지식 컷오프#

계산 약함#

일관성 문제#

편향#

비용#

9. 핵심 요약#

LLM이란?#

핵심 특징#

작동 원리#

학습 과정#

잘하는 것#

한계#

1. LLM이란 무엇인가?

정의

본질

2. LLM = 딥러닝의 한 종류

AI 기술 계층도

LLM의 위치

Multimodal 확장

3. LLM의 핵심 특징

Large (대규모 Parameter)

Language (언어 전용)

Model (학습된 Parameter)

4. LLM 학습

학습 과정

학습 핵심

5. LLM 추론

추론 과정

추론 메커니즘

6. LLM은 왜 똑똑할까?

Transformer 구조의 비밀

Transformer 란?

핵심 능력: 문맥 파악 (Attention 메커니즘)

층층이 쌓인 학습 (Multi-layer 구조)

결과

7. LLM이 잘하는 것

자연스러운 대화

텍스트 생성/변환

지식 활용

추론

창작

코딩

8. LLM의 한계

할루시네이션 (가장 큰 문제)

지식 컷오프

계산 약함

일관성 문제

편향

비용

9. 핵심 요약

LLM이란?

핵심 특징

작동 원리

학습 과정

잘하는 것

한계