들어가며
2026년 4월 5일, Meta가 Llama 4를 공개했다. Google Gemma 4 출시(4월 2일) 불과 3일 만이다. Google Gemma 4 완벽 정리 먼저 보기 Llama 시리즈 최초로 MoE(Mixture of Experts) 아키텍처를 도입했고 Google Gemma 모델의 역사와 진화, Scout 모델은 10M(천만) 토큰 컨텍스트 윈도우라는 업계 최대 기록을 세웠다.
이 글에서는 Llama 4의 두 공개 모델 Scout와 Maverick, 그리고 미공개 Behemoth의 아키텍처, 성능, 실전 활용법을 정리한다.
1. 모델 라인업
| 모델 | 활성 파라미터 | 총 파라미터 | 전문가 수 | 컨텍스트 (IT) | 특징 |
|---|---|---|---|---|---|
| Scout | 17B | ~109B | 16 | 10M | 단일 H100 GPU 가능 |
| Maverick | 17B | ~400B | 128 | 1M | GPT-4o급 성능 |
| Behemoth | 미공개 | 미공개 | 미공개 | 미공개 | 교사 모델 (비공개) |
두 모델 모두 활성 파라미터는 17B로 동일하지만, 전문가 수(16 vs 128)와 총 파라미터(109B vs 400B)에서 차이가 난다. Maverick은 Behemoth로부터 공동 증류(Co-distillation)되어 작지만 강력하다.
2. 아키텍처 혁신
Llama 4는 단순히 모델을 키운 것이 아니라, 여러 핵심 아키텍처 혁신을 도입했다.
2-1. iRoPE (Interleaved RoPE)
Llama 4의 가장 독특한 설계. 매 4개 레이어 중 1개는 NoPE(No Positional Encoding) 레이어로, 위치 인코딩 없이 전체 컨텍스트에 대한 풀 어텐션을 수행한다.
# iRoPE 구조 (4개 레이어 기준)
Layer 1: RoPE + Chunked Attention (8K 블록)
Layer 2: RoPE + Chunked Attention (8K 블록)
Layer 3: RoPE + Chunked Attention (8K 블록)
Layer 4: NoPE + Full Causal Mask (전체 컨텍스트)
→ NoPE 레이어가 긴 컨텍스트 연결을 담당
→ RoPE 레이어가 로컬 패턴을 담당
이 설계 덕분에 Scout은 10M 토큰이라는 초장문 컨텍스트를 처리할 수 있다.
2-2. Chunked Attention
RoPE 레이어에서는 컨텍스트를 8,192 토큰 단위 청크로 분할하여 어텐션을 수행한다. 메모리 효율적인 슬라이딩 윈도우 방식.
# Chunked Attention 시각화 (청크 크기 3 예시)
'What' : ■ ⬚ ⬚ ⬚ ⬚ ⬚ (청크 1)
'is' : ■ ■ ⬚ ⬚ ⬚ ⬚ (청크 1)
'chunked' : ■ ■ ■ ⬚ ⬚ ⬚ (청크 1)
'attention' : ⬚ ⬚ ⬚ ■ ⬚ ⬚ (청크 2)
'really' : ⬚ ⬚ ⬚ ■ ■ ⬚ (청크 2)
'?' : ⬚ ⬚ ⬚ ■ ■ ■ (청크 2)
→ 각 토큰은 자기 청크 내부만 참조
→ NoPE 레이어에서 청크 간 연결
2-3. Attention Temperature Tuning
긴 시퀀스에서 어텐션 확률이 희석되는 문제를 해결하기 위해, NoPE 레이어에서 스케일드 소프트맥스를 적용. Scout의 10M 컨텍스트를 가능케 한 핵심 기술.
2-4. MoE 인터리빙
| 모델 | MoE 구조 | 설명 |
|---|---|---|
| Scout | Full MoE | 모든 레이어가 MoE (16 전문가) |
| Maverick | MoE + Dense 교번 | 50% MoE + 50% Dense 레이어 (128 전문가) |
2-5. Co-distillation
Maverick은 Behemoth(초대형 교사 모델)로부터 학습하며 훈련된다. 학생 모델과 교사 모델의 로짓을 동적 가중치로 결합하는 방식. 이 덕분에 17B 활성 파라미터만으로도 GPT-4o급 성능을 달성했다.
3. 벤치마크 성능
추론 및 지식
| 벤치마크 | Scout | Maverick | Llama 3.1 405B | GPT-4o |
|---|---|---|---|---|
| MMLU Pro | 74.3 | 80.5 | 73.4 | - |
| GPQA Diamond | 57.2 | 69.8 | 49.0 | - |
| MATH-500 | - | - | - | - |
코딩
| 벤치마크 | Scout | Maverick | Llama 3.3 70B |
|---|---|---|---|
| LiveCodeBench | 32.8 | 43.4 | 33.3 |
| MBPP | 67.8 | 77.6 | - |
멀티모달 (이미지)
| 벤치마크 | Scout | Maverick | 설명 |
|---|---|---|---|
| MMMU | 73.4 | 73.4 | 이미지 추론 |
| ChartQA | 90.0 | - | 차트 이해 |
| DocVQA | 94.4 | 94.4 | 문서 이해 |
Scout은 활성 17B만으로 Llama 3.1 405B에 필적하는 성능을 보여준다. Maverick은 GPT-4o와 Gemini 2.0 Flash를 능가한다.
4. Llama 4 vs Gemma 4 비교
같은 주에 출시된 두 모델을 비교해보자.
| 항목 | Llama 4 Scout | Llama 4 Maverick | Gemma 4 31B | Gemma 4 26B MoE |
|---|---|---|---|---|
| 활성 파라미터 | 17B | 17B | 30.7B | 3.8B |
| 총 파라미터 | ~109B | ~400B | 30.7B | 25.2B |
| 컨텍스트 | 10M | 1M | 256K | 256K |
| 멀티모달 | 텍스트+이미지 | 텍스트+이미지 | 텍스트+이미지+비디오 | 텍스트+이미지+비디오 |
| 오디오 | X | X | E2B/E4B만 | X |
| 사고 모드 | X | X | O | O |
| 라이선스 | Llama Community License | Apache 2.0 | ||
| 온디바이스 | 단일 H100 | 8x GPU | 라즈베리파이(E2B) | 노트북 가능 |
| LMArena | ~1430 | ~1450 | ~1452 | ~1441 |
언제 뭘 쓸까?
- 초장문 컨텍스트가 필요하면 → Llama 4 Scout (10M 토큰)
- Apache 2.0 라이선스가 필요하면 → Gemma 4
- 온디바이스/경량이 필요하면 → Gemma 4 E2B/E4B
- 비디오/오디오 입력이 필요하면 → Gemma 4
- 최고 멀티모달 성능이 필요하면 → Llama 4 Maverick
- 비용 효율 서빙이 필요하면 → Gemma 4 26B MoE (3.8B 활성)
5. 실전 사용 가이드
5-1. Hugging Face Transformers
# 설치
pip install -U transformers huggingface_hub[hf_xet]
# Scout 모델 로드 (INT4 양자화 - 단일 GPU)
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
5-2. 멀티모달 사용 (이미지 분석)
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": "https://example.com/chart.png"},
{"type": "text", "text": "이 차트를 분석해줘"}
]
}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
response = processor.batch_decode(
outputs[:, inputs["input_ids"].shape[-1]:]
)[0]
print(response)
5-3. Maverick (8 GPU 텐서 병렬)
# Maverick은 멀티 GPU 필요
# torchrun으로 실행
torchrun --nproc-per-instance=8 inference.py
# FP8 양자화 버전 사용 가능
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
5-4. Ollama (로컬 실행)
# Scout (가장 쉬운 방법)
ollama run llama4-scout
# 대화
>>> 이 코드의 시간 복잡도를 분석해줘
>>> [이미지 첨부] 이 아키텍처 다이어그램을 설명해줘
6. 라이선스 주의사항
Llama 4는 Llama Community License를 사용한다. Apache 2.0인 Gemma 4와 달리 제약이 있다:
- MAU 7억 제한: 월간 활성 사용자 7억 명 초과 시 Meta 별도 허가 필요
- Acceptable Use Policy: Meta의 사용 정책 준수 필수
- 귀속 표시: "Built with Llama" 표기 필요
대부분의 개인/기업에게는 문제없지만, 대규모 서비스를 운영할 경우 라이선스를 반드시 확인해야 한다.
7. Behemoth - 미공개 교사 모델
Meta는 Llama 4 Behemoth를 프리뷰했다. Spring AI로 Llama 4 백엔드 통합하기 MATH-500과 GPQA Diamond에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 능가한다고 주장한다.
Behemoth는 공개 모델이 아니라 교사 모델(Teacher Model)로, Maverick과 Scout을 훈련시키는 데 사용된다. Co-distillation을 통해 Behemoth의 지식이 작은 모델로 전달되는 구조다.
향후 공개 여부는 미정이지만, Llama 역사상 가장 강력한 모델이라는 점은 분명하다.
마치며
Llama 4는 Meta의 오픈소스 AI 전략에서 가장 야심찬 도약이다.
- Scout: 17B 활성으로 단일 H100에서 10M 컨텍스트 처리 - 효율의 극치
- Maverick: 17B 활성으로 GPT-4o급 성능 - 증류의 힘
- Behemoth: 공개 모델의 성능 천장을 끌어올리는 교사
2026년 4월 첫째 주는 AI 역사에 기록될 만하다. Gemma 4(4/2), Llama 4(4/5)가 3일 간격으로 출시되며 오픈소스 AI의 골든 크로스가 일어났다. Alibaba Qwen 3.5로 오픈소스 AI 삼국지 완성하기 개발자에게는 선택지가 넘쳐나는, 그 어느 때보다 좋은 시대다. MCP로 AI 에이전트 통합 표준화하기
'AI' 카테고리의 다른 글
| Claude Code Ultraplan 완벽 가이드 - 터미널은 자유롭게, 계획은 클라우드에서 (0) | 2026.04.13 |
|---|---|
| Alibaba Qwen 3.5 완벽 정리 - 201개 언어, GPT-5.2를 넘었다는 중국의 오픈소스 AI (0) | 2026.04.09 |
| Google Gemma 모델의 역사 - 1.0부터 4까지, 오픈소스 AI의 진화를 한눈에 (0) | 2026.04.08 |
| Google Gemma 4 완벽 정리 - 라즈베리파이에서도 돌아가는 오픈소스 AI의 새 기준 (0) | 2026.04.07 |
| Everything Claude Code(ECC) 완벽 가이드 - 혼자서 팀처럼 개발하는 에이전트 하네스 셋업 (0) | 2026.04.07 |