Meta Llama 4 완벽 정리 - Scout, Maverick, Behemoth로 본 오픈소스 AI 전쟁

백엔드 개발자 김승원 2026. 4. 9. 15:20

들어가며

2026년 4월 5일, Meta가 Llama 4를 공개했다. Google Gemma 4 출시(4월 2일) 불과 3일 만이다. Google Gemma 4 완벽 정리 먼저 보기 Llama 시리즈 최초로 MoE(Mixture of Experts) 아키텍처를 도입했고 Google Gemma 모델의 역사와 진화, Scout 모델은 10M(천만) 토큰 컨텍스트 윈도우라는 업계 최대 기록을 세웠다.

이 글에서는 Llama 4의 두 공개 모델 Scout와 Maverick, 그리고 미공개 Behemoth의 아키텍처, 성능, 실전 활용법을 정리한다.

1. 모델 라인업

모델	활성 파라미터	총 파라미터	전문가 수	컨텍스트 (IT)	특징
Scout	17B	~109B	16	10M	단일 H100 GPU 가능
Maverick	17B	~400B	128	1M	GPT-4o급 성능
Behemoth	미공개	미공개	미공개	미공개	교사 모델 (비공개)

두 모델 모두 활성 파라미터는 17B로 동일하지만, 전문가 수(16 vs 128)와 총 파라미터(109B vs 400B)에서 차이가 난다. Maverick은 Behemoth로부터 공동 증류(Co-distillation)되어 작지만 강력하다.

2. 아키텍처 혁신

Llama 4는 단순히 모델을 키운 것이 아니라, 여러 핵심 아키텍처 혁신을 도입했다.

2-1. iRoPE (Interleaved RoPE)

Llama 4의 가장 독특한 설계. 매 4개 레이어 중 1개는 NoPE(No Positional Encoding) 레이어로, 위치 인코딩 없이 전체 컨텍스트에 대한 풀 어텐션을 수행한다.

# iRoPE 구조 (4개 레이어 기준)
Layer 1: RoPE + Chunked Attention (8K 블록)
Layer 2: RoPE + Chunked Attention (8K 블록)
Layer 3: RoPE + Chunked Attention (8K 블록)
Layer 4: NoPE + Full Causal Mask (전체 컨텍스트)

→ NoPE 레이어가 긴 컨텍스트 연결을 담당
→ RoPE 레이어가 로컬 패턴을 담당

이 설계 덕분에 Scout은 10M 토큰이라는 초장문 컨텍스트를 처리할 수 있다.

2-2. Chunked Attention

RoPE 레이어에서는 컨텍스트를 8,192 토큰 단위 청크로 분할하여 어텐션을 수행한다. 메모리 효율적인 슬라이딩 윈도우 방식.

# Chunked Attention 시각화 (청크 크기 3 예시)
'What'       :  ■ ⬚ ⬚ ⬚ ⬚ ⬚  (청크 1)
'is'         :  ■ ■ ⬚ ⬚ ⬚ ⬚  (청크 1)
'chunked'    :  ■ ■ ■ ⬚ ⬚ ⬚  (청크 1)
'attention'  :  ⬚ ⬚ ⬚ ■ ⬚ ⬚  (청크 2)
'really'     :  ⬚ ⬚ ⬚ ■ ■ ⬚  (청크 2)
'?'          :  ⬚ ⬚ ⬚ ■ ■ ■  (청크 2)

→ 각 토큰은 자기 청크 내부만 참조
→ NoPE 레이어에서 청크 간 연결

2-3. Attention Temperature Tuning

긴 시퀀스에서 어텐션 확률이 희석되는 문제를 해결하기 위해, NoPE 레이어에서 스케일드 소프트맥스를 적용. Scout의 10M 컨텍스트를 가능케 한 핵심 기술.

2-4. MoE 인터리빙

모델	MoE 구조	설명
Scout	Full MoE	모든 레이어가 MoE (16 전문가)
Maverick	MoE + Dense 교번	50% MoE + 50% Dense 레이어 (128 전문가)

2-5. Co-distillation

Maverick은 Behemoth(초대형 교사 모델)로부터 학습하며 훈련된다. 학생 모델과 교사 모델의 로짓을 동적 가중치로 결합하는 방식. 이 덕분에 17B 활성 파라미터만으로도 GPT-4o급 성능을 달성했다.

3. 벤치마크 성능

추론 및 지식

벤치마크	Scout	Maverick	Llama 3.1 405B	GPT-4o
MMLU Pro	74.3	80.5	73.4	-
GPQA Diamond	57.2	69.8	49.0	-
MATH-500	-	-	-	-

코딩

벤치마크	Scout	Maverick	Llama 3.3 70B
LiveCodeBench	32.8	43.4	33.3
MBPP	67.8	77.6	-

멀티모달 (이미지)

벤치마크	Scout	Maverick	설명
MMMU	73.4	73.4	이미지 추론
ChartQA	90.0	-	차트 이해
DocVQA	94.4	94.4	문서 이해

Scout은 활성 17B만으로 Llama 3.1 405B에 필적하는 성능을 보여준다. Maverick은 GPT-4o와 Gemini 2.0 Flash를 능가한다.

4. Llama 4 vs Gemma 4 비교

같은 주에 출시된 두 모델을 비교해보자.

항목	Llama 4 Scout	Llama 4 Maverick	Gemma 4 31B	Gemma 4 26B MoE
활성 파라미터	17B	17B	30.7B	3.8B
총 파라미터	~109B	~400B	30.7B	25.2B
컨텍스트	10M	1M	256K	256K
멀티모달	텍스트+이미지	텍스트+이미지	텍스트+이미지+비디오	텍스트+이미지+비디오
오디오	X	X	E2B/E4B만	X
사고 모드	X	X	O	O
라이선스	Llama Community License		Apache 2.0
온디바이스	단일 H100	8x GPU	라즈베리파이(E2B)	노트북 가능
LMArena	~1430	~1450	~1452	~1441

언제 뭘 쓸까?

초장문 컨텍스트가 필요하면 → Llama 4 Scout (10M 토큰)
Apache 2.0 라이선스가 필요하면 → Gemma 4
온디바이스/경량이 필요하면 → Gemma 4 E2B/E4B
비디오/오디오 입력이 필요하면 → Gemma 4
최고 멀티모달 성능이 필요하면 → Llama 4 Maverick
비용 효율 서빙이 필요하면 → Gemma 4 26B MoE (3.8B 활성)

5. 실전 사용 가이드

5-1. Hugging Face Transformers

# 설치
pip install -U transformers huggingface_hub[hf_xet]

# Scout 모델 로드 (INT4 양자화 - 단일 GPU)
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

5-2. 멀티모달 사용 (이미지 분석)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://example.com/chart.png"},
            {"type": "text", "text": "이 차트를 분석해줘"}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)
response = processor.batch_decode(
    outputs[:, inputs["input_ids"].shape[-1]:]
)[0]
print(response)

5-3. Maverick (8 GPU 텐서 병렬)

# Maverick은 멀티 GPU 필요
# torchrun으로 실행
torchrun --nproc-per-instance=8 inference.py

# FP8 양자화 버전 사용 가능
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"

5-4. Ollama (로컬 실행)

# Scout (가장 쉬운 방법)
ollama run llama4-scout

# 대화
>>> 이 코드의 시간 복잡도를 분석해줘
>>> [이미지 첨부] 이 아키텍처 다이어그램을 설명해줘

6. 라이선스 주의사항

Llama 4는 Llama Community License를 사용한다. Apache 2.0인 Gemma 4와 달리 제약이 있다:

MAU 7억 제한: 월간 활성 사용자 7억 명 초과 시 Meta 별도 허가 필요
Acceptable Use Policy: Meta의 사용 정책 준수 필수
귀속 표시: "Built with Llama" 표기 필요

대부분의 개인/기업에게는 문제없지만, 대규모 서비스를 운영할 경우 라이선스를 반드시 확인해야 한다.

7. Behemoth - 미공개 교사 모델

Meta는 Llama 4 Behemoth를 프리뷰했다. Spring AI로 Llama 4 백엔드 통합하기 MATH-500과 GPQA Diamond에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 능가한다고 주장한다.

Behemoth는 공개 모델이 아니라 교사 모델(Teacher Model)로, Maverick과 Scout을 훈련시키는 데 사용된다. Co-distillation을 통해 Behemoth의 지식이 작은 모델로 전달되는 구조다.

향후 공개 여부는 미정이지만, Llama 역사상 가장 강력한 모델이라는 점은 분명하다.

마치며

Llama 4는 Meta의 오픈소스 AI 전략에서 가장 야심찬 도약이다.

Scout: 17B 활성으로 단일 H100에서 10M 컨텍스트 처리 - 효율의 극치
Maverick: 17B 활성으로 GPT-4o급 성능 - 증류의 힘
Behemoth: 공개 모델의 성능 천장을 끌어올리는 교사

2026년 4월 첫째 주는 AI 역사에 기록될 만하다. Gemma 4(4/2), Llama 4(4/5)가 3일 간격으로 출시되며 오픈소스 AI의 골든 크로스가 일어났다. Alibaba Qwen 3.5로 오픈소스 AI 삼국지 완성하기 개발자에게는 선택지가 넘쳐나는, 그 어느 때보다 좋은 시대다. MCP로 AI 에이전트 통합 표준화하기

'AI' 카테고리의 다른 글

Claude Code Ultraplan 완벽 가이드 - 터미널은 자유롭게, 계획은 클라우드에서 (0)	2026.04.13
Alibaba Qwen 3.5 완벽 정리 - 201개 언어, GPT-5.2를 넘었다는 중국의 오픈소스 AI (0)	2026.04.09
Google Gemma 모델의 역사 - 1.0부터 4까지, 오픈소스 AI의 진화를 한눈에 (0)	2026.04.08
Google Gemma 4 완벽 정리 - 라즈베리파이에서도 돌아가는 오픈소스 AI의 새 기준 (0)	2026.04.07
Everything Claude Code(ECC) 완벽 가이드 - 혼자서 팀처럼 개발하는 에이전트 하네스 셋업 (0)	2026.04.07

현재글Meta Llama 4 완벽 정리 - Scout, Maverick, Behemoth로 본 오픈소스 AI 전쟁

개발 일상 | 백엔드 김승원의 실무 노트

3~7년차 백엔드 개발자를 위한 실무 의사결정 노트. Spring/JPA/Kafka/아키텍처/AI 통합 등 현업에서 부딪힌 선택과 트레이드오프를 정리합니다.

ai 에이전트, LLM, Anthropic, Java, claude code, JPA, codex, ai agent, spring ai, github actions, GPT-5.4, DevOps, 백엔드, PostgreSQL, MCP, spring boot, docker, openai, AI 코딩, 오픈소스 AI,

Today :
Yesterday :

개발 일상 | 백엔드 김승원의 실무 노트