AI

Meta Llama 4 완벽 정리 - Scout, Maverick, Behemoth로 본 오픈소스 AI 전쟁

백엔드 개발자 김승원 2026. 4. 9. 15:20

들어가며

2026년 4월 5일, Meta가 Llama 4를 공개했다. Google Gemma 4 출시(4월 2일) 불과 3일 만이다. Google Gemma 4 완벽 정리 먼저 보기 Llama 시리즈 최초로 MoE(Mixture of Experts) 아키텍처를 도입했고 Google Gemma 모델의 역사와 진화, Scout 모델은 10M(천만) 토큰 컨텍스트 윈도우라는 업계 최대 기록을 세웠다.

이 글에서는 Llama 4의 두 공개 모델 ScoutMaverick, 그리고 미공개 Behemoth의 아키텍처, 성능, 실전 활용법을 정리한다.

1. 모델 라인업

모델 활성 파라미터 총 파라미터 전문가 수 컨텍스트 (IT) 특징
Scout 17B ~109B 16 10M 단일 H100 GPU 가능
Maverick 17B ~400B 128 1M GPT-4o급 성능
Behemoth 미공개 미공개 미공개 미공개 교사 모델 (비공개)

두 모델 모두 활성 파라미터는 17B로 동일하지만, 전문가 수(16 vs 128)와 총 파라미터(109B vs 400B)에서 차이가 난다. Maverick은 Behemoth로부터 공동 증류(Co-distillation)되어 작지만 강력하다.

2. 아키텍처 혁신

Llama 4는 단순히 모델을 키운 것이 아니라, 여러 핵심 아키텍처 혁신을 도입했다.

2-1. iRoPE (Interleaved RoPE)

Llama 4의 가장 독특한 설계. 매 4개 레이어 중 1개는 NoPE(No Positional Encoding) 레이어로, 위치 인코딩 없이 전체 컨텍스트에 대한 풀 어텐션을 수행한다.

# iRoPE 구조 (4개 레이어 기준)
Layer 1: RoPE + Chunked Attention (8K 블록)
Layer 2: RoPE + Chunked Attention (8K 블록)
Layer 3: RoPE + Chunked Attention (8K 블록)
Layer 4: NoPE + Full Causal Mask (전체 컨텍스트)

→ NoPE 레이어가 긴 컨텍스트 연결을 담당
→ RoPE 레이어가 로컬 패턴을 담당

이 설계 덕분에 Scout은 10M 토큰이라는 초장문 컨텍스트를 처리할 수 있다.

2-2. Chunked Attention

RoPE 레이어에서는 컨텍스트를 8,192 토큰 단위 청크로 분할하여 어텐션을 수행한다. 메모리 효율적인 슬라이딩 윈도우 방식.

# Chunked Attention 시각화 (청크 크기 3 예시)
'What'       :  ■ ⬚ ⬚ ⬚ ⬚ ⬚  (청크 1)
'is'         :  ■ ■ ⬚ ⬚ ⬚ ⬚  (청크 1)
'chunked'    :  ■ ■ ■ ⬚ ⬚ ⬚  (청크 1)
'attention'  :  ⬚ ⬚ ⬚ ■ ⬚ ⬚  (청크 2)
'really'     :  ⬚ ⬚ ⬚ ■ ■ ⬚  (청크 2)
'?'          :  ⬚ ⬚ ⬚ ■ ■ ■  (청크 2)

→ 각 토큰은 자기 청크 내부만 참조
→ NoPE 레이어에서 청크 간 연결

2-3. Attention Temperature Tuning

긴 시퀀스에서 어텐션 확률이 희석되는 문제를 해결하기 위해, NoPE 레이어에서 스케일드 소프트맥스를 적용. Scout의 10M 컨텍스트를 가능케 한 핵심 기술.

2-4. MoE 인터리빙

모델 MoE 구조 설명
Scout Full MoE 모든 레이어가 MoE (16 전문가)
Maverick MoE + Dense 교번 50% MoE + 50% Dense 레이어 (128 전문가)

2-5. Co-distillation

Maverick은 Behemoth(초대형 교사 모델)로부터 학습하며 훈련된다. 학생 모델과 교사 모델의 로짓을 동적 가중치로 결합하는 방식. 이 덕분에 17B 활성 파라미터만으로도 GPT-4o급 성능을 달성했다.

3. 벤치마크 성능

추론 및 지식

벤치마크 Scout Maverick Llama 3.1 405B GPT-4o
MMLU Pro 74.3 80.5 73.4 -
GPQA Diamond 57.2 69.8 49.0 -
MATH-500 - - - -

코딩

벤치마크 Scout Maverick Llama 3.3 70B
LiveCodeBench 32.8 43.4 33.3
MBPP 67.8 77.6 -

멀티모달 (이미지)

벤치마크 Scout Maverick 설명
MMMU 73.4 73.4 이미지 추론
ChartQA 90.0 - 차트 이해
DocVQA 94.4 94.4 문서 이해

Scout은 활성 17B만으로 Llama 3.1 405B에 필적하는 성능을 보여준다. Maverick은 GPT-4o와 Gemini 2.0 Flash를 능가한다.

4. Llama 4 vs Gemma 4 비교

같은 주에 출시된 두 모델을 비교해보자.

항목 Llama 4 Scout Llama 4 Maverick Gemma 4 31B Gemma 4 26B MoE
활성 파라미터 17B 17B 30.7B 3.8B
총 파라미터 ~109B ~400B 30.7B 25.2B
컨텍스트 10M 1M 256K 256K
멀티모달 텍스트+이미지 텍스트+이미지 텍스트+이미지+비디오 텍스트+이미지+비디오
오디오 X X E2B/E4B만 X
사고 모드 X X O O
라이선스 Llama Community License Apache 2.0
온디바이스 단일 H100 8x GPU 라즈베리파이(E2B) 노트북 가능
LMArena ~1430 ~1450 ~1452 ~1441

언제 뭘 쓸까?

  • 초장문 컨텍스트가 필요하면 → Llama 4 Scout (10M 토큰)
  • Apache 2.0 라이선스가 필요하면 → Gemma 4
  • 온디바이스/경량이 필요하면 → Gemma 4 E2B/E4B
  • 비디오/오디오 입력이 필요하면 → Gemma 4
  • 최고 멀티모달 성능이 필요하면 → Llama 4 Maverick
  • 비용 효율 서빙이 필요하면 → Gemma 4 26B MoE (3.8B 활성)

5. 실전 사용 가이드

5-1. Hugging Face Transformers

# 설치
pip install -U transformers huggingface_hub[hf_xet]

# Scout 모델 로드 (INT4 양자화 - 단일 GPU)
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

5-2. 멀티모달 사용 (이미지 분석)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://example.com/chart.png"},
            {"type": "text", "text": "이 차트를 분석해줘"}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)
response = processor.batch_decode(
    outputs[:, inputs["input_ids"].shape[-1]:]
)[0]
print(response)

5-3. Maverick (8 GPU 텐서 병렬)

# Maverick은 멀티 GPU 필요
# torchrun으로 실행
torchrun --nproc-per-instance=8 inference.py

# FP8 양자화 버전 사용 가능
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"

5-4. Ollama (로컬 실행)

# Scout (가장 쉬운 방법)
ollama run llama4-scout

# 대화
>>> 이 코드의 시간 복잡도를 분석해줘
>>> [이미지 첨부] 이 아키텍처 다이어그램을 설명해줘

6. 라이선스 주의사항

Llama 4는 Llama Community License를 사용한다. Apache 2.0인 Gemma 4와 달리 제약이 있다:

  • MAU 7억 제한: 월간 활성 사용자 7억 명 초과 시 Meta 별도 허가 필요
  • Acceptable Use Policy: Meta의 사용 정책 준수 필수
  • 귀속 표시: "Built with Llama" 표기 필요

대부분의 개인/기업에게는 문제없지만, 대규모 서비스를 운영할 경우 라이선스를 반드시 확인해야 한다.

7. Behemoth - 미공개 교사 모델

Meta는 Llama 4 Behemoth를 프리뷰했다. Spring AI로 Llama 4 백엔드 통합하기 MATH-500과 GPQA Diamond에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 능가한다고 주장한다.

Behemoth는 공개 모델이 아니라 교사 모델(Teacher Model)로, Maverick과 Scout을 훈련시키는 데 사용된다. Co-distillation을 통해 Behemoth의 지식이 작은 모델로 전달되는 구조다.

향후 공개 여부는 미정이지만, Llama 역사상 가장 강력한 모델이라는 점은 분명하다.

마치며

Llama 4는 Meta의 오픈소스 AI 전략에서 가장 야심찬 도약이다.

  • Scout: 17B 활성으로 단일 H100에서 10M 컨텍스트 처리 - 효율의 극치
  • Maverick: 17B 활성으로 GPT-4o급 성능 - 증류의 힘
  • Behemoth: 공개 모델의 성능 천장을 끌어올리는 교사

2026년 4월 첫째 주는 AI 역사에 기록될 만하다. Gemma 4(4/2), Llama 4(4/5)가 3일 간격으로 출시되며 오픈소스 AI의 골든 크로스가 일어났다. Alibaba Qwen 3.5로 오픈소스 AI 삼국지 완성하기 개발자에게는 선택지가 넘쳐나는, 그 어느 때보다 좋은 시대다. MCP로 AI 에이전트 통합 표준화하기