AI

Google Gemma 모델의 역사 - 1.0부터 4까지, 오픈소스 AI의 진화를 한눈에

백엔드 개발자 김승원 2026. 4. 8. 16:53

들어가며

최근 사내 위키 검색에 LLM을 얹어보는 사이드 프로젝트를 시작했습니다. 보안 요건상 외부 API는 못 쓰고, 노트북 한 대에서 돌아가야 한다는 제약이 있었습니다. 후보를 추리다 보니 결국 Gemma 3와 Gemma 4 사이에서 고민하게 됐는데, "두 모델이 뭐가 그렇게 다르길래?"라는 질문에 스스로 답을 못 하고 있는 제 모습을 발견했습니다.

백엔드 개발자라면 비슷한 상황이 익숙할 것입니다. 팀에서 "RAG 한번 해볼까?"라는 이야기가 나오고, 몇 주 후 슬쩍 "온프레미스로 돌릴 수 있는 모델 하나 골라줘"라는 요청이 돌아옵니다. Llama, Qwen, Gemma, Mistral — 이름은 많이 들었지만 각 모델이 언제 뭐가 어떻게 바뀌었는지, 어떤 기준으로 골라야 하는지 정리된 글을 찾기는 쉽지 않습니다. 특히 Gemma는 2년 사이에 4세대까지 나오면서 변종 모델만 해도 10개가 넘습니다.

2024년 2월 Gemma 1.0이 공개된 이후, 2년 만에 누적 다운로드 1.5억 회를 넘겼고 Hugging Face에는 7만 개 이상의 변종 모델이 올라와 있습니다. 그 사이 컨텍스트 윈도우는 8K에서 128K로 16배 늘었고, 라이선스는 제한적이었던 Gemma License에서 Apache 2.0으로 완전히 열렸으며, 멀티모달은 텍스트에서 이미지, 오디오, 비디오까지 확장되었습니다. 매 세대마다 게임의 룰이 바뀐 셈입니다.

이 글에서는 Gemma 1.0부터 4까지, 각 버전의 핵심 변화와 CodeGemma, PaliGemma, MedGemma 같은 특수 변종 모델들을 시간순으로 정리합니다. 읽고 나면 다음번 모델 선택 회의에서 "왜 이 모델이 우리 상황에 맞는지"를 근거와 함께 설명할 수 있을 것입니다.

1. 전체 타임라인

날짜 모델 크기 핵심 변화
2024.02.21 Gemma 1.0 2B, 7B Google 첫 오픈 웨이트 LLM
2024.04.05 Gemma 1.1 2B, 7B 성능 개선 및 버그 수정
2024.04.09 CodeGemma 2B, 7B 코드 생성 특화
2024.04.11 RecurrentGemma 2B, 9B Griffin 아키텍처 (비트랜스포머)
2024.06.27 Gemma 2 2B, 9B, 27B GQA, 지식 증류, 2배 학습 데이터
2024.07.10 PaliGemma 3B 비전-언어 멀티모달
2024.12.04 PaliGemma 2 3B, 10B, 28B 확장된 비전-언어 태스크
2025.03.12 Gemma 3 1B, 4B, 12B, 27B 128K 컨텍스트, 이미지 입력, 140개 언어
2025.후반 Gemma 3n E2B, E4B 온디바이스 최적화 (폰, 노트북, 태블릿)
2026.04.02 Gemma 4 E2B, E4B, 26B MoE, 31B Apache 2.0, 오디오/비디오, 사고 모드, MoE Google Gemma 4 완벽 정리 자세히 보기

2. Gemma 1.0 - 시작 (2024년 2월)

왜 만들었나?

Meta의 Llama 2가 오픈소스 LLM 시장을 선점한 상황에서 Meta Llama 4 최신 버전 비교, Google이 Gemini의 기술력을 기반으로 한 경량 오픈 모델로 대응한 것입니다.

스펙

항목 Gemma 2B Gemma 7B
파라미터 2B 7B
컨텍스트 8,192 토큰 8,192 토큰
어텐션 Multi-Query Multi-Head
멀티모달 없음 (텍스트만) 없음
라이선스 Gemma License (제한적)

2B 모델은 7B에서 지식 증류(Knowledge Distillation)로 만들어졌다. 작지만 7B의 지식을 압축 담고 있는 구조.

한계

  • 컨텍스트 윈도우가 8K로 작음
  • 텍스트만 지원 (이미지, 코드 특화 없음)
  • Gemma License로 상업적 제약 존재

3. 특수 변종들 (2024년 4~7월)

CodeGemma (2024.04)

Gemma 1.0을 코드 생성에 특화시킨 모델입니다. Python, Java, C++ 등을 지원하며, 코드 완성과 생성에 최적화되었습니다.

RecurrentGemma (2024.04)

가장 독특한 변종. 트랜스포머 대신 Griffin 아키텍처를 사용합니다. 이론적으로 무한 컨텍스트가 가능하지만, 학습은 8K 토큰으로 진행되었습니다. RNN의 장점(메모리 효율)과 트랜스포머의 장점(병렬 처리)을 결합한 실험적 모델.

PaliGemma (2024.07)

Google의 비전-언어 모델. SigLIP 이미지 인코더와 Gemma 2B를 결합하여 이미지 + 텍스트 입력 → 텍스트 출력이 가능합니다. 이미지 캡셔닝, VQA(Visual Question Answering) 등에 활용.

PaliGemma 2 (2024.12)

Gemma 2 기반으로 업그레이드. 3B, 10B, 28B 세 가지 크기로 확장되었고, 더 다양한 비전-언어 태스크를 처리할 수 있게 되었습니다.

4. Gemma 2 - 효율의 혁신 (2024년 6월)

핵심 변화

  • 2배 학습 데이터: 웹 문서, 코드, 과학 논문으로 구성된 훨씬 큰 데이터셋
  • Grouped-Query Attention (GQA): Multi-Head 대비 메모리 효율 대폭 개선
  • Sliding Window Attention: 긴 시퀀스 처리 효율화
  • Logit Soft-capping: 출력 안정성 향상
  • 지식 증류 확대: 9B는 27B에서, 2B는 미공개 7B에서 증류

스펙 비교

항목 Gemma 1 (7B) Gemma 2 (9B) Gemma 2 (27B)
파라미터 7B 9B 27B
컨텍스트 8K 8K 8K
어텐션 Multi-Head GQA GQA
증류 - 27B에서 증류 -

Gemma 2는 "크기 대비 성능"에 집중했습니다. 같은 크기의 다른 오픈소스 모델을 대부분 능가하는 벤치마크를 기록했습니다.

5. Gemma 3 - 멀티모달의 도약 (2025년 3월)

게임 체인저: 3가지 혁신

1. 128K 컨텍스트 윈도우

8K → 128K로 16배 확장. Gemma 2의 8K 한계를 완전히 뛰어넘었다. 긴 문서, 코드베이스 전체를 한번에 처리할 수 있게 되었습니다.

2. 멀티모달 지원

SigLIP 비전 인코더를 통합하여 이미지 입력이 가능해졌다 (1B 제외). 별도의 PaliGemma 없이 메인 모델에서 직접 이미지를 이해합니다.

3. 140개 이상 언어 지원

한국어를 포함한 140개 이상의 언어를 지원하며, 글로벌 활용성이 크게 향상되었습니다.

스펙

항목 1B 4B 12B 27B
컨텍스트 32K 128K 128K 128K
멀티모달 텍스트만 텍스트+이미지 텍스트+이미지 텍스트+이미지
어텐션 GQA + 교번 어텐션 (로컬/글로벌)
Function Calling 지원

특히 27B 모델은 LMArena에서 GPT-4o mini를 능가하며, 오픈소스 모델의 새로운 기준을 세웠다.

6. Gemma 4 - 완전한 오픈소스 (2026년 4월)

4가지 결정적 변화

1. Apache 2.0 라이선스

제한적이었던 Gemma License에서 Apache 2.0으로 전환. 상업적 사용 완전 자유, MAU 제한 없음. Llama 4의 커뮤니티 라이선스보다 더 개방적입니다.

2. MoE (Mixture of Experts) 도입

26B-A4B 모델은 128개 전문가 중 8+1개만 활성화하여, 총 25.2B 파라미터에서 3.8B만 사용하면서도 26B급 성능을 낸다. 비용 효율성의 게임 체인저.

3. 네이티브 오디오/비디오

E2B, E4B는 오디오 입력을, 26B/31B는 비디오 입력을 지원합니다. 텍스트 → 이미지 → 오디오 → 비디오로 멀티모달 범위가 확장되었습니다.

4. 사고 모드 (Thinking Mode)

모든 모델에서 활성화 가능한 확장 추론 모드. 복잡한 수학, 코딩, 분석 문제에서 정확도가 크게 향상됩니다.

성능 도약

벤치마크 Gemma 3 (27B) Gemma 4 (31B) 향상
AIME 2026 (수학) 20.8% 89.2% +68.4%p
LiveCodeBench (코딩) 29.1% 80.0% +50.9%p
GPQA Diamond (과학) 42.4% 84.3% +41.9%p
BigBench Extra Hard 19.3% 74.4% +55.1%p

세대 간 성능 차이가 압도적입니다. 특히 수학(AIME)은 20.8% → 89.2%로, 단순 개선이 아닌 질적 도약입니다.

7. 세대별 아키텍처 진화

항목 Gemma 1 Gemma 2 Gemma 3 Gemma 4
어텐션 MHA/MQA GQA GQA + 교번 GQA + 교번 + 듀얼 RoPE
컨텍스트 8K 8K 128K 128K~256K
멀티모달 텍스트 텍스트 텍스트+이미지 텍스트+이미지+오디오+비디오
라이선스 Gemma License Gemma License Gemma License Apache 2.0
효율 기법 증류 증류+GQA 증류+GQA+교번 PLE+MoE+공유KV
추론 모드 - - - Thinking Mode
도구 호출 - - Function Calling Native Tool Use

8. 특수 목적 변종 모델

모델 용도 크기 특징
CodeGemma 코드 생성 2B, 7B Python, Java, C++ 특화
RecurrentGemma 연구 2B, 9B Griffin(비트랜스포머), 이론상 무한 컨텍스트
PaliGemma 비전-언어 3B SigLIP + Gemma 1, 이미지 분석
PaliGemma 2 비전-언어 3B~28B SigLIP + Gemma 2, 확장된 비전 태스크
ShieldGemma 2 콘텐츠 안전 4B 폭력/위험/성적 이미지 필터링
MedGemma 의료 4B, 27B 의료 분야 특화 (비임상)
DolphinGemma 동물 연구 ~400M 돌고래 커뮤니케이션 분석 (비공개)
Gemma 3n 온디바이스 E2B, E4B 폰/태블릿/노트북 최적화

9. Gemma vs 경쟁 모델

항목 Gemma 4 31B Llama 4 Scout Qwen 3.5 32B
라이선스 Apache 2.0 Community License Apache 2.0
컨텍스트 256K 512K 128K
멀티모달 텍스트+이미지+비디오 텍스트+이미지 텍스트
사고 모드 O X O
온디바이스 E2B(라즈베리파이) 제한적 제한적
LMArena ELO ~1452 (#3) ~1430 ~1440

10. 개발자가 주목해야 할 포인트

왜 Gemma인가?

  • Google 생태계: Android AICore, Google AI Studio, Vertex AI와 네이티브 통합 Spring AI로 Gemma 모델 활용하기
  • Apache 2.0: Gemma 4부터 완전한 상업적 자유
  • 온디바이스 → 클라우드: E2B(라즈베리파이)부터 31B(서버)까지 동일 패밀리로 스케일링
  • 풍부한 생태계: 1.5억+ 다운로드, 7만+ 변종, 활발한 커뮤니티

시작하기

# 가장 쉬운 시작: Ollama로 로컬 실행
ollama run gemma4:e2b      # 가볍게 시작
ollama run gemma4:26b-a4b  # MoE로 효율적 성능
ollama run gemma4:31b      # 최고 성능

# Python
pip install transformers
from transformers import pipeline
pipe = pipeline("any-to-any", model="google/gemma-4-e4b-it")

마치며

Gemma의 2년은 오픈소스 AI 진화의 축약판입니다.

  • Gemma 1 (2024.02): "Google도 오픈 모델을 한다" - 선언
  • Gemma 2 (2024.06): "크기 대비 최고 성능" - 효율 혁신
  • Gemma 3 (2025.03): "이미지도 보고, 128K도 읽는다" - 멀티모달 도약
  • Gemma 4 (2026.04): "Apache 2.0, 오디오/비디오, 사고 모드" - 완전한 오픈소스

매 세대마다 컨텍스트 윈도우, 멀티모달, 라이선스, 아키텍처가 동시에 진화했습니다. 그리고 그 위에 CodeGemma, PaliGemma, MedGemma 같은 특수 변종이 생태계를 확장하고 있습니다.

다음 세대가 어떤 모습일지 기대됩니다. 지금까지의 패턴대로라면, Gemma 5는 아마 에이전트 네이티브 모델이 되지 않을까 MCP로 AI 에이전트 통합 표준 배우기.